次の方法で共有


マルチ GPU とマルチノード分散トレーニング

Important

この機能は ベータ版です

このページには、サーバーレス GPU コンピューティングを使用したマルチノードおよびマルチ GPU 分散トレーニングのノートブックの例があります。 これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。

これらのノートブックを実行する前に、 ベスト プラクティスのチェックリストを参照してください。

サーバーレス GPU API: A10 スターター

次のノートブックは、 サーバーレス GPU Python API を使用して分散トレーニング用に複数の A10 GPU を起動する方法の基本的な例を示しています。

Notebook

ノートブックを入手

MLflow 3.0 を使用した分散トレーニング

このノートブックでは、サーバーレス GPU コンピューティングでディープ ラーニングのユース ケース に Databricks で MLflow を使用するためのベスト プラクティスについて説明します。 このノートブックでは、 サーバーレス GPU API を使用して、リモート A10 GPU で単純な分類モデルの分散トレーニングを開始します。 トレーニングは MLflow 実行として追跡されます。

Notebook

ノートブックを入手

PyTorch の分散データ並列 (DDP) を使用した分散トレーニング

次のノートブックは、Azure Databricks 上の PyTorch 分散 データ並列 (DDP) モジュールとサーバーレス GPU コンピューティングを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。

Notebook

ノートブックを入手

PyTorch のフルシャード化データ並列 (FSDP) を用いた分散トレーニング

次のノートブックでは、Azure Databricks 上でサーバーレス GPU コンピューティングを利用し、PyTorch の 完全シャード データ並列 (FSDP) モジュールを使用して、1,000 万個のパラメーターを持つ Transformer モデルの分散トレーニングを示します。

Notebook

ノートブックを入手

Ray を使用した分散トレーニング

このノートブックでは、Databricks サーバーレス GPU クラスター上の Ray Train と Ray Data を使用した FashionMNIST データセットでの PyTorch ResNet モデルの分散トレーニングを示します。 Unity カタログ ストレージの設定、マルチノード GPU トレーニング用の Ray の構成、MLflow を使用したモデルのログ記録と登録、モデルのパフォーマンスの評価について説明します。

Notebook

ノートブックを入手

TRL を使用した分散監視による微調整

このノートブックでは、 サーバーレス GPU Python API を使用して、1 つのノード A10 GPU で DeepSpeed ZeRO Stage 3 最適化を行う TRL ライブラリを使用して、監視対象の微調整 (SFT) を実行する方法を示します。 この方法は、マルチノード セットアップに拡張できます。

Notebook

ノートブックを入手

TRL と DDP を使用した 8 H100 での OpenAI gpt-oss 20B の分散トレーニング

このノートブックでは、 サーバーレス GPU Python API を使用して、TRL ライブラリを使用して Hugging Face から gpt-oss 20B モデルで監視微調整 (SFT) を実行する方法を示します。 ノード上のすべての 8 H100 GPU の DDP を利用して、グローバル バッチ サイズをスケーリングします。

Notebook

ノートブックを入手

TRL と FSDP を使用した 8 H100 での OpenAI gpt-oss 120B の分散トレーニング

このノートブックでは、 サーバーレス GPU Python API を使用して、TRL ライブラリを使用して Hugging Face から gpt-oss 120B モデルで監視微調整 (SFT) を実行する方法を示します。 FSDP を利用してメモリ消費量を削減し、DDP を使用してグローバル バッチ サイズをスケーリングします。

Notebook

ノートブックを入手