Important
この機能は ベータ版です。
このページには、サーバーレス GPU コンピューティングを使用したマルチノードおよびマルチ GPU 分散トレーニングのノートブックの例があります。 これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。
これらのノートブックを実行する前に、 ベスト プラクティスのチェックリストを参照してください。
サーバーレス GPU API: A10 スターター
次のノートブックは、 サーバーレス GPU Python API を使用して分散トレーニング用に複数の A10 GPU を起動する方法の基本的な例を示しています。
Notebook
MLflow 3.0 を使用した分散トレーニング
このノートブックでは、サーバーレス GPU コンピューティングでディープ ラーニングのユース ケース に Databricks で MLflow を使用するためのベスト プラクティスについて説明します。 このノートブックでは、 サーバーレス GPU API を使用して、リモート A10 GPU で単純な分類モデルの分散トレーニングを開始します。 トレーニングは MLflow 実行として追跡されます。
Notebook
PyTorch の分散データ並列 (DDP) を使用した分散トレーニング
次のノートブックは、Azure Databricks 上の PyTorch 分散 データ並列 (DDP) モジュールとサーバーレス GPU コンピューティングを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。
Notebook
PyTorch のフルシャード化データ並列 (FSDP) を用いた分散トレーニング
次のノートブックでは、Azure Databricks 上でサーバーレス GPU コンピューティングを利用し、PyTorch の 完全シャード データ並列 (FSDP) モジュールを使用して、1,000 万個のパラメーターを持つ Transformer モデルの分散トレーニングを示します。
Notebook
Ray を使用した分散トレーニング
このノートブックでは、Databricks サーバーレス GPU クラスター上の Ray Train と Ray Data を使用した FashionMNIST データセットでの PyTorch ResNet モデルの分散トレーニングを示します。 Unity カタログ ストレージの設定、マルチノード GPU トレーニング用の Ray の構成、MLflow を使用したモデルのログ記録と登録、モデルのパフォーマンスの評価について説明します。
Notebook
TRL を使用した分散監視による微調整
このノートブックでは、 サーバーレス GPU Python API を使用して、1 つのノード A10 GPU で DeepSpeed ZeRO Stage 3 最適化を行う TRL ライブラリを使用して、監視対象の微調整 (SFT) を実行する方法を示します。 この方法は、マルチノード セットアップに拡張できます。
Notebook
TRL と DDP を使用した 8 H100 での OpenAI gpt-oss 20B の分散トレーニング
このノートブックでは、 サーバーレス GPU Python API を使用して、TRL ライブラリを使用して Hugging Face から gpt-oss 20B モデルで監視微調整 (SFT) を実行する方法を示します。 ノード上のすべての 8 H100 GPU の DDP を利用して、グローバル バッチ サイズをスケーリングします。
Notebook
TRL と FSDP を使用した 8 H100 での OpenAI gpt-oss 120B の分散トレーニング
このノートブックでは、 サーバーレス GPU Python API を使用して、TRL ライブラリを使用して Hugging Face から gpt-oss 120B モデルで監視微調整 (SFT) を実行する方法を示します。 FSDP を利用してメモリ消費量を削減し、DDP を使用してグローバル バッチ サイズをスケーリングします。