次の方法で共有


完全シャード型データ並列 (FSDP) トレーニング

Important

この機能は ベータ版です

このページには、サーバーレス GPU コンピューティングで完全シャード データ並列 (FSDP) トレーニングを使用するためのノートブックの例が含まれています。 これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。

FSDP2 を使用した 1,000 万パラメーターのトランスフォーマー モデルのトレーニング

次のノートブックは、 FSDP2 ライブラリを使用した 1,000 万個のパラメーター トランスフォーマー モデルの分散トレーニングを示しています。

Notebook

ノートブックを入手