従来の Lakeflow ジョブに役立つ機能と構成に関する一般的な推奨事項について説明します。
クラシック ジョブでは、データ変換シナリオのニーズに合わせて、コンピューティング リソース、ポリシー、パフォーマンス オプションの特定の構成を作成して調整する必要があります。 コンピューティング リソースのサイズと種類を構成するための具体的な推奨事項は、ワークロードによって異なります。 不要な追加コストやパフォーマンス低下を回避するために、クラシック ワークフローの構成を開始する前に、これらのベスト プラクティスを確認してください。
場合によっては、サーバーレス コンピューティングがシナリオに合わせて簡単なソリューションになる場合があります。 ジョブのサーバーレス コンピューティングは、次の考慮事項を不要にし、すべてのインフラストラクチャを管理します。 ワークフローのサーバーレス コンピューティングを使用した Lakeflow ジョブの実行を参照してください。
注
構造化ストリーミング ワークフローには、特定の構成に関する推奨事項があります。 「構造化ストリーミングの運用に関する考慮事項」を参照してください。
ベスト プラクティス
一般的なユース ケースで Photon Acceleration を有効にする
Databricks では、Photon Acceleration を有効にし、最新の Databricks Runtime バージョンを使用し、Unity カタログ用に構成されたコンピューティングを使用することをお勧めします。
標準アクセス モードを使用する (以前の共有アクセス モード)
Databricks では、ジョブに標準アクセス モードを使用することをお勧めします。 「アクセス モード」を参照してください。
クラスター ポリシーの使用
Databricks では、ワークスペース管理者はジョブのクラスター ポリシーを定義し、ジョブを構成するすべてのユーザーに対してこれらのポリシーを適用することをお勧めします。
クラスター ポリシーを使用すると、ワークスペース管理者はコスト制御を設定し、ユーザーの構成オプションを制限できます。 クラスター ポリシーの構成の詳細については、 コンピューティング ポリシーの作成と管理に関するページを参照してください。
Azure Databricks には、ジョブ用に構成された既定のポリシーが用意されています。 管理者は、このポリシーを他のワークスペース ユーザーが使用できるようにします。 「ジョブ コンピューティング」を参照してください。
オートスケーリングを使用する
実行時間の長いタスクがジョブの実行中にワーカー ノードを動的に追加および削除できるように、自動スケールを構成します。 「自動スケールの有効化」を参照してください。
プールを使用してクラスターの開始時刻を短縮する
コンピューティング プールを使用すると、クラウド プロバイダーからコンピューティング リソースを予約できます。 プールは、新しいジョブ クラスターの開始時刻を短縮し、コンピューティング リソースの可用性を確保するのに役立ちます。 「プール構成リファレンス」を参照してください。
スポット インスタンスを使用する
コストを最適化するために待機時間の要件が緩いワークロードのスポット インスタンスを構成します。 スポット インスタンスを参照してください。
汎用コンピューティングをタスクに使うべきですか?
Databricks がジョブに汎用コンピューティングを使用することを推奨しない理由は多数あり、次のようなものが含まれています。
- Azure Databricks は、汎用コンピューティングとジョブコンピューティングを異なるレートで課金します。
- ジョブの実行が完了すると、ジョブを処理するコンピュートが自動的に終了します。 汎用コンピューティング機能では、自動終了機能がサポートされており、これはジョブの実行が終了するのではなく、非アクティブ状態に基づいています。
- 汎用コンピューティングは、多くの場合、ユーザーのチーム間で共有されます。 多くの場合、汎用コンピューティングに対してスケジュールされたジョブは、コンピューティング リソースの競合により待機時間が長くなっています。
- ジョブのコンピューティング構成を最適化するための多くの推奨事項は、アドホック クエリの種類には適していません。また、対話型ワークロードは万能コンピューティングで実行されます。
ジョブに対して汎用コンピューティングを使用する場合のユース ケースを次に示します。
- 新しいジョブを繰り返し開発またはテストしています。 ジョブ コンピューティングの起動時間により、反復的な開発が面倒になる場合があります。 汎用コンピューティングを使用すると、変更を適用してジョブをすばやく実行できます。
- 頻繁に実行するか、特定のスケジュールで実行する必要がある、有効期間の短いジョブがある。 現在実行中の万能コンピューティングに関連付けられている起動時間はありません。 このパターンを使用する場合は、アイドル時間に関連するコストを検討してください。
ジョブ用のサーバーレスコンピューティングは、汎用コンピューティングに対して実行することを検討するほとんどのタスクの種類に推奨される代替手段です。