Spark クラスターを作成する

3 分

Azure Databricks ワークスペース UI を使用して、Azure Databricks ワークスペースに 1 つ以上のクラスターを作成できます。

Azure Databricks ワークスペース UI の [クラスターの作成] インターフェイスのスクリーンショット。

クラスターを作成するときに、次のような構成設定を指定できます。

クラスターの名前。
クラスターモード。次の場合があります。
- Standard: 複数のワーカーノードを必要とするシングルユーザーワークロードに適しています。
- 高コンカレンシー: 複数のユーザーがクラスターを同時に使用するワークロードに適しています。
- 単一ノード: 1 つのワーカーノードのみが必要な小規模なワークロードまたはテストに適しています。
クラスターで使用される Databricks ランタイム のバージョン。これは、Spark のバージョンと、インストールされる Python、Scala などの個々のコンポーネントを示します。
クラスター内のワーカーノードに使用される仮想マシン (VM) の種類。
クラスター内のワーカーノードの最小数と最大数。
クラスター内のドライバーノードに使用される VM の種類。
クラスターがクラスターの動的なサイズ変更自動スケールをサポートしているかどうか。
クラスターが自動的にシャットダウンされるまでのアイドル状態を維持できる期間。

Azure でクラスターリソースを管理する方法

Azure Databricks ワークスペースを作成すると、 Databricks アプライアンス がサブスクリプション内の Azure リソースとしてデプロイされます。ワークスペースにクラスターを作成するときは、ドライバーノードとワーカーノードの両方に使用する仮想マシン (VM) の種類とサイズ、およびその他の構成オプションを指定しますが、Azure Databricks はクラスターの他のすべての側面を管理します。

Databricks アプライアンスは、サブスクリプション内の マネージドリソースグループ として Azure にデプロイされます。このリソースグループには、クラスターのドライバー VM とワーカー VM と、仮想ネットワーク、セキュリティグループ、ストレージアカウントなどの他の必要なリソースが含まれます。スケジュールされたジョブなど、クラスターのすべてのメタデータは、フォールトトレランスのために geo レプリケーションを使用して Azure Database に格納されます。

Azure Databricks は、Microsoft によって管理されるバックエンドサービス (Web UI など) と、データワークロードが実行されるコンピューティングプレーンで構成される コントロールプレーンという 2 つの主要 なプレーンに分割されます。コンピューティングには、独自の Azure サブスクリプションと仮想ネットワーク (サブスクリプション内で分離を提供する) を使用するクラシックコンピューティングと、Databricks のマネージド環境内で実行されるが、ワークスペースと同じ Azure リージョン内で実行されるサーバーレスコンピューティングと、顧客間で分離するためのネットワークとセキュリティの制御の 2 つのバリエーションがあります。すべてのワークスペースには、システムデータ (ノートブック、ログ、ジョブメタデータ)、分散ファイルシステム (DBFS)、カタログ資産 (Unity カタログが有効な場合) を保持するストレージアカウントがあり、セキュリティと適切な分離を確保するためのネットワーク、ファイアウォール、アクセスに関する追加の制御が含まれます。

Azure Databricks アーキテクチャの図。

注

また、クラスターの起動時間を短縮するために、アイドル状態のノードプールにクラスターをアタッチすることもできます。詳細については、Azure Databricks ドキュメントのプールを参照してください。

フィードバック

このページはお役に立ちましたか?

Spark クラスターを作成する

Azure でクラスター リソースを管理する方法

フィードバック

Azure でクラスターリソースを管理する方法