この記事では、Azure HDInsight で Apache Spark を使用する際のさまざまなガイドラインを紹介します。
Spark ジョブを実行または送信する方法
| オプション | ドキュメント | 
|---|---|
| Visual Studio Code | Spark & Hive Tools for Visual Studio Code を使用する | 
| Jupyter Notebooks | チュートリアル:Azure HDInsight での Apache Spark クラスターへのデータの読み込みとクエリの実行 | 
| IntelliJ | チュートリアル:Azure Toolkit for IntelliJ を使用して HDInsight クラスター向けの Apache Spark アプリケーションを作成する | 
| IntelliJ | チュートリアル:IntelliJ を使用した HDInsight での Apache Spark の Scala Maven アプリケーションの作成 | 
| Zeppelin Notebook | Azure HDInsight 上の Apache Spark クラスターで Apache Zeppelin Notebook を使用する | 
| Livy を使用したリモート ジョブの送信 | Apache Spark REST API を使用してリモート ジョブを HDInsight Spark クラスターに送信する | 
| Apache Oozie | Oozie は Hadoop ジョブを管理するワークフローおよび調整システムです。 | 
| Apache Livy | Livy を使用すると、対話型の Spark シェルを実行したり、Spark で実行されるバッチ ジョブを送信したりすることができます。 | 
| Apache Spark 向け Azure Data Factory | Data Factory パイプラインの Spark アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Spark プログラムを実行します。 | 
| Apache Hive 向け Azure Data Factory | Data Factory パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Hive クエリを実行します。 | 
Spark ジョブを監視およびデバッグする方法
| オプション | Documents | 
|---|---|
| Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用した失敗した Spark ジョブのデバッグ (プレビュー) | 
| SSH 経由の Azure Toolkit for IntelliJ | ローカルまたはリモートから SSH 経由で Azure Toolkit for IntelliJ を使用して HDInsight クラスター上の Apache Spark アプリケーションをデバッグする | 
| VPN 経由の Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用して HDInsight 上で VPN を介して Apache Spark アプリケーションをリモートでデバッグする | 
| Apache Spark History Server のジョブ グラフ | 拡張された Apache Spark History Server を使用して Apache Spark アプリケーションのデバッグと診断を行う | 
Spark ジョブの実行効率を高める方法
| オプション | Documents | 
|---|---|
| IO キャッシュ | Azure HDInsight IO キャッシュ (プレビュー) を使用して Apache Spark のワークロードのパフォーマンスを改善する | 
| 構成オプション | Apache Spark ジョブを最適化する | 
他の Azure サービスに接続する方法
| オプション | Documents | 
|---|---|
| HDInsight 上の Apache Hive | Hive Warehouse Connector を使用して Apache Spark と Apache Hive を統合する | 
| HDInsight での Apache HBase | Apache Spark を使用した Apache HBase データの読み取り/書き込み | 
| HDInsight での Apache Kafka | チュートリアル:HDInsight で Apache Kafka による Apache Spark 構造化ストリーミングを使用する | 
| Azure Cosmos DB | Azure Synapse Link for Azure Cosmos DB | 
ストレージ オプションについて
| オプション | Documents | 
|---|---|
| Azure Data Lake Storage Gen2 | Azure HDInsight クラスターで Azure Data Lake Storage Gen2 を使用する | 
| Azure Blob Storage | Azure HDInsight クラスターで Azure Storage を使用する |