この記事では、Azure HDInsight で Apache Spark を使用する際のさまざまなガイドラインを紹介します。
Spark ジョブを実行または送信する方法
| オプション | ドキュメント |
|---|---|
| Visual Studio Code | Spark & Hive Tools for Visual Studio Code を使用する |
| Jupyter Notebooks | チュートリアル:Azure HDInsight での Apache Spark クラスターへのデータの読み込みとクエリの実行 |
| IntelliJ | チュートリアル:Azure Toolkit for IntelliJ を使用して HDInsight クラスター向けの Apache Spark アプリケーションを作成する |
| IntelliJ | チュートリアル:IntelliJ を使用した HDInsight での Apache Spark の Scala Maven アプリケーションの作成 |
| Zeppelin Notebook | Azure HDInsight 上の Apache Spark クラスターで Apache Zeppelin Notebook を使用する |
| Livy を使用したリモート ジョブの送信 | Apache Spark REST API を使用してリモート ジョブを HDInsight Spark クラスターに送信する |
| Apache Oozie | Oozie は Hadoop ジョブを管理するワークフローおよび調整システムです。 |
| Apache Livy | Livy を使用すると、対話型の Spark シェルを実行したり、Spark で実行されるバッチ ジョブを送信したりすることができます。 |
| Apache Spark 向け Azure Data Factory | Data Factory パイプラインの Spark アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Spark プログラムを実行します。 |
| Apache Hive 向け Azure Data Factory | Data Factory パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Hive クエリを実行します。 |
Spark ジョブを監視およびデバッグする方法
| オプション | Documents |
|---|---|
| Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用した失敗した Spark ジョブのデバッグ (プレビュー) |
| SSH 経由の Azure Toolkit for IntelliJ | ローカルまたはリモートから SSH 経由で Azure Toolkit for IntelliJ を使用して HDInsight クラスター上の Apache Spark アプリケーションをデバッグする |
| VPN 経由の Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用して HDInsight 上で VPN を介して Apache Spark アプリケーションをリモートでデバッグする |
| Apache Spark History Server のジョブ グラフ | 拡張された Apache Spark History Server を使用して Apache Spark アプリケーションのデバッグと診断を行う |
Spark ジョブの実行効率を高める方法
| オプション | Documents |
|---|---|
| IO キャッシュ | Azure HDInsight IO キャッシュ (プレビュー) を使用して Apache Spark のワークロードのパフォーマンスを改善する |
| 構成オプション | Apache Spark ジョブを最適化する |
他の Azure サービスに接続する方法
| オプション | Documents |
|---|---|
| HDInsight 上の Apache Hive | Hive Warehouse Connector を使用して Apache Spark と Apache Hive を統合する |
| HDInsight での Apache HBase | Apache Spark を使用した Apache HBase データの読み取り/書き込み |
| HDInsight での Apache Kafka | チュートリアル:HDInsight で Apache Kafka による Apache Spark 構造化ストリーミングを使用する |
| Azure Cosmos DB | Azure Synapse Link for Azure Cosmos DB |
ストレージ オプションについて
| オプション | Documents |
|---|---|
| Azure Data Lake Storage Gen2 | Azure HDInsight クラスターで Azure Data Lake Storage Gen2 を使用する |
| Azure Blob Storage | Azure HDInsight クラスターで Azure Storage を使用する |