Apache Spark は、Azure Databricks のコンピューティング クラスターと SQL ウェアハウスを活用するテクノロジです。
このページでは、このセクションのドキュメントの概要を示します。
概要
Databricks での Apache Spark の使用を開始します。
| トピック | Description |
|---|---|
| Azure Databricks 上の Apache Spark | Azure Databricks 上の Apache Spark についてよく寄せられる質問に対する回答を取得します。 |
| チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する | データの読み込みと変換のために Python、R、または Scala で Spark DataFrames を操作するためのステップ バイ ステップ ガイドに従います。 |
| PySpark の基本 | 簡単な例を見て、PySpark の使用の基本について説明します。 |
その他のリソース
その他の Spark の機能とドキュメントについて説明します。
| トピック | Description |
|---|---|
| Spark Connect と Spark クラシックの比較 | コードを移行するときの予期しない動作とパフォーマンスの問題を回避するために、実行と分析の動作における Spark Connect と Spark クラシックの主な違いについて説明します。 |
| Azure Databricks で Spark 構成プロパティを設定する | Spark 構成プロパティを設定して、コンピューティング環境の設定をカスタマイズし、パフォーマンスを最適化します。 |
| 構造化ストリーミング | ほぼリアルタイムの処理エンジンである構造化ストリーミングの概要について説明します。 |
| Spark UI を使用してコストとパフォーマンスの問題を診断する | Spark ジョブのパフォーマンスチューニング、デバッグ、コスト最適化に Spark UI を使用する方法について説明します。 |
| Azure Databricks で Apache Spark MLlib を使用する | Spark MLlib を使用した分散機械学習と、一般的な ML フレームワークとの統合。 |
Spark API
任意のプログラミング言語を使用して Spark を操作します。
| トピック | Description |
|---|---|
| Apache Spark API のリファレンス | Apache Spark の API リファレンスの概要。サポートされている言語間での Spark SQL、DataFrames、RDD 操作のリファレンスへのリンクが含まれます。 |
| PySpark | PySpark の基本、カスタム データ ソース、Python 固有の最適化など、Spark で Python を使用します。 |
| Spark 上の Pandas API | 分散データ処理のために Spark のスケーラビリティを備えた使い慣れた pandas 構文を活用します。 |
| R for Spark | SparkR と sparklyr を使用して R と Spark を操作し、統計コンピューティングとデータ分析を行います。 |
| Spark 用 Scala | ネイティブの Spark API とタイプ セーフを使用して Scala を使用して、高パフォーマンスの Spark アプリケーションを構築します。 |