次の方法で共有


Apache Spark の概要

Apache Spark は、Azure Databricks のコンピューティング クラスターと SQL ウェアハウスを活用するテクノロジです。

このページでは、このセクションのドキュメントの概要を示します。

概要

Databricks での Apache Spark の使用を開始します。

トピック Description
Azure Databricks 上の Apache Spark Azure Databricks 上の Apache Spark についてよく寄せられる質問に対する回答を取得します。
チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する データの読み込みと変換のために Python、R、または Scala で Spark DataFrames を操作するためのステップ バイ ステップ ガイドに従います。
PySpark の基本 簡単な例を見て、PySpark の使用の基本について説明します。

その他のリソース

その他の Spark の機能とドキュメントについて説明します。

トピック Description
Spark Connect と Spark クラシックの比較 コードを移行するときの予期しない動作とパフォーマンスの問題を回避するために、実行と分析の動作における Spark Connect と Spark クラシックの主な違いについて説明します。
Azure Databricks で Spark 構成プロパティを設定する Spark 構成プロパティを設定して、コンピューティング環境の設定をカスタマイズし、パフォーマンスを最適化します。
構造化ストリーミング ほぼリアルタイムの処理エンジンである構造化ストリーミングの概要について説明します。
Spark UI を使用してコストとパフォーマンスの問題を診断する Spark ジョブのパフォーマンスチューニング、デバッグ、コスト最適化に Spark UI を使用する方法について説明します。
Azure Databricks で Apache Spark MLlib を使用する Spark MLlib を使用した分散機械学習と、一般的な ML フレームワークとの統合。

Spark API

任意のプログラミング言語を使用して Spark を操作します。

トピック Description
Apache Spark API のリファレンス Apache Spark の API リファレンスの概要。サポートされている言語間での Spark SQL、DataFrames、RDD 操作のリファレンスへのリンクが含まれます。
PySpark PySpark の基本、カスタム データ ソース、Python 固有の最適化など、Spark で Python を使用します。
Spark 上の Pandas API 分散データ処理のために Spark のスケーラビリティを備えた使い慣れた pandas 構文を活用します。
R for Spark SparkR と sparklyr を使用して R と Spark を操作し、統計コンピューティングとデータ分析を行います。
Spark 用 Scala ネイティブの Spark API とタイプ セーフを使用して Scala を使用して、高パフォーマンスの Spark アプリケーションを構築します。