Apache Spark の概要

Apache Spark は、Azure Databricks のコンピューティングクラスターと SQL ウェアハウスを活用するテクノロジです。

このページでは、このセクションのドキュメントの概要を示します。

概要

Databricks での Apache Spark の使用を開始します。

トピック	Description
Azure Databricks 上の Apache Spark	Azure Databricks 上の Apache Spark についてよく寄せられる質問に対する回答を取得します。
チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する	データの読み込みと変換のために Python、R、または Scala で Spark DataFrames を操作するためのステップバイステップガイドに従います。
PySpark の基本	簡単な例を見て、PySpark の使用の基本について説明します。

その他のリソース

その他の Spark の機能とドキュメントについて説明します。

トピック	Description
Spark Connect と Spark クラシックの比較	コードを移行するときの予期しない動作とパフォーマンスの問題を回避するために、実行と分析の動作における Spark Connect と Spark クラシックの主な違いについて説明します。
Azure Databricks で Spark 構成プロパティを設定する	Spark 構成プロパティを設定して、コンピューティング環境の設定をカスタマイズし、パフォーマンスを最適化します。
構造化ストリーミング	ほぼリアルタイムの処理エンジンである構造化ストリーミングの概要について説明します。
Spark UI を使用してコストとパフォーマンスの問題を診断する	Spark ジョブのパフォーマンスチューニング、デバッグ、コスト最適化に Spark UI を使用する方法について説明します。
Azure Databricks で Apache Spark MLlib を使用する	Spark MLlib を使用した分散機械学習と、一般的な ML フレームワークとの統合。

Spark API

任意のプログラミング言語を使用して Spark を操作します。

トピック	Description
Apache Spark API のリファレンス	Apache Spark の API リファレンスの概要。サポートされている言語間での Spark SQL、DataFrames、RDD 操作のリファレンスへのリンクが含まれます。
PySpark	PySpark の基本、カスタムデータソース、Python 固有の最適化など、Spark で Python を使用します。
Spark 上の Pandas API	分散データ処理のために Spark のスケーラビリティを備えた使い慣れた pandas 構文を活用します。
R for Spark	SparkR と sparklyr を使用して R と Spark を操作し、統計コンピューティングとデータ分析を行います。
Spark 用 Scala	ネイティブの Spark API とタイプセーフを使用して Scala を使用して、高パフォーマンスの Spark アプリケーションを構築します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-07