Lakeflow Spark 宣言パイプライン (SDP) は、SQL と Python でバッチおよびストリーミング データ パイプラインを作成するためのフレームワークです。 Lakeflow SDP は、パフォーマンス最適化 Databricks ランタイムで実行されている間、Apache Spark 宣言パイプラインと拡張され、相互運用できます。 パイプラインの一般的なユース ケースには、クラウド ストレージ (Amazon S3、Azure ADLS Gen2、Google Cloud Storage など) やメッセージ バス (Apache Kafka、Amazon Kinesis、Google Pub/Sub、Azure EventHub、Apache Pulsar など) からのデータ インジェスト、増分バッチ変換とストリーミング変換などがあります。
注
Lakeflow Spark 宣言型パイプラインには、 Premium プランが必要です。 詳細については、Databricks アカウント チームにお問い合わせください。
このセクションでは、パイプラインの使用に関する詳細情報を提供します。 次のトピックは、作業の開始に役立ちます。
| トピック | Description |
|---|---|
| Lakeflow Spark 宣言型パイプラインの概念 | パイプライン、フロー、ストリーミング テーブル、具体化されたビューなど、SDP の大まかな概念について説明します。 |
| チュートリアル | チュートリアルに従うことで、パイプラインの使用に関する実践的な経験を得られます。 |
| パイプラインの開発 | データを取り込んで変換するためのフローを作成するパイプラインを開発およびテストする方法について説明します。 |
| パイプラインを構成する | パイプラインをスケジュールして構成する方法について説明します。 |
| パイプラインを監視する | パイプラインを監視し、パイプライン クエリのトラブルシューティングを行う方法について説明します。 |
| 開発者 | パイプラインを開発するときに Python と SQL を使用する方法について説明します。 |
| Databricks SQL のパイプライン | Databricks SQL でのストリーミング テーブルと具体化されたビューの使用について説明します。 |