Dataflow Gen2 では、継続的インテグレーション/継続的デプロイ (CI/CD) と Git 統合がサポートされます。 Fabric ワークスペースに接続されている Git リポジトリでデータフローを作成、編集、管理できます。 デプロイ パイプラインを使用して、ワークスペース間のデータフローの移動を自動化します。 この記事では、Fabric Data Factory でこれらの機能を使用する方法について説明します。
Features
CI/CD と Git の統合を備えた Dataflow Gen2 には、ワークフローを合理化するためのさまざまな機能が用意されています。 これらの機能でできることは次のとおりです。
- Git と Dataflow Gen2 を統合します。
- デプロイ パイプラインを使用して、ワークスペース間のデータフローデプロイを自動化します。
- Fabric ツールを使用して Dataflow Gen2 設定を更新および編集します。
- ワークスペース フォルダーに直接 Dataflow Gen2 を作成します。
- パブリック API (プレビュー) を使用して、CI/CD と Git 統合を使用して Dataflow Gen2 を管理します。
前提条件
開始する前に、次のことを確認します。
- アクティブなサブスクリプションを使用する Microsoft Fabric テナント アカウントを持つ。 無料でアカウントを作成できます。
- Microsoft Fabric 対応ワークスペースを使用します。
- ワークスペースの Git 統合を有効にします。 Git 統合を有効にする方法について説明します。
CI/CD と Git 統合を使用して Dataflow Gen2 を作成する
CI/CD と Git 統合を使用して Dataflow Gen2 を作成すると、接続された Git リポジトリ内でデータフローを効率的に管理できます。 以下の手順に従って開始しましょう。
Fabric ワークスペースで、[ 新しい項目の作成] を選択し、[ Dataflow Gen2] を選択します。
データフローに名前を付け、Git 統合を有効にして、[ 作成] を選択します。
データフローが作成キャンバスで開き、データフローの作成を開始できます。
完了したら、[ 保存して実行] を選択します。
発行後、データフローに "コミットされていない" 状態が表示されます。
データフローを Git にコミットするには、右上隅にあるソース管理アイコンを選択します。
コミットする変更を選択し、[コミット] を選択 します。
CI/CD と Git 統合を使用した Dataflow Gen2 の準備ができました。 ベスト プラクティスについては、「 シナリオ 2 - 別のワークスペースを使用した開発」チュートリアルを参照 してください。
データフロー Gen2 を更新する
データフロー Gen2 を更新することで、データが最新の状態に保たれます。 手動で更新したり、プロセスを自動化するためのスケジュールを設定したりできます。
今すぐ更新
Fabric ワークスペースで、データフローの横にある省略記号を選択します。
[ 今すぐ更新] を選択します。
更新をスケジュールする
Fabric ワークスペースで、データフローの横にある省略記号を選択します。
スケジュールを選択します。
スケジュール ページで、更新頻度、開始時刻、終了時刻を設定します。 変更を適用します。
すぐに更新するには、[ 最新の情報に更新] を選択します。
更新履歴と設定を表示する
更新履歴と設定の管理を理解することは、Dataflow Gen2 の監視と制御に役立ちます。 これらのオプションにアクセスする方法は次のとおりです。
更新履歴を表示するには、ドロップダウン メニューで最近使用した実行タブを選択するか、監視ハブに移動してデータフローを選択します。
データフローの横にある省略記号を選択し、[ 設定] を選択して、データフロー設定にアクセスします。
投稿の代わりに保存します
CI/CD と Git 統合を使用した Dataflow Gen2 の保存操作では、変更が自動的に発行され、ワークフローが簡略化されます。
データフロー Gen2 を保存すると、変更が自動的に発行されます。 変更を破棄する場合は、エディターを閉じるときに [ 変更を破棄 ] を選択します。
検証
保存時に、データフローが有効かどうかがチェックされます。 そうでない場合は、ワークスペース ビューにエラーが表示されます。 検証では、行を返さずにクエリ スキーマをチェックする "0 行" 評価が実行されます。 クエリのスキーマを 10 分以内に特定できない場合、評価は失敗します。 検証に失敗した場合、システムは最後に保存したバージョンを更新に使用します。
ジャストインタイム発行
Just-In-Time 発行を使用すると、必要に応じて変更を使用できるようになります。 このセクションでは、更新やその他の操作中にシステムが発行を処理する方法について説明します。
Dataflow Gen2 では、自動化された "Just-In-Time" 発行モデルが使用されます。 データフローを保存すると、次回の更新または実行に対して変更をすぐに使用できます。 Git から変更を同期するか、デプロイ パイプラインを使用すると、更新されたデータフローがワークスペースに保存されます。 次の更新では、保存された最新バージョンの公開が試行されます。 発行に失敗した場合は、更新履歴にエラーが表示されます。
場合によっては、バックエンドは更新時にデータフローを自動的に再発行し、更新との互換性を確保します。
API は、発行せずにデータフローを更新したり、手動で発行をトリガーしたりするためにも使用できます。
制限事項と既知の問題
CI/CD と Git の統合を使用した Dataflow Gen2 は強力ですが、注意すべきいくつかの制限事項と既知の問題があります。 知る必要がある内容を次に示します。
- CI/CD と Git がサポートされている最後の Dataflow Gen2 を削除すると、ステージング項目がワークスペースに表示され、ユーザーが安全に削除できるようになります。
- ワークスペース ビューには、継続的な更新の表示、最後の更新、次の更新、更新エラーの表示は表示されません。
- データフローの更新に失敗した場合、エラー通知の自動送信はサポートされません。 回避策として、パイプラインのオーケストレーション機能を利用できます。
- 別のワークスペースに分岐すると、Dataflow Gen2 の更新が失敗し、ステージング レイクハウスが見つからないというメッセージが表示される場合があります。 このような場合は、CI/CD と Git をサポートする新しい Dataflow Gen2 をワークスペースに作成し、ステージング レイクハウスの作成をトリガーします。 この後、ワークスペース内の他のすべてのデータフローが再び機能するようになります。
- GIT からワークスペースに変更を同期する場合、またはデプロイ パイプラインを使用する場合は、新規または更新されたデータフローを開き、エディターを使用して変更を手動で保存する必要があります。 これにより、バックグラウンドで発行アクションがトリガーされ、データフローの更新中に変更を使用できるようになります。 オンデマンドのデータフロー発行ジョブ API 呼び出しを使用して、発行操作を自動化することもできます。
- データフロー用の Power Automate コネクタが、CI/CD および Git サポートを備えた新しい Dataflow Gen2 と連携していません。