Dataflow Gen2 は、継続的インテグレーションと継続的デプロイ (CI/CD) と Git 統合をサポートするようになりました。 この機能を使用すると、Fabric ワークスペースに接続された Git リポジトリでデータフローを作成、編集、管理できます。 さらに、デプロイ パイプライン機能を使用して、自分のワークスペースから他のワークスペースへのデータフローのデプロイを自動化できます。 この記事では、Fabric Data Factory で Dataflow Gen2 を CI/CD や Git 統合と共に使用する方法について詳しく説明します。
新機能
Dataflow Gen2 (CI/CD) を使用すると、次のことができます。
- Dataflow Gen2 の Git 統合サポートを使用する。
- デプロイ パイプライン機能を使用して、自分のワークスペースから他のワークスペースへのデータフローのデプロイを自動化する。
- Fabric 設定とスケジューラを使用して、Dataflow Gen2 の設定を更新および編集する。
- Dataflow Gen2 をワークスペース フォルダーに直接作成する。
- パブリック API (プレビュー) を使用して、CI/CD と Git 統合を使用して Dataflow Gen2 を作成および管理します。
前提条件
開始するには、次の前提条件を満たしている必要があります。
- アクティブなサブスクリプションを使用する Microsoft Fabric テナント アカウントを持つ。 無料でアカウントを作成します。
- Microsoft Fabric 対応ワークスペースを確実に用意する。
- Git 統合を活用するには、ワークスペースで有効にする必要があります。 Git 統合の有効化の詳細については、Git 統合の概要に関する記事を参照してください。
CI/CD と Git をサポートする Dataflow Gen2 を作成する
CI/CD と Git をサポートする Dataflow Gen2 を作成するには、次の手順を実行します。
Fabric ワークスペースで、[新しい項目の作成] を選択し、次に [Dataflow Gen2] を選択します。
データフローに名前を付けて、Git 統合を有効にします。 [作成] を選択します。
データフローが作成され、データフローの作成キャンバスにリダイレクトされます。 これで、データフローの作成を開始できます。
データフローの開発が完了したら、[ 保存して実行] を選択します。
発行後、データフローの状態は未コミットになります。
データフローを Git リポジトリにコミットするには、ワークスペース ビューの右上隅にあるソース管理アイコンを選択します。
コミットする変更をすべて選択し、[コミット] を選択します。
これで、CI/CD と Git をサポートする Dataflow Gen2 を用意できました。 「シナリオ 2 - 別のワークスペースを使用して開発する」のチュートリアルで説明されている、Fabric で CI/CD と Git 統合を操作する際のベスト プラクティスに従うことをお勧めします。
Dataflow Gen2 を更新する、または更新をスケジュールする
CI/CD と Git をサポートする Dataflow Gen2 を更新するには、手動、または更新のスケジュールという 2 つの方法があります。 以下のセクションでは、CI/CD と Git をサポートする Dataflow Gen2 を更新する方法について説明します。
今すぐ更新
Fabric ワークスペースで、更新するデータフローの横にある詳細オプションの省略記号アイコンを選択します。
[今すぐ更新] を選択します。
更新をスケジュールする
データフローを定期的に更新する必要がある場合は、Fabric スケジューラを使用して更新をスケジュールできます。
Fabric ワークスペースで、更新するデータフローの横にある詳細オプションの省略記号アイコンを選択します。
スケジュールを選択します。
スケジュール ページでは、更新頻度、開始時刻と終了時刻を設定し、その後に変更を適用できます。
[今すぐ更新] を開始するには、[更新] ボタンを選択します。
履歴と設定を更新する
データフローの更新履歴を表示するには、ドロップダウン メニューで最近使用した実行タブを選択するか、監視ハブに移動して、更新履歴を表示するデータフローを選択します。
CI/CD を使用する Dataflow Gen2 の設定
CI/CD と Git をサポートする新しい Dataflow Gen2 の設定へのアクセス方法は、他の Fabric 項目と同様です。 設定にアクセスするには、データフローの横にある詳細オプションの省略記号アイコンを選択し、設定を選択します。
保存すると、発行操作が置き換えられます
CI/CD と Git がサポートされている Dataflow Gen2 では、保存操作によって発行操作が置き換えられます。 この変更は、データフローを保存すると、データフローへの変更を自動的に "発行" することを意味します。
保存操作によって、ワークスペース内のデータフローが直接上書きされます。 変更を破棄する場合は、エディターを閉じるときに [変更の 破棄 ] を選択して行うことができます。
検証
保存操作中に、データフローが有効な状態であるかどうかを確認します。 データフローが有効な状態でない場合は、ワークスペース ビューのドロップダウン メニューにエラー メッセージが表示されます。 データフロー内のすべてのクエリに対して "ゼロ行" 評価を実行することで、データフローの有効性を判断します。
この評価は、行を返さずにクエリ結果のスキーマのみを要求する方法で、データフロー内のすべてのクエリを実行することを意味します。 クエリの評価が失敗した場合、またはクエリのスキーマを 10 分以内に特定できない場合は、検証に失敗し、以前に保存したバージョンのデータフローを更新に使用します。
制限事項と既知の問題
CI/CD と Git をサポートするデータフロー Gen2 では、エンタープライズ対応のコラボレーションのための強力な機能セットが提供されますが、これにはバックエンドをファブリック アーキテクチャに再構築する必要がありました。 つまり、一部の機能はまだ使用できないか、制限があります。 エクスペリエンスの向上に積極的に取り組んでいます。新機能が追加されると、この記事が更新されます。
- CI/CD と Git がサポートされている最後の Dataflow Gen2 を削除する際には、ステージング成果物がワークスペースに表示されるため、ユーザーは安全にそれを削除することができます。
- データフローの更新が進行中かどうかは、ワークスペース ビューに表示されません。
- 別のワークスペースに分岐すると、Dataflow Gen2 の更新が失敗し、ステージング レイクハウスが見つからないというメッセージが表示される場合があります。 このような場合は、CI/CD と Git をサポートする新しい Dataflow Gen2 をワークスペースに作成し、ステージング レイクハウスの作成をトリガーします。 この後、ワークスペース内の他のすべてのデータフローが再び機能するようになります。
- GIT からワークスペースに変更を同期する場合、またはデプロイ パイプラインを使用する場合は、新規または更新されたデータフローを開き、エディターを使用して変更を手動で保存する必要があります。 これにより、バックグラウンドで発行アクションがトリガーされ、データフローの更新中に変更を使用できるようになります。 オンデマンドのデータフロー発行ジョブ API 呼び出しを使用して、発行操作を自動化することもできます。
- データフロー用の Power Automate コネクタが、CI/CD および Git サポートを備えた新しい Dataflow Gen2 と連携していません。