Microsoft Fabric の Data Factory は、ビジネスの最も困難な課題の 1 つである、分散データを有用な分析情報に変換する際に役立ちます。
組織のデータは、データベース、ファイル、クラウド サービス、レガシ システムなど、さまざまな場所に存在します。 これにより、ビジネスの全体像を把握するのが難しくなります。 Data Factory は、マルチクラウド環境やオンプレミス ゲートウェイを使用したハイブリッド セットアップなど、170 を超えるデータ ソースに接続します。 データを大規模に移動および変換し、分析と意思決定に適した形式に変換するのに役立ちます。
データ移動、オーケストレーション、変換を通じて Fabric の分析およびデータ開発ツールにリンクされているコネクタの選択を示す、Microsoft Fabric の Data Factory の図。 これはすべて Fabric OneLake の上にあり、スタック全体が AI を利用したインテリジェンスで構成されます。
ビジネス ユーザーが最初のデータ分析戦略を構築している場合でも、複雑なワークストリームを作成する開発者でも、次のような適切なツールを見つけることができます。
- データをまとめる
- きれいにする
- Lakehouse または Data Warehouse での分析の準備を整える
- データ ワークフローを自動化する
データ統合とは
データ統合は、戦略的データをまとめ、アクセスして分析できるようにするプロセスです。 これは、データドリブンの意思決定を行いたいと考えるあらゆるビジネスの重要な部分です。
データを統合する方法は多数ありますが、最も一般的な戦略の 1 つは ETL です。 ETL は、抽出、変換、読み込みの略です。 さまざまなソースから情報を取得し、分析できる形式に変換し、分析またはレポート用の共通の宛先システムに読み込みます。 ビジネスのデータ プラットフォームに ETL プロセスを実装すると、データの整合性、品質、アクセシビリティが向上します。
各フェーズの機能を次に示します。
- 抽出: ソースからデータを読み取り、中央のストレージの場所に移動します。 ソースには、データベース、ファイル、API、Web サイトなどを指定できます。
- 変換: データをクレンジングし、強化して、簡単に分析できる形式に変換します。 たとえば、SQL データベースからの売上データと、スキャンされた履歴の売上ドキュメントを比較できます。 データを抽出した後、各ソースからデータを変換して同じ形式にし、破損または重複を確認し、データを 1 つのデータセットに結合する必要があります。
- 読み込み: 変換されたデータをデータ ウェアハウスやデータ レイクなどの変換先システムに書き込みます。 変換先システムでは、データに対してクエリとレポートを実行できます。
ETL または ELT?
データを操作する場合、データをどのように移動して変換するかが重要であり、すべての組織に異なるニーズが生まれます。 例: ETL (抽出、変換、読み込み) と ELT (抽出、読み込み、変換)。 それぞれの長所は、パフォーマンス、スケーラビリティ、コストのニーズに応じて異なります。
ETL: データを宛先に読み込む前に変換します。 これは、データの移動時にデータをクリーンアップ、標準化、または強化する必要がある場合に適切に機能します。 たとえば、Data Factory の Dataflow Gen 2 を使用して、データをウェアハウスまたは Lakehouse に読み込む前に大規模な変換を適用します。
ELT: 最初に生データを読み込み、その後、保存場所で変換します。 この方法では、Fabric の OneLake、Spark Notebook、SQL ベースのツールなどの分析エンジンの機能を使用します。 ELT は、最新のクラウド 規模のコンピューティングを使用して大規模なデータセットを処理する場合に適しています。
Fabric Data Factory では、両方がサポートされています。 次のようにすることができます。
- データの品質と準備をすぐに行う従来の ETL パイプラインを構築する
- ELT ワークフローを使用して、大規模な変換に統合されたコンピューティングとストレージを利用する
- 同じソリューションで両方のアプローチを組み合わせて柔軟性を高める
Data Factory は強力なデータ統合ソリューションです
Data Factory は、データに接続し、データを移動し、変換し、データ移動と変換のタスクを 1 か所から調整します。 ビジネスに最適な戦略を決定し、Data Factory にはそれを実現するためのツールが用意されています。
データに接続する: オンプレミス、クラウド、マルチクラウド環境のいずれであっても、Data Factory はデータ ソースと宛先に接続します。 データベース、データ レイク、ファイル システム、API など、さまざまなデータ ソースがサポートされています。 サポートされているデータ ソースと変換先の完全な一覧については、 使用可能なコネクタ を参照してください。
データの移動: Data Factory には、データをソースから宛先に移動する方法や、ニーズに応じて既存のデータに簡単にアクセスできる方法がいくつか用意されています。
- コピー ジョブ - 一括コピー、増分コピー、変更データ キャプチャ (CDC) レプリケーションなど、複数の配信スタイルをネイティブにサポートして、データ移動を簡略化するための推奨ソリューションです。 また、直感的で使いやすいエクスペリエンスを通じて、多くのソースから多くの目的地まで、さまざまなシナリオを柔軟に処理できます。
- コピー アクティビティ - 広範なカスタマイズ、さまざまなソースとコピー先のサポート、パフォーマンス向上のための並列コピーの手動制御を使用して、任意の規模でデータを 1 か所から別の場所に移動します。
- ミラーリング - Microsoft Fabric の OneLake 内に運用データベースのほぼリアルタイムのレプリカを作成して、分析とレポートを簡単にします。
シナリオに適したデータ移動方法の選択に役立つデータ移動 決定ガイド を参照してください。
変換: Data Factory には、カスタム変換スクリプトまたは強力なデータフロー デザイナーに接続するためのアクティビティが用意されています。
- パイプライン アクティビティ - Fabric ノートブック、HDInsight アクティビティ、Spark ジョブ定義、ストアド プロシージャ、SQL スクリプトなど。 これらのアクティビティを使用すると、カスタム コードまたはスクリプトを実行してデータを変換できます。
- Dataflow Gen 2 - 300 を超える変換を含むローコード インターフェイスを使用してデータを変換します。 結合、集計、データ クレンジング、カスタム変換などを実行できます。
調整: Data Factory では、1 つのワークフローで複数のデータ移動、変換、およびその他のアクティビティを実行できるパイプラインを作成できます。
- 特定の時刻に実行されるようにパイプラインをスケジュールするか、イベントに基づいてトリガーします。
- パイプラインには、ループや条件などの 制御フロー ロジックを含め、複雑なワークフローを処理し、単純なローコード パイプライン デザイナー UI を使用してすべてのデータ処理を調整できます。
- コードでオーケストレーション プロセスを表現する場合、Fabric Data Factory は Apache Flow と統合 して、Python を使用してオーケストレーション用の DAG を構築します。
AI を利用したデータ統合
AI は Data Factory 全体に表示され、労力を減らすことでより多くの作業を行うことができます。 Data Factory の Copilot を使用すると、自然言語を使用してパイプラインとデータフローを設計、編集、管理できます。 プレーン英語のプロンプトを入力すると、Copilot はそれらを作業 ETL ステップに変換します。
Copilot では、既存のデータフロー クエリとパイプラインの概要も示されるので、その動作をすばやく理解できます。 エラーが発生した場合、Copilot は問題の原因を説明し、修正方法を提案します。
詳細については、 Data Factory ワークロードの Fabric の Copilot に関するページを参照してください。
開始するには何が必要ですか?
- アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウント。 お持ちでない場合は、 無料アカウントを作成できます。
- Microsoft Fabric 対応ワークスペース。 ワークスペースを作成する方法について説明します。
Azure Data Factory を既に使用している場合はどうすればよいですか?
Microsoft Fabric の Data Factory は、最も複雑なデータ統合の課題に簡単なアプローチで対処するために構築された次世代の Azure Data Factory です。
これら 2 つのサービスの主な違いについては、比較ガイドを参照して、企業に適した選択を行うことができます。
移行の準備ができたら、移行ガイドに従ってください。
関連コンテンツ
詳細と Microsoft Fabric の使用を開始するには、次のガイドに従ってください。
- ガイド付きデータ ファクトリ ラボ - Fabric での Data Factory のデモ
- 何に接続できますか? - Data Factory で使用可能なすべてのソースと宛先
- エンド ツー エンドの Data Factory チュートリアル - データ インジェストから変換、移行先システムへの読み込みまで、ETL プロセス全体について説明します