Microsoft Fabric には、必要な内容に基づいて、Fabric にデータを取り込むためのいくつかの方法が用意されています。 現在は、 ミラーリング、 パイプラインでのコピー アクティビティ、または コピー ジョブを使用できます。 各オプションには異なるレベルの制御と複雑さが用意されているため、シナリオに最適なものを選択できます。
ミラーリングは、データベースを Fabric にミラーリングするためのシンプルで無料のソリューションとして設計されていますが、すべての高度なシナリオに対応できるわけではありません。 パイプライン内のコピー アクティビティでは、完全にカスタマイズ可能なデータ インジェスト機能が提供されますが、パイプラインを自分で構築して管理する必要があります。 コピー ジョブは、これら 2 つのオプション間のギャップを埋めます。 ミラーリングよりも柔軟性と制御性が向上し、パイプラインの構築が複雑になることなく、バッチ コピーと増分コピーの両方をネイティブにサポートできます。
リアルタイム ストリーミング インジェストとイベント ドリブン シナリオの場合は、Fabric Eventstreams を試してください。 待機時間の短いデータ移動を提供し、コードや SQL 変換なしでデータを変換し、複数の宛先へのコンテンツ ベースのルーティングをサポートします。
重要な概念
ミラーリング を使用すると、運用データを分析のために Fabric に 簡単かつ自由 にミラーリングできます。 最小限のセットアップで使いやすく最適化されており、OneLake の単一の読み取り専用の宛先に書き込みます。
パイプラインのコピー アクティビティ は、パイプライン ベースの調整されたデータ インジェスト ワークフローを必要とするユーザー向けに構築されています。 これを広範囲にカスタマイズして変換ロジックを追加できますが、増分コピーの最後の実行の状態の追跡など、パイプライン コンポーネントを自分で定義して管理する必要があります。
コピー ジョブ を使用すると 、一括コピー、増分コピー、変更データ キャプチャ (CDC) レプリケーションなど、複数の配信スタイルのネイティブ サポートにより、データ インジェストが容易になります。パイプラインを構築する必要はありませんが、多くの高度なオプションにアクセスできます。 多くのソースと変換先がサポートされており、ミラーリングよりも制御が必要ですが、コピー アクティビティを使用してパイプラインを管理するよりも複雑さが少ない場合にうまく機能します。
Eventstreams: ストリーミング データのリアルタイム インジェスト、変換、処理用に設計されています。 待機時間の短いパイプライン、スキーマ管理、Eventhouse、Lakehouse、Activator、カスタム エンドポイントサポート (AMQP、Kafka、HTTP エンドポイント) などの宛先へのルーティングをサポートします。
データ移動の決定ガイド
| ミラーリング | コピー作業 | コピー アクティビティ (パイプライン) | Eventstreams | |
|---|---|---|---|---|
| ソース | データベース + オープン ミラーリングへのサードパーティの統合 | サポートされているすべてのデータ ソースと形式 | サポートされているすべてのデータ ソースと形式 | 25 以上のソースとすべての形式 |
| 目的 地 | Fabric OneLake の表形式 (読み取り専用) | サポートされているすべての宛先と形式 | サポートされているすべての宛先と形式 | 4 つ以上の宛先 |
| 柔軟性 | 固定動作を使用した簡単なセットアップ | 使いやすい + 高度なオプション | 高度で完全にカスタマイズ可能なオプション | シンプルでカスタマイズ可能なオプション |
| 力 | ミラーリング | コピー作業 | コピー アクティビティ (パイプライン) | Eventstreams |
|---|---|---|---|---|
| カスタム スケジュール | イエス | イエス | 継続的 | |
| テーブルと列の管理 | イエス | イエス | はい (スキーマ、イベント、フィールド管理) | |
| コピーの動作: Append、Upsert、Override | イエス | イエス | Append | |
| 高度な可観測性と監査 | イエス | イエス | ||
| コピー モード | ||||
| CDC ベースの連続レプリケーション | イエス | イエス | イエス | |
| バッチコピーまたは一括コピー | イエス | イエス | はい (CDC の初期スナップショット レプリケーション) | |
| 増分コピーのネイティブ サポート (透かしベース) | イエス | |||
| ユーザー定義クエリを使用してコピーする | イエス | イエス | ||
| ユース ケース | ||||
| 分析とレポートのための継続的レプリケーション | イエス | イエス | イエス | |
| データ ウェアハウス用のメタデータ駆動型 ELT/ETL | イエス | イエス | ||
| データ統合 | イエス | イエス | イエス | |
| データ移行/データバックアップ/データ共有 | イエス | イエス | イエス | |
| 無料 | イエス | |||
| 予測可能なパフォーマンス | イエス | イエス | イエス |
シナリオ
これらのシナリオを確認して、ニーズに最も適したデータ移動戦略を選択します。
シナリオ 1
James は保険会社の財務マネージャーです。 彼のチームは、Azure SQL Database を使用して、複数の部署にわたるポリシー データ、クレーム、顧客情報を追跡します。 エグゼクティブ チームは、ビジネス パフォーマンス監視用のリアルタイム ダッシュボードを作成したいと考えていますが、James では、分析クエリで、毎日何千ものトランザクションを処理する運用システムの速度を低下させるのを許可できません。
James は、セットアップの複雑さや継続的なメンテナンスを行うことなく、継続的なデータ レプリケーションを必要とします。 スケジュールの管理、増分読み込みの構成、テーブルの選択の心配は望ましくありません。すべてを自動的にミラーリングする必要があります。 これはエグゼクティブ レポート専用であるため、OneLake でデータを読み取り専用形式にすることは完全に機能します。 また、このソリューションは部門の予算から出てくるため、コスト効率が高い必要があります。
James はオプションを確認し、[ ミラーリング] を選択します。 ミラーリングにより、必要な CDC ベースの継続的レプリケーションが提供され、構成なしですべてのテーブルが自動的に処理されます。 シンプルなセットアップは、技術的な専門知識を必要としないことを意味し、無料コストは彼の予算に合っています。 OneLake の読み取り専用の表形式は、運用パフォーマンスに影響を与えることなく、チームに必要なリアルタイム分析アクセスを提供します。
シナリオ 2
リサは物流会社のビジネス アナリストです。 サプライ チェーン分析のために、複数の Snowflake データベースから Fabric Lakehouse テーブルに出荷データをコピーする必要があります。 データには、最初の負荷の履歴レコードと、1 日を通して到着する新しい出荷の両方が含まれます。 リサは、このプロセスをカスタム スケジュール (営業時間中は 4 時間ごと) で実行したいと考えています。
リサは、各 Snowflake インスタンスから特定のテーブルを選択し、列を標準化された名前にマップし、upsert 動作を使用して既存の出荷レコードの更新を処理する必要があります。 複数のリージョンで異なるスキーマを処理するためのテーブルと列の管理機能が必要であり、データの品質と処理のパフォーマンスを追跡するための高度な監視が必要です。
リサはオプションを確認し、[ コピー ジョブ] を選択します。 コピー ジョブは、業務時間の要件に必要なカスタム スケジュールを提供し、Snowflake を含むすべてのデータ ソースをサポートし、複数リージョンのセットアップ用のテーブルと列の管理機能を提供します。 高度な構成オプションを備えた使いやすいインターフェイスを使用すると、パイプラインを構築することなく、透かしベースの検出とアップサート動作を使用して増分コピーを処理できます。
シナリオ 3
David は、電気通信会社のシニア データ エンジニアです。 カスタム SQL クエリを使用して Oracle から顧客の使用状況データを抽出し、ビジネス変換を適用し、Fabric Warehouse と外部システムの両方を含む複数の宛先に読み込む必要がある複雑なデータ インジェスト ワークフローを構築しています。 また、ワークフローは、データの検証や通知の手順などの他のパイプライン アクティビティと連携する必要もあります。
David では、ユーザー定義クエリを使用してテーブルを結合し、ソースでデータをフィルター処理する機能など、コピー プロセスを完全に制御する必要があります。 高度で完全にカスタマイズ可能な構成オプション、大量のデータに対する予測可能なパフォーマンス、および依存関係とエラー処理を使用して、コピー プロセスをより広範なパイプライン オーケストレーション ワークフローに統合する機能が必要です。
David は、使用可能なオプションを確認し、[ パイプラインのコピー アクティビティ] を選択します。 このアプローチにより、必要な高度で完全にカスタマイズ可能な構成が提供され、複雑なデータ抽出のためのユーザー定義クエリがサポートされ、ワークフローに必要なパイプライン ベースのオーケストレーションが提供されます。 高度な監視および監査機能は、複雑なプロセスを追跡するのに役立ちますが、パイプライン フレームワークを使用すると、コピー アクティビティを他のデータ処理手順と調整できます。
シナリオ 4
Ash は、通信会社の製品マネージャーです。 彼女のチームは、SLA コンプライアンスを確保し、顧客満足度を向上させるために、通話量、待機時間、エージェントのパフォーマンスなどのカスタマー サポート メトリックをリアルタイムで監視する必要があります。 データは、CRM プラットフォーム、コール センター ログ、エージェント割り当てデータベースなどの複数の運用システムから取得され、1 日を通して高頻度で到着します。
Ash は Fabric Eventstreams を使用して、移動中のデータを取り込み、変換します。 彼女は、さまざまなソースからデータをプルするようにストリーミング コネクタを構成し、コードなしのエクスペリエンスを使用して変換を適用し、処理されたイベントを Eventhouse にルーティングしてリアルタイム分析を行います。 データ アクティベーターを統合して、SLA のしきい値に違反したときにアラートと自動化されたワークフローをトリガーし、監督者に通知を送信したり、スタッフのレベルを動的に調整したりできます。
その結果、数秒で更新されるリアルタイム ダッシュボードが得られ、Ash のチームはライブ パフォーマンス メトリックを可視化し、データに基づく迅速な意思決定が可能になります。 このストリーミング アーキテクチャにより、バッチ パイプラインの待ち時間がなくなり、企業は顧客のニーズに即座に対応できるようになります。
概要
使用するデータ移動戦略を理解したら、次のリソースを使い始めることができます。