コピー ジョブは、多くのソースから多くの宛先へのデータ移動を簡略化するための Microsoft Fabric Data Factory の go-to ソリューションです。パイプラインは必要ありません。 一括コピー、増分コピー、変更データ キャプチャ (CDC) レプリケーションなど、複数の配信スタイルのネイティブ サポートにより、コピー ジョブは、直感的で使いやすいエクスペリエンスを通じて、幅広いデータ移動シナリオに柔軟に対応できます。 データ統合を初めて使用する場合でも、必要な場所にデータを迅速に取得する方法が必要な場合でも、コピー ジョブは柔軟で使いやすいソリューションを提供します。
Advantages
他のデータ移動方法と比較した Copy ジョブの利点は次のとおりです。
- 使いやすい: シンプルなガイド付きエクスペリエンスでデータのコピーを設定および監視します。技術的な専門知識は必要ありません。
- 効率的: 最小限の手動手順で、時間とリソースを節約するために、前回の実行から新規または変更されたデータのみをコピーします。
- 柔軟: 移動するデータを選択し、列をマップし、データの書き込み方法を設定し、ジョブを 1 回または定期的に実行するようにスケジュールします。
- 高パフォーマンス: サーバーレスでスケーラブルなシステムにより、大量のデータを迅速かつ確実に移動できます。
また、データ移動戦略にアクセスして、コピー ジョブとパイプラインのミラーリングおよびコピー アクティビティの比較を確認することもできます。
概念
コピー モード (完全コピー、増分コピー)
ソースからコピー先へのデータのコピー方法を選択できます。
- 完全コピー: ジョブが実行されるたびに、ソースからコピー先にすべてのデータがコピーされます。
- 増分コピー: 最初の実行ではすべてをコピーし、それ以降の実行では前回の実行以降に新しいデータまたは変更されたデータのみが移動されます。
増分コピー (CDC〈変更データキャプチャ〉、ウォーターマーク)
増分コピーでは、最初の完全コピーの後のすべての実行で変更のみが転送されます。
- データベース: 新しい行または更新された行のみがコピーされます。 変更データ キャプチャ (CDC) が有効になっている場合は、挿入、更新、削除された行が含まれます。
- ストレージ: 新しい LastModifiedTime を持つファイルのみがコピーされます。
コピー ジョブでは、最後に成功した実行の状態が自動的に追跡および管理されるため、次にコピーするデータが認識されます。
- データベース: 各テーブルの増分列を選択する必要があります。 この列はマーカーとして機能し、前回の実行以降に新しい行または更新された行をコピー ジョブに指示します。 通常、列は日付/時刻値または増加する数値です。 データベースで CDC が有効になっている場合は、列を選択する必要はありません。コピー ジョブによって変更が自動的に検出されます。
- ストレージ: コピー ジョブは、ソース ストレージ内のファイルの LastModifiedTime と、前回の実行で記録された値を比較します。 新しいタイムスタンプを持つファイルのみがコピーされます。
コピー ジョブの変更データ キャプチャ (CDC) の詳細を参照してください。
コピー ジョブが失敗しても、データの損失について心配する必要はありません。 コピー ジョブは、最後に成功した実行の状態から常に再開されます。 失敗しても、コピー ジョブによって管理される状態は変更されません。
Update メソッド (Append、Overwrite、Merge)
また、データを宛先に書き込む方法を決定することもできます。
既定では、コピー ジョブは新しいデータ を追加 するため、完全な履歴を保持します。 必要に応じて、 マージ (キー列を使用して既存の行を更新) または 上書き (既存のデータを置き換える) を選択できます。 マージを選択した場合、コピー ジョブでは既定で主キーが使用されます (存在する場合)。
- データベースにコピーする場合: 新しい行がテーブルに追加されます。 サポートされているデータベースの場合は、既存のデータをマージまたは上書きすることもできます。
- ストレージにコピーする場合: 新しいデータは新しいファイルとして保存されます。 同じ名前のファイルが既に存在する場合は、置き換えられます。
ソースから段階的コピーを実行し、コピー先にマージすると、ソースの行がコピー先に挿入または更新されます。 ソースから CDC レプリケーションを実行し、宛先にマージすると、ソースの行が宛先に挿入、更新、または削除されます。
増分コピーをリセットする
増分コピーは、次の実行時に完全コピーにリセットする機能など、柔軟に管理できます。 これは、ソースとコピー先の間にデータの不一致がある場合に非常に便利です。次の実行時にコピー ジョブで完全コピーを実行して問題を解決し、後で増分更新を続行することができます。
増分コピーは、ジョブ全体またはテーブルごとにリセットできるため、きめ細かく制御できます。 たとえば、大きなテーブルに影響を与えずに、小さいテーブルを再コピーできます。 これは、よりスマートなトラブルシューティング、中断の軽減、およびより効率的なデータ移動を意味します。
コピー ジョブを編集する場合 (たとえば、ソース テーブルの増分列を更新する) 場合、コピー ジョブは次の実行時に増分コピーを完全コピーにリセットします。 これにより、ソースと宛先の間でデータの整合性が確保されます。
変換先でのテーブルの自動作成と切り捨て
コピー ジョブでテーブルがまだ存在しない場合は、コピー先にテーブルを自動的に作成できます。 変換先テーブルが既に使用可能な場合は、ターゲットとして選択するだけで済みます。 柔軟な列マッピング オプションを使用すると、ソース テーブルから変換先テーブルにスキーマをマップする方法を簡単に定義できます。
テーブルの自動作成でサポートされるコネクタは次のとおりです。
- オンプレミスの SQL Server
- Azure SQL DB
- Azure SQL Managed Instance
- Synapse SQL プール
- Fabric の SQL データベース
- Fabric Lakehouse テーブル
- Snowflake
また、必要に応じて、完全な読み込み前に宛先データを切り捨てて、コピー元とコピー先が重複することなく完全に同期されるようにすることもできます。
既定では、コピー ジョブはコピー先のデータを削除しません。 このオプションを有効にすると、次のようになります。
- 増分コピーの最初の実行では、完全なデータセットを読み込む前に、コピー先のすべてのデータが切り捨てられます。
- 後続の増分コピーは、既存のレコードに影響を与えることなく、データの追加またはマージを続行します。
- お客様が後で増分コピーを完全コピーにリセットした場合、このオプションを有効にすると、読み込む前に宛先が再度クリアされます。
この方法により、宛先がクリーンで完全に同期され、重複がないようにし、データ インジェスト ソリューションの信頼性の高い基盤が提供されます。
"完全コピー前にコピー先を切り捨てる" オプションでサポートされているコネクタ:
- オンプレミスの SQL Server
- Azure SQL DB
- Azure SQL Managed Instance
- Synapse SQL プール
- Fabric の SQL データベース
- Fabric Lakehouse テーブル
- Snowflake
実行オプション (実行、スケジュール、イベント トリガー)
コピー ジョブは、 1 回だけ実行 することも スケジュールに従って実行することもできます。 ジョブがスケジュールされている場合でも、いつでも [実行 ] をクリックして手動でトリガーできます。 増分コピーでは、手動でトリガーされたジョブは、前回の実行以降にのみ変更を転送します。
コピー ジョブで 複数のスケジュールを サポートすることで、さらに制御が強化されます。 1 つのコピー ジョブに複数のスケジュールを設定できます。たとえば、1 つは毎日午前 6 時に実行され、もう 1 つは毎週日曜日に実行されます。 すべてのスケジュールを同じコピー ジョブ内で直接管理できるため、オーケストレーションがより簡単で、よりクリーンで効率的になります。
パイプラインでコピー ジョブ アクティビティを使用する場合は、パイプラインのオーケストレーションとトリガーの機能を利用することもできます。 たとえば、 イベント トリガー を使用して、データ レイクに到着する新しいファイルやデータベースの変更など、特定のイベントが発生したときにコピー ジョブ アクティビティを開始できます。
コピー ジョブ アクティビティの詳細を参照してください。
ホスティング オプション (VNet、オンプレミス、クラウド)
コピー ジョブを使用すると、データがオンプレミス、クラウド、または仮想ネットワーク内にあるかどうかにかかわらず、任意のソースから任意の宛先にデータを移動できます。 コピー ジョブの接続ページでは、オンプレミス ゲートウェイや VNet ゲートウェイなど、複数のホスト オプションから選択して、ファイアウォールまたは VNet 内のデータに安全にアクセスできます。
コピー ジョブと仮想ネットワーク データ ゲートウェイを使用してデータ移動をセキュリティで保護する方法の詳細を参照してください。
運用化(GIT/CICD、変数ライブラリ)
ソース管理、継続的インテグレーション、継続的配置、コラボレーション環境を使用して、コピー ジョブを使用して成功したデータ分析プロジェクトを実行できます。
さらに、変数ライブラリのサポートにより、コピー ジョブで接続をパラメーター化できます。 この強力な機能により、接続値を外部化することで CI/CD が効率化され、変数ライブラリによってステージごとに正しい接続が挿入される間、複数の環境に同じコピー ジョブをデプロイできます。
コピー ジョブの CI/CD の詳細を参照してください。
Observability
詳細については、「 コピー ジョブを監視する方法」を参照してください。
利用可能なリージョン
コピー ジョブのリージョンの 可用性は Fabric と同じです。
価格
価格コピー ジョブの詳細を取得できます。
サポートされているコネクタ
コピー ジョブを使用すると、クラウド データ ストア間、またはファイアウォールの内側にあるオンプレミス ソースから、またはゲートウェイを使用して仮想ネットワーク内からデータを移動できます。 コピー ジョブでは、ソースまたはコピー先として次のデータ ストアがサポートされます。
| コネクタ | 情報源 | 行き先 | 読み出し - 完全ロード | 読み出し - 増分読み込み (透かしベース) | 読む ― CDC (プレビュー) | 書き込み - 追加 | 書き込み - オーバーライド | 書き込む - アップサート | 書き込み - CDC マージ |
|---|---|---|---|---|---|---|---|---|---|
| Azure SQL DB |
|
|
|
|
|
|
|
|
|
| オラクル |
|
|
|
|
|
|
|
|
|
| オンプレミスの SQL Server |
|
|
|
|
|
|
|
|
|
| Fabric Warehouse |
|
|
|
|
|
|
|
|
|
| Fabric Lakehouse テーブル |
|
|
|
|
|
|
|
|
|
| Fabric レイクハウス ファイル |
|
|
|
|
|
|
|
N/A | N/A |
| Amazon S3 |
|
|
|
|
|
|
|
N/A | N/A |
| Azure Data Lake Storage Gen2 |
|
|
|
|
|
|
|
N/A | N/A |
| Azure Blob Storage |
|
|
|
|
|
|
|
N/A | N/A |
| Azure SQL Managed Instance |
|
|
|
|
|
|
|
|
|
| Snowflake |
|
|
|
|
|
|
|
|
|
| Azure Synapse Analytics |
|
|
|
|
|
|
|
|
|
| Azure Data Explorer |
|
|
|
|
|
|
|
|
|
| Azure PostgreSQL |
|
|
|
|
|
|
|
|
|
| Google Cloud Storage |
|
|
|
|
|
|
|
N/A | N/A |
| MySQL |
|
|
|
|
|
|
|
|
|
| Azure MySQL |
|
|
|
|
|
|
|
|
|
| PostgreSQL |
|
|
|
|
|
|
|
|
|
| Fabric 内の SQL データベース (プレビュー) |
|
|
|
|
|
|
|
|
|
| Amazon S3 互換 |
|
|
|
|
|
|
|
N/A | N/A |
| SAP HANA |
|
|
|
|
|
|
|
|
|
| ODBC |
|
|
|
|
|
|
|
|
|
| Amazon RDS for SQL Server |
|
|
|
|
|
|
|
|
|
| Google ビッグクエリ(Google BigQuery) |
|
|
|
|
|
|
|
|
|
| Salesforce |
|
|
|
|
|
|
|
|
|
| Salesforce サービス クラウド |
|
|
|
|
|
|
|
|
|
| Azure テーブル |
|
|
|
|
|
|
|
|
|
| Azure Files |
|
|
|
|
|
|
|
N/A | N/A |
| SFTP |
|
|
|
|
|
|
|
N/A | N/A |
| FTP |
|
|
|
|
|
|
|
N/A | N/A |
| IBM Db2 データベース |
|
|
|
|
|
|
|
|
|
| Vertica |
|
|
|
|
|
|
|
|
|
| ServiceNow |
|
|
|
|
|
|
|
|
|
| Oracle Cloud Storage |
|
|
|
|
|
|
|
N/A | N/A |
| マリアDB |
|
|
|
|
|
|
|
|
|
| Dataverse |
|
|
|
|
|
|
|
|
|
| Dynamics 365 |
|
|
|
|
|
|
|
|
|
| Dynamics CRM |
|
|
|
|
|
|
|
|
|
| Azure Cosmos DB for NoSQL |
|
|
|
|
|
|
|
|
|
| HTTP |
|
|
|
|
|
|
|
N/A | N/A |
| Azure Cosmos DB for MongoDB |
|
|
|
|
|
|
|
|
|
| MongoDB Atlas |
|
|
|
|
|
|
|
|
|
| Mongo DB |
|
|
|
|
|
|
|
|
|
| ODATA |
|
|
|
|
|
|
|
|
|
| SharePoint Online リスト |
|
|
|
|
|
|
|
|
|
| Dynamics AX |
|
|
|
|
|
|
|
|
|
| Azure AI 検索 |
|
|
|
|
|
|
|
|
|
| フォルダ |
|
|
|
|
|
|
|
N/A | N/A |
| Greenplum |
|
|
|
|
|
|
|
|
|
| REST |
|
|
|
|
|
|
|
N/A | N/A |
| SAP テーブル |
|
|
|
|
|
|
|
|
|
| SAP BW オープン ハブ |
|
|
|
|
|
|
|
|
|
| Cassandra |
|
|
|
|
|
|
|
|
|
| Informix |
|
|
|
|
|
|
|
|
|
| Amazon RDS For Oracle |
|
|
|
|
|
|
|
|
|
| Microsoft Access |
|
|
|
|
|
|
|
|
|
| プレスト |
|
|
|
|
|
|
|
|
|
Fabric Ideas に関するフィードバックを送信し、Fabric コミュニティで会話に参加してください。