Data Factory のコピー ジョブを使用すると、パイプラインを作成しなくても、ソースからコピー先にデータを簡単に移動できます。 バッチ コピーと増分コピーの両方に組み込みのパターンを使用してデータ転送を設定し、1 回またはスケジュールに従ってコピーできます。 この記事の手順に従って、 データベース または ストレージからデータのコピーを開始します。
データベースからデータを取り込むコピー ジョブを作成する
データベースからデータを移動するコピー ジョブを設定するには、次の手順に従います。
新しいワークスペースを作成するか、既存のワークスペースを使用します。
[ + 新しい項目] を選択し、[ ジョブのコピー ] アイコンを選択し、コピー ジョブに名前を付け、[ 作成] を選択します。
データのコピー元のデータベースを選択します。 この例では、 Azure SQL DB を使用しています。
Azure SQL DB の場合は、 サーバー パス と 資格情報を入力します。 オンプレミスまたは仮想ネットワーク ゲートウェイを使用して、仮想ネットワーク環境内でデータを安全にコピーできます。 他のデータベースの場合、接続の詳細は異なります。
コピーする テーブル と 列 を選択します。 検索ボックスを使用して、コピーする特定のテーブルと列を識別します。
宛先ストアを選択します。 この例では、別の Azure SQL DB を使用しています。
(省略可能)[ 更新方法 ] を選択して、データを宛先に書き込む方法を決定します。 [マージ] を選択した場合は、各行を識別するキー列を選択します。
(省略可能) テーブルまたは列のマッピング を構成して、変換先のテーブルまたは列の名前を変更するか、データ型変換を適用します。 既定では、データはソースと同じテーブル名、列名、およびデータ型でコピーされます。
コピー モードを選択します。完全なデータ コピーまたは増分コピーです。 この例では、 増分コピーを使用します。 各テーブルの増分列を選択して、変更された行を追跡します。 プレビュー ボタンを使用して、適切な列を見つけることができます。 その列の詳細については、「 増分列」を参照してください。
注記
増分コピー モードを選択すると、コピー ジョブは最初にフル ロードを実行し、次の実行時に増分コピーを実行します。
ジョブの概要を確認し、実行オプションを選択して 1 回またはスケジュールに従って実行し、[ 保存 + 実行] を選択します。
コピー ジョブはすぐに開始され、行数や各テーブルのコピー期間などの情報を含むインライン監視パネルからジョブの状態を追跡できます。 詳細については、「コピー ジョブを監視する方法」を参照してください
スケジュールに従って実行するように設定されている場合でも、コピー ジョブは必要に応じていつでも実行できます。 [ 実行 ] ボタンを選択するだけで、コピー ジョブは前回の実行以降に変更されたデータのみをコピーします。
コピー ジョブは、コピーするテーブルや列の追加や削除、スケジュールの構成、詳細設定の調整など、いつでも編集できます。 増分列の更新など、一部の変更によって増分コピーがリセットされ、次回の実行時に最初の完全読み込みから開始されます。
ストレージからファイルを取り込むコピー ジョブを作成する
ファイル ストレージからデータを移動するコピー ジョブを設定するには、次の手順に従います。
新しいワークスペースを作成するか、既存のワークスペースを使用します。
[ + 新しい項目] を選択し、[ ジョブのコピー ] アイコンを選択し、コピー ジョブに名前を付け、[ 作成] を選択します。
データのコピー元のデータ ストアを選択します。 この例では、 Azure Data Lake Storage Gen2 を使用しました。
Azure Data Lake Storage Gen2 に接続するには、 ストレージ URL と 資格情報 を入力して Azure Data Lake Storage Gen2 に接続します。 他のデータ ストアの場合、接続の詳細は異なります。 オンプレミスまたは仮想ネットワーク ゲートウェイを使用して、仮想ネットワーク環境内でデータを安全にコピーできます。
コピーする フォルダー または ファイル を選択します。 すべてのファイルを含むフォルダー全体をコピーすることも、1 つのファイルをコピーすることもできます。
ヒント
スキーマに依存しない (バイナリ コピー) は 、スキーマを解析せずにファイルを別のデータ ストアにコピーします。 これにより、コピーのパフォーマンスが大幅に向上する可能性があります。
宛先ストアを選択します。 この例では、 Lakehouse を選択しました。
宛先ストレージの フォルダー パス を選択します。 ソースと同じフォルダー構造を維持するには [ 階層の保持 ] を選択し、すべてのファイルを 1 つのフォルダーに配置する 場合は [階層のフラット化 ] を選択します。
コピー モードを選択します。完全なデータ コピーまたは増分コピーです。 この例では、 増分コピー を使用して、コピー ジョブが最初の実行時にすべてのファイルをコピーし、次の実行時に新規または更新されたファイルのみをコピーします。
ジョブの概要を確認し、実行オプションを選択して 1 回またはスケジュールに従って実行し、[ 保存 + 実行] を選択します。
コピー ジョブはすぐに開始され、行数や各テーブルのコピー期間などの情報を含むインライン監視パネルからジョブの状態を追跡できます。 詳細については、「コピー ジョブを監視する方法」を参照してください
スケジュールに従って実行するように設定されている場合でも、必要に応じてコピー ジョブを再実行できます。 [ 実行 ] ボタンを選択するだけで、コピー ジョブは前回の実行以降に変更されたデータのみをコピーします。
スケジュールの構成や詳細設定の調整など、コピー ジョブはいつでも編集できます。
既知の制限事項
- 現在、増分コピー モードは一部のソースでのみ機能します。 詳細については、コピー ジョブでサポートされているコネクタを参照してください。
- ソース ストアから行の削除をキャプチャすることはできません。
- ファイルをストレージの場所にコピーする際に、ソースからデータが読み込まれていない場合、空のファイルがコピー先に作成されます。