データ パイプラインでは、コピー アクティビティを使用して、クラウド内のデータ ストア間でデータをコピーできます。 データをコピーした後は、パイプライン内の他のアクティビティを使用して変換と分析を行うことができます。
コピー アクティビティは、データ ソースとコピー先に接続し、それらの間でデータを効率的に移動することによって機能します。 サービスがコピー プロセスを処理する方法を次に示します。
- ソースへの接続: ソース データ ストアからデータを読み取るセキュリティで保護された接続を確立します。
- データを処理します。構成に基づいて、シリアル化/逆シリアル化、圧縮/展開、列マッピング、およびデータ型変換を処理します。
- 宛先への書き込み: 処理されたデータを宛先データ ストアに転送します。
- 監視を提供: コピー操作を追跡し、トラブルシューティングと最適化のための詳細なログとメトリックを提供します。
ヒント
データをコピーするだけで、変換が不要な場合は、 コピー ジョブ の方が適している可能性があります。 コピー ジョブは、完全なデータ パイプラインを作成する必要のないデータ移動シナリオに対して簡略化されたエクスペリエンスを提供します。 コピー ジョブの概要、 または デシジョン テーブルを使用してコピー アクティビティとコピー ジョブを比較する方法を参照してください。
前提条件
開始するには、次の前提条件を満たす必要があります。
アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウント。 無料でアカウントを作成できます。
Microsoft Fabric 対応ワークスペースがあることを確認します。
コピー アシスタントを使用して Copy アクティビティを追加する
コピー アシスタントを使用して Copy アクティビティを設定するには、次の手順に従います。
コピー アシスタントを開始する
既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。
キャンバス上の [データのコピー] を選び、コピー アシスタント ツールを開いて作業を開始します。 または、リボンの [アクティビティ] タブの [データのコピー] ドロップ ダウン リストから [コピー アシスタントを使用する] を選びます。
ソースを構成する
カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 [Azure Blob Storage] を選択します。
[新規接続を作成する] を選んで、データ ソースへの接続を作成します。
[新規接続を作成する] を選んだら、必要な接続情報を入力し、[次へ] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。
既に接続がある場合は、[ 既存の接続 ] を選択し、ドロップダウン リストから接続を選択できます。
このソース構成手順で、コピーするファイルまたはフォルダーを選び、[次へ] を選びます。
コピー先を構成する
カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 前のセクションの手順に従って、新規 Azure Blob Storage アカウントにリンクする新規接続を作成するか、[接続] ドロップダウン リストから既存の接続を使用できます。 [テスト接続] および [編集] 機能は、選択した接続ごとに使用できます。
ソース データを構成し、コピー先にマップします。 次に、[次へ] を選んでコピー先の構成を完了します。
注
同じCopy アクティビティ内で使用できるオンプレミス データ ゲートウェイは 1 つだけです。 ソースとシンクの両方がオンプレミスのデータ ソースである場合は、同じゲートウェイを使用する必要があります。 異なるゲートウェイを持つオンプレミスのデータ ソース間でデータを移動するには、1 つのコピー アクティビティで最初のゲートウェイを使用して中間クラウド ソースにコピーする必要があります。 次に、別のCopy アクティビティを使用して、2 番目のゲートウェイを使用して中間クラウド ソースからコピーできます。
Copy アクティビティの確認と作成
完了すると、Copy アクティビティがデータ パイプライン キャンバスに追加されます。 この Copy アクティビティのすべての設定 (詳細設定を含む) は、タブを選ぶと使用できます。
これで、この 1 つの Copy アクティビティでデータ パイプラインを保存するか、データ パイプラインを引き続き設計できます。
Copy アクティビティを直接追加する
Copy アクティビティを直接追加するには、次の手順に従います。
Copy アクティビティを追加する
既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。
[パイプライン アクティビティの追加]>[Copy アクティビティ] を選ぶか、[アクティビティ] タブにある >[キャンバスに追加] を選んで、Copy アクティビティを追加します。
[全般] タブで全般設定を構成する
全般設定を構成する方法については、全般に関する記事をご覧ください。
[ソース] タブでソースを構成する
[ 接続] で、既存の接続を選択するか、[ その他 ] を選択して新しい接続を作成します。
ポップアップ ウィンドウからデータ ソースの種類を選びます。 例として Azure SQL Database を使用します。 [Azure SQL Database] を選び、 [続行] を選びます。
接続の作成ページに移動します。 パネルで必要な接続情報を入力して、[作成] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。
接続が作成されると、データ パイプライン ページに戻ります。 次に、[ 最新の情報に更新 ] を選択して、作成した接続をドロップダウン リストから取得します。 以前に作成した場合は、ドロップダウンから既存の Azure SQL Database 接続を直接選ぶこともできます。 [テスト接続] および [編集] 機能は、選択した接続ごとに使用できます。 次に、[接続の種類] で [Azure SQL Database] を選びます。
コピーするテーブルを指定します。 [データのプレビュー] を選んで、ソース テーブルをプレビューします。 [クエリ] と [ストアド プロシージャ] を使用して、ソースからデータを読み取ることもできます。
[ 詳細設定] を 展開して、クエリのタイムアウトやパーティション分割などのより高度な設定を行います。 (詳細設定はコネクタによって異なります)。
[コピー先] タブでコピー先を構成する
[ 接続] で既存の接続を選択するか、[ その他 ] を選択して新しい接続を作成します。 これは、ワークスペースの内部ファースト クラスのデータ ストア (レイクハウスなど) か、外部データ ストアのどちらかです。 この例では、Lakehouse を使用します。
接続が作成されると、データ パイプライン ページに戻ります。 次に、[ 最新の情報に更新 ] を選択して、作成した接続をドロップダウン リストから取得します。 以前に作成した場合は、ドロップダウンから既存のレイクハウス接続を直接選ぶこともできます。
テーブルを指定するか、ファイル パスを設定して、ファイルまたはフォルダーをコピー先として定義します。 ここで [テーブル] を選び、データを書き込むテーブルを指定します。
[ 詳細設定] を 展開して、ファイルあたりの最大行数やテーブル アクションなど、より高度な設定を行います。 (詳細設定はコネクタによって異なります)。
これで、このコピー アクティビティを使用してデータ パイプラインを保存するか、データ パイプラインを設計し続けることができます。
[マッピング] タブでマッピングを構成する
使用するコネクタがマッピングをサポートしている場合は、[ マッピング ] タブに移動してマッピングを構成できます。
[スキーマのインポート] を選んでデータ スキーマをインポートします。
自動マッピングが表示されるのを確認できます。 [ソース] 列と [コピー先] 列を指定します。 コピー先に新規テーブルを作成する場合、ここで [コピー先] 列名をカスタマイズできます。 既存のコピー先テーブルにデータを書き込む場は、既存の [コピー先] 列名を変更することはできません。 [ソース] 列と [コピー先] 列の [種類] を確認することもできます。
さらに、[+ 新規マッピング] を選んで新規マッピングの追加、[解除] を選んですべてのマッピング設定の解除、[リセット] を選んですべてのマッピング [ソース] 列のリセットができます。
[設定] タブで他の設定を構成する
[設定] タブには、パフォーマンス、ステージングなどの設定が含まれています。
各セクションの説明については、次の表をご覧ください。
設定 | 説明 | JSON スクリプト プロパティ |
---|---|---|
インテリジェントなスループットの最適化 | 指定してスループットを最適化します。 次の項目から選択できます: • 自動 • 標準 • バランス • 最大 [自動] を選ぶと、ソースとコピー先のペアとデータ パターンに基づいて、最適な設定が動的に適用されます。 スループットをカスタマイズすることもできます。カスタム値は 2 から 256 まで設定できます。値を大きくすると、効果を高めることができます。 |
データ統合ユニット |
コピーの並列処理 | データ読み込みで使用される並列処理の次数を指定します。 | 並列コピー |
フォールト トレランス | このオプションを選択すると、コピー プロセスの途中で発生するいくつかのエラーを無視できます。 たとえば、ソース ストアとコピー先ストア間で行に互換性がないことや、データ移動中にファイルが削除されたことなどです。 | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden 無効なファイル名 |
ログ記録を有効化する | このオプションを選択すると、コピーしたファイル、スキップされたファイル、行をログに記録できます。 | / |
ステージングの有効化 | 中間ステージング ストアを経由してデータをコピーするかどうかを指定します。 ステージングは、役に立つシナリオでのみ有効にします。 | スタージングを有効にする |
データ ストアの種類 | ステージングを有効にすると、[ワークスペース] と [外部] をデータ ストアの種類として選択できます。 | / |
ワークスペースの場合 | ||
ワークスペース | 組み込みのステージング ストレージを使用するように指定します。 | / |
外部の場合 | ||
ステージング アカウント接続 | Azure Blob Storage または Azure Data Lake Storage Gen2 の接続を指定します。これは、中間ステージング ストアとして使用する Storage のインスタンスを示します。 ステージング接続を作成します (ない場合)。 | connection (externalReferences の下) |
ストレージ パス | ステージング データを格納するパスを指定します。 パスを指定しないと、一時データを格納するコンテナーがサービスによって作成されます。 パスを指定するのは、Shared Access Signature を持つ Storage を使用する場合、または一時データを特定の場所に保存する必要がある場合のみです。 | パス |
圧縮を有効にする | データをコピーする前に圧縮するかどうかを指定します。 この設定により、転送するデータの量が減ります。 | 圧縮を有効にする |
保つ | データのコピー中にメタデータ/ACL を保存するかどうかを指定します。 | 保つ |
注
圧縮を有効にしてステージング コピーを使用する場合、ステージング BLOB 接続でのサービス プリンシパル認証はサポートされません。
Copy アクティビティでパラメーターを構成する
パラメーターを使って、パイプラインとそのアクティビティの動作を制御できます。 [動的なコンテンツの追加] を使って、Copy アクティビティのプロパティのパラメーターを指定できます。 レイクハウス、データ ウェアハウス、KQL データベースを例として指定することで、その使い方を見てみましょう。
コピー元またはコピー先で、データ ストアの種類として [ワークスペース] を選び、ワークスペース データ ストアの種類として/、[データ ウェアハウス]、または/[KQL データベース] を指定した後、[レイクハウス] または [Data Warehouse] または [KQL データベース] のドロップダウン リストで [動的なコンテンツの追加] を選びます。
ポップアップした [動的なコンテンツの追加] ペインの [パラメーター] タブで、[+] を選びます。
パラメーターの名前を指定し、必要な場合はデフォルト値を指定します。または、パイプラインで [実行] 選んだ後でパラメーターの値を指定することもできます。
パラメーター値は、Lakehouse/Data Warehouse/KQL データベース オブジェクト ID である必要があります。 レイクハウス、データ ウェアハウス、KQL データベースのオブジェクト ID を取得するには、ワークスペースでレイクハウス、データ ウェアハウス、または KQL データベースを開きます。ID は URL の
/lakehouses/
または/datawarehouses/
または/databases/
の後にあります。レイクハウスのオブジェクト ID:
データ ウェアハウスのオブジェクト ID:
KQL データベースのオブジェクト ID:
[保存] を選んで、[動的なコンテンツの追加] ペインに戻ります。 次に、パラメーターを選んで式ボックスに表示します。 [OK] をクリックします。 パイプライン ページに戻ると、、/、KQL データベース オブジェクト ID の後にパラメーター式が指定されていることがわかります。