次の方法で共有


ソース データ ストアからターゲット データ ストアにデータを増分読み込みする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

データ統合ソリューションでは、初回のフル データ読み込みの後、増分 (または差分) データを読み込む手法が広く利用されています。 このセクションの各チュートリアルでは、Azure Data Factory を使用して、データを増分読み込みするさまざまな方法を紹介しています。

基準値を使用してデータベースから差分データを読み込む

このケースでは、ソース データベースにおける基準値を定義します。 基準値とは、最終更新タイムスタンプやインクリメントされるキーを格納する列のことです。 差分読み込みソリューションでは、古い基準値から新しい基準値までの間に生じた変更済みのデータが読み込まれます。 このアプローチのワークフローを表したのが次の図です。

基準値を使用するためのワークフロー

具体的な手順については、次のチュートリアルを参照してください。

テンプレートについては、以下を参照してください。

Change Tracking テクノロジを使用して SQL DB から差分データを読み込む

Change Tracking テクノロジは、SQL Server と Azure SQL Database において、アプリケーションのための効率的な変更追跡メカニズムとなる軽量ソリューションです。 挿入、更新、削除されたデータをアプリケーションから簡単に特定することができます。

このアプローチのワークフローを表したのが次の図です。

Change Tracking を使用するためのワークフロー

具体的な手順については、次のチュートリアルを参照してください。

LastModifiedDate を使用して新しいファイルと変更済みのファイルを読み込む

LastModifiedDate を使用して、新しいファイルと変更されたファイルのみをターゲット ストアにコピーすることができます。 ADF はソース ストアのすべてのファイルをスキャンし、LastModifiedDate に基づいてファイル フィルターを適用して、前回以降の新しいファイルと更新されたファイルのみをターゲット ストアにコピーします。 ADFで大量のファイルをスキャンさせるが、コピー先にコピーするファイルが数個しかない場合、ファイルスキャン処理のために時間がかかります。

具体的な手順については、次のチュートリアルを参照してください。

テンプレートについては、以下を参照してください。

時間ベースのパーティションフォルダーまたはファイル名を使用してのみ新しいファイルを読み込む

ファイルまたはフォルダーが時間 (ファイル名またはフォルダー名に含まれるタイムスライス情報) でパーティション分割されているときに (例: /yyyy/mm/dd/file.csv)、新しいファイルのみをコピーすることができます。 これは、新しいファイルを段階的に読み込むための最もパフォーマンスの高いアプローチです。

具体的な手順については、次のチュートリアルを参照してください。

次のチュートリアルに進みます。