Azure Synapse Data Explorer データインジェストの概要 (プレビュー)

Von Bedeutung

Azure Synapse Analytics データエクスプローラー (プレビュー) は、2025 年 10 月 7 日に廃止されます。この日以降、Synapse Data Explorer で実行されているワークロードは削除され、関連付けられているアプリケーションデータは失われます。 Microsoft Fabric の Eventhouse に移行することを強くお勧めします。

Microsoft Cloud Migration Factory (CMF) プログラムは、お客様が Fabric に移行できるように設計されています。このプログラムは、顧客に無料でハンズオンキーボードリソースを提供します。これらのリソースは、定義済みの合意されたスコープで、6 ~ 8 週間割り当てられます。顧客の指名は、Microsoft アカウントチームから受け入れられるか、CMF チームにヘルプの要求を送信することによって直接受け入れられます。

データインジェストは、1 つ以上のソースからデータレコードを読み込み、Azure Synapse Data Explorer プールのテーブルにデータをインポートするために使用されるプロセスです。取り込まれると、データはクエリで使用できるようになります。

データインジェストを担当する Azure Synapse Data Explorer データ管理サービスは、次のプロセスを実装します。

データをバッチでプルするか、外部ソースからストリーミングし、保留中の Azure キューから要求を読み取ります。
同じデータベースとテーブルに流れるバッチデータは、インジェストスループット用に最適化されています。
初期データが検証され、必要に応じて形式が変換されます。
スキーマの照合、整理、インデックス作成、エンコード、データの圧縮など、さらにデータ操作を行います。
データは、設定された保持ポリシーに従ってストレージに保持されます。
取り込まれたデータは、クエリで使用できるエンジンにコミットされます。

サポートされているデータ形式、プロパティ、およびアクセス許可

サポートされているデータ形式
インジェストプロパティ: データの取り込み方法に影響するプロパティ (タグ付け、マッピング、作成時間など)。
アクセス許可: データを取り込むには、データベース取り込み者レベルのアクセス許可が必要です。クエリなどの他のアクションには、データベース管理者、データベースユーザー、またはテーブル管理者のアクセス許可が必要な場合があります。

バッチ処理とストリーミングインジェスト

バッチインジェストはデータのバッチ処理を行い、高いインジェストスループットのために最適化されています。この方法は、推奨される最もパフォーマンスの高いインジェストの種類です。データは、インジェストプロパティに従ってバッチ処理されます。データの小さなバッチがマージされ、高速なクエリ結果を得るための最適化が行われます。インジェストバッチ処理ポリシーは、データベースまたはテーブルに設定できます。既定では、バッチ処理の最大値は 5 分、1,000 項目、または合計サイズ 1 GB です。バッチインジェストコマンドのデータサイズ制限は 4 GB です。
ストリーミングインジェストは、ストリーミングソースからの継続的なデータインジェストです。ストリーミングインジェストを使用すると、テーブルごとに少量のデータセットに対してほぼリアルタイムの待機時間を実現できます。データは最初に行ストアに取り込まれ、次に列ストアのエクステントに移動されます。

インジェストの方法とツール

Azure Synapse Data Explorer では、いくつかのインジェスト方法がサポートされています。それぞれに独自のターゲットシナリオがあります。これらの方法には、インジェストツール、さまざまなサービスへのコネクタとプラグイン、マネージドパイプライン、SDK を使用したプログラムによる取り込み、インジェストへの直接アクセスなどがあります。

マネージドパイプラインを使用したインジェスト

外部サービスによって管理 (調整、再試行、モニター、アラートなど) を行う必要がある組織では、コネクタを使用することが最も適切なソリューションである可能性があります。キューに入った取込処理は、大量のデータに適しています。 Azure Synapse Data Explorer では、次の Azure Pipelines がサポートされています。

Event Hub: サービスから Azure Synapse Data Explorer にイベントを転送するパイプライン。詳細については、「 Event Hub から Azure Synapse Data Explorer にデータを取り込む」を参照してください。

Synapse パイプライン: Synapse パイプラインの分析ワークロード用のフルマネージドデータ統合サービスは、サポートされている 90 を超えるソースと接続して、効率的で回復性の高いデータ転送を提供します。 Synapse パイプラインは、さまざまな方法で監視できる分析情報を得るために、データの準備、変換、強化を行います。このサービスは、1 回限りのソリューションとして、定期的なタイムラインで使用することも、特定のイベントによってトリガーすることもできます。

SDK を使用したプログラムによるインジェスト

Azure Synapse Data Explorer には、クエリとデータインジェストに使用できる SDK が用意されています。プログラムによるインジェストは、インジェストプロセス中および取り込みプロセス後のストレージトランザクションを最小限に抑えることで、インジェストコスト (COG) を削減するために最適化されています。

開始する前に、次の手順を使用して、プログラムによるインジェストを構成するための Data Explorer プールエンドポイントを取得します。

Synapse Studio の左側のペインで、 [管理]>[Data Explorer プール] を選びます。
詳細を表示するために使用するデータエクスプローラープールを選択します。
クエリとデータインジェストのエンドポイントを書き留めます。 Data Explorer プールへの接続を構成するときは、クエリエンドポイントをクラスターとして使用します。データインジェスト用に SDK を構成する場合は、データインジェストエンドポイントを使用します。

使用可能な SDK とオープンソースプロジェクト

ツール

ワンクリックインジェスト: さまざまな種類のソースからテーブルを作成および調整することで、データをすばやく取り込めます。ワンクリックインジェストでは、Azure Synapse Data Explorer のデータソースに基づいてテーブルとマッピング構造が自動的に提案されます。ワンクリックインジェストは、1 回限りのインジェストや、データが取り込まれたコンテナー上の Event Grid を介した継続的インジェストの定義に使用できます。

Kusto クエリ言語の取り込み制御コマンド

Kusto クエリ言語 (KQL) コマンドを使用して、データをエンジンに直接取り込むことができる方法は多数あります。このメソッドは Data Management サービスをバイパスするため、探索とプロトタイプ作成にのみ適しています。運用環境または大量のシナリオでは、この方法を使用しないでください。

インラインインジェスト: 制御コマンド .ingest インラインがエンジンに送信され、取り込まれるデータはコマンドテキスト自体の一部になります。この方法は、即席のテストを目的としたものです。
クエリからの取り込み: 制御コマンド .set、.append、.set-or-append、または .set-or-replace がエンジンに送信され、クエリまたはコマンドの結果として間接的にデータが指定されます。
ストレージからの取り込み (pull): 制御コマンド .ingest into がエンジンに送信され、データはエンジンからアクセス可能な外部ストレージ (Azure Blob Storage など) に格納され、コマンドによって指し示されます。

取り込み制御コマンドの使用例については、「データエクスプローラーを使用した分析」を参照してください。

インジェストプロセス

ニーズに最も適したインジェスト方法を選択したら、次の手順を実行します。

保持ポリシーを設定する

Azure Synapse Data Explorer でテーブルに取り込まれたデータは、テーブルの有効な保持ポリシーの対象となります。テーブルに明示的に設定しない限り、有効なアイテム保持ポリシーはデータベースのアイテム保持ポリシーから派生します。ホットリテンションは、クラスターサイズと保持ポリシーによって左右されます。使用可能な領域よりも多くのデータを取り込むと、最初のデータにコールドリテンションが適用されます。

データベースのアイテム保持ポリシーがニーズに適していることを確認します。そうでない場合は、テーブルレベルで明示的に上書きしてください。詳細については、「保持ポリシー」を参照してください。
テーブルを作成する

データを取り込むには、事前にテーブルを作成する必要があります。次のいずれかのオプションを使用します。
- コマンドを使用してテーブルを作成します。テーブルの作成コマンドの使用例については、「データエクスプローラーを使用した分析」を参照してください。
- ワンクリックインジェストを使用してテーブルを作成します。
注

レコードが不完全な場合、またはフィールドを必要なデータ型として解析できない場合は、対応するテーブル列に null 値が設定されます。
スキーママッピングを作成する

スキーママッピングは、ソースデータフィールドを変換先テーブルの列にバインドするのに役立ちます。マッピングを使用すると、定義された属性に基づいて、異なるソースのデータを同じテーブルに取り込むことができます。さまざまな種類のマッピングがサポートされており、行指向 (CSV、JSON、AVRO)、列指向 (Parquet) の両方がサポートされています。ほとんどの方法では、マッピングをテーブルに事前に作成し、ingest コマンドパラメーターから参照することもできます。
更新ポリシーを設定 する (省略可能)

一部のデータ形式マッピング (Parquet、JSON、Avro) では、単純で便利な取り込み時間変換がサポートされています。このシナリオでは、取り込み時により複雑な処理が必要な場合は、更新ポリシーを使用します。これにより、Kusto クエリ言語コマンドを使用した軽量な処理が可能になります。更新ポリシーは、元のテーブルの取り込まれたデータに対して抽出と変換を自動的に実行し、結果のデータを 1 つ以上の変換先テーブルに取り込みます。更新ポリシーを設定します。

次のステップ

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-06-10

次の方法で共有

Azure Synapse Data Explorer データ インジェストの概要 (プレビュー)