データ インジェストは、データをテーブルに追加して リアルタイム インテリジェンス でのクエリに使用できるようにするプロセスです。 ingest-from-query 以外のすべてのインジェスト方法では、データは、サポートされているいずれかの形式になっている必要があります。 次の表は、データ インジェスト用に リアルタイム インテリジェンス でサポートされている形式とその説明を示しています。
Note
データを取り込む前に、データが適切に書式設定され、必要なフィールドが定義されていることを確認してください。 形式が有効なであることを確かめるために、好みの検証ツールを使用することをお勧めします。 たとえば、CSV または JSON のファイルの検査には、次の検証ツールが役立ちます。
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
インジェストが失敗する原因の詳細については、「インジェスト エラー」を参照してください。
| 形式 | 拡張機能 | 説明 |
|---|---|---|
| ApacheAvro | .avro |
論理型をサポートする AVRO 形式。 次の圧縮コーデックがサポートされています: null、deflate、snappy。 apacheavro 形式のリーダー実装は、公式の apacheavroに基づいています。 Event Hubs Capture Avro ファイルの取り込みの詳細については、「Event Hubs Capture Avro ファイルのスキーマ マッピング」を参照してください。 |
| Avro | .avro |
.NET ライブラリに基づいた AVRO 形式のレガシ実装。 次の圧縮コーデックがサポートされています: null、deflate、(snappy については、ApacheAvro データ形式を使用します)。 |
| CSV | .csv |
コンマ区切り値 (,) を含むテキスト ファイル。 RFC 4180: コンマ区切り値 (CSV) ファイルの共通形式と MIME の種類に関するページを参照してください。 |
| JSON | .json |
\n または \r\n で区切られた JSON オブジェクトを含むテキスト ファイル。 「JSON Lines (JSONL)」を参照してください。 |
| MultiJSON | .multijson |
プロパティ バッグの JSON 配列 (それぞれレコードを表す)、または空白、\n または\r\n で区切られた任意の数のプロパティ バッグを含むテキスト ファイル。 各プロパティ バッグは、複数の行にまたがることができます データが非プロパティ バッグの場合を除き、この形式は JSON よりも優先されます。 |
| ORC | .orc |
ORC ファイル。 |
| Parquet | .parquet |
Parquet ファイル。 |
| PSV | .psv |
パイプ区切り値を含むテキスト ファイル (|)。 |
| RAW | .raw |
コンテンツ全体が 1 つの文字列値であるテキスト ファイル。 |
| SCsv | .scsv |
セミコロン区切り値 (;) を含むテキスト ファイル。 |
| SOHsv | .sohsv |
SOH で区切られた値を含むテキスト ファイル。 (SOH は ASCII コードポイント 1 です。この形式は、HDInsight の Hive によって使用されます)。 |
| TSV | .tsv |
タブ区切り値 (\t) を含むテキスト ファイル。 |
| TSVE | .tsv |
タブ区切り値 (\t) を含むテキスト ファイル。 エスケープにはバックスラッシュ文字 (\) が使用されます。 |
| TXT | .txt |
\n で区切られた行を含むテキスト ファイル。 空の行はスキップされます。 |
| W3CLOGFILE | .log |
W3C によって規格化された Web ログ ファイルのフォーマットです。 |
Note
- 通常の Parquet 形式ファイル (Apache Iceberg、Apache Hudi など) に加えて ACID 機能を提供するデータ ストレージ システムからの取り込みはサポートされていません。
- スキーマレス Avro はサポートされていません
サポートされているデータ圧縮形式
次のいずれかの圧縮アルゴリズムを使用して BLOB とファイルを圧縮できます。
| 圧縮 | 拡張機能 |
|---|---|
| GZip | .gz |
| Zip | .zip |
BLOB またはファイルの名前に拡張子を追加して、圧縮を示します。
次に例を示します。
MyData.csv.zipは、BLOB、または CSV として書式設定されたファイルが ZIP (アーカイブまたは単一ファイル) で圧縮されていることを示しますMyData.json.gzは、JSON として書式設定された BLOB またはファイルが GZip で圧縮されていることを示します。
形式拡張子がなく圧縮のみが含まれている BLOB またはファイルの名前 (例: MyData.zip) もサポートされています。 この場合、ファイル形式は推測できないため、インジェスト プロパティとして指定する必要があります。
Note
- 一部の圧縮形式では、元のファイル拡張子が圧縮ストリームの一部として追跡されます。 この拡張子は通常、ファイル形式の判別では無視されます。 (圧縮された) BLOB またはファイルの名前からファイル形式を判別できない場合は、
formatインジェスト プロパティを使用して指定する必要があります。 Parquet、AVRO、およびORC形式で使用される内部 (チャンク レベル) 圧縮コーデックと混同しないようにしてください。 内部圧縮名は、通常、ファイル形式拡張子の前のファイル名に追加されます (例:file1.gz.parquet、file1.snappy.avroなど)。