Azure Blob Storage、Azure Data Lake Storage Gen2、SharePoint など、インデクサーでサポートされているいくつかのデータ ソースには、さまざまなコンテンツ タイプのスタンドアロン ファイルまたは埋め込みオブジェクトが含まれています。 これらのコンテンツ タイプの多くは、インデックス作成に役立つメタデータ プロパティを持っています。
metadata_storage_name などの標準 BLOB プロパティの検索フィールドを作成するのと同様に、ドキュメント形式に固有のメタデータ プロパティ用のフィールドを検索インデックス内に作成できます。
サポートされるドキュメントの形式
Azure AI Search では、次のドキュメント形式の BLOB のインデックス作成と SharePoint ドキュメントのインデックス作成がサポートされています。
- CSV (CSV BLOB のインデックス作成に関する記事を参照)
- EML
- EPUB
- GZ
- HTML
- JSON (JSON BLOB のインデックス作成に関する記事を参照)
- KML (地理的表現の XML)
- Microsoft Office 形式: DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG (Outlook 電子メール)、XML (2003 と 2006 両方の WORD XML)
- オープン ドキュメント形式: ODT、ODS、ODP
- プレーンテキスト ファイル (「プレーン テキストのインデックス作成」も参照)
- RTF
- XML
- 郵便番号
ドキュメント形式のプロパティ
次の表は、各ドキュメント形式の処理をまとめたものです。また、BLOB インデクサーと SharePoint インデクサーによって抽出されるメタデータ プロパティについて説明します。
| ドキュメントの形式/コンテンツの種類 | 抽出されるメタデータ | 処理の詳細 |
|---|---|---|
| CSV (テキスト/csv) | metadata_content_typemetadata_content_encoding |
テキストを抽出します 注: CSV BLOB から複数のドキュメント フィールドを抽出する必要がある場合は、CSV BLOB のインデックス作成に関する記事をご覧ください |
| DOC (application/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| EML (message/rfc822) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
テキストを抽出します。添付ファイルも対象となります。 |
| EPUB (application/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
アーカイブ内のすべてのドキュメントからテキストを抽出します。 |
| GZ (application/gzip) | metadata_content_type |
アーカイブ内のすべてのドキュメントからテキストを抽出します。 |
| HTML (text/html または application/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
HTML 要素を削除してテキストを抽出します |
| JSON (application/json) | metadata_content_typemetadata_content_encoding |
テキストを抽出します 注: JSON BLOB から複数のドキュメント フィールドを抽出する必要がある場合は、JSON BLOB のインデックス作成に関する記事をご覧ください |
| KML (application/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
XML 要素を削除してテキストを抽出します |
| MSG (application/vnd.ms-outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
テキスト (添付ファイルから抽出されたテキストを含む) を抽出します。
metadata_message_to_email、metadata_message_cc_email、metadata_message_bcc_email は文字列コレクションです。 残りのフィールドは文字列です。 |
| ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| ODT (application/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| PDF (アプリケーション/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
テキストを抽出します。埋め込みドキュメントも対象となります (画像を除く)。 |
| プレーン テキスト (text/plain) | metadata_content_typemetadata_content_encodingmetadata_language |
テキストを抽出します |
| PPT (application/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| RTF (アプリケーション/rtf) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
テキストを抽出します |
| WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
XML 要素を削除してテキストを抽出します |
| WORD XML (application/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
XML 要素を削除してテキストを抽出します |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
テキストを抽出します。埋め込みドキュメントも対象となります。 |
| XML (application/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
XML 要素を削除してテキストを抽出します |
| ZIP (application/zip) | metadata_content_type |
アーカイブ内のすべてのドキュメントからテキストを抽出します。 |