次の方法で共有


Azure AI Search でプレーンテキスト BLOB とファイルのインデックスを作成する

適用対象: BLOB インデクサーファイル インデクサー

インデクサーを使用してフルテキスト検索用の検索可能な BLOB テキストまたはファイルコンテンツを抽出する場合は、解析モードを割り当ててインデックス作成の結果を向上させることができます。 既定では、インデクサーは BLOB の content プロパティをテキストの 1 つのチャンクとして解析します。 ただし、すべての BLOB とファイルに同じエンコードのプレーン テキストが含まれている場合は、 text 解析モードを使用してインデックス作成のパフォーマンスを大幅に向上させることができます。

text解析の推奨事項には、次のいずれかの特性があります。

  • ファイルの種類は .txt
  • ファイルは任意の種類ですが、コンテンツ自体はテキスト (プログラムのソース コード、HTML、XML など) です。 マークアップ言語のファイルの場合、構文文字は静的テキストとして使用されます。

すべてのインデクサーが JSON にシリアル化されることを思い出してください。 既定では、テキスト ファイル全体の内容は、 "content": "<file-contents>"として 1 つの大きなフィールド内にインデックスが作成されます。 新しい行と戻り値の命令はコンテンツ フィールドに埋め込まれており、 \r\n\として表されます。

より洗練された、または詳細な結果が必要で、ファイルの種類に互換性がある場合は、次の解決策を検討してください。

コンテンツを複数の部分に分割するための代替の 3 番目のオプションには、 AI エンリッチメントの形式で高度な機能が必要です。 ファイルのチャンクを識別してさまざまな検索フィールドに割り当てる分析が追加されます。 エンティティ認識やキーワード抽出などの 組み込みのスキル によって完全または部分的なソリューションが見つかる場合がありますが、より可能性の高いソリューションは、 カスタム スキルにラップされたコンテンツを理解するカスタム学習モデルである可能性があります。

プレーンテキストのインデックス作成を設定する

プレーン テキスト BLOB のインデックスを作成するには、インデクサーの作成要求でparsingModeに設定されたtext構成プロパティを使用してインデクサー定義を作成または更新します。

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

既定では、 UTF-8 エンコードが想定されます。 別のエンコードを指定するには、 encoding 構成プロパティを使用します。 サポートされているエンコードの一覧、.NET 5 以降のサポート列にあります。

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}

要求の例

解析モードは、インデクサー定義で指定されます。

POST https://[service name].search.windows.net/indexers?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

次のステップ