Indexes - Create
新しい検索インデックスを作成します。
POST {endpoint}/indexes?api-version=2025-09-01
URI パラメーター
| 名前 | / | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
検索サービスのエンドポイント URL。 |
|
api-version
|
query | True |
string |
クライアント API のバージョン。 |
要求ヘッダー
| 名前 | 必須 | 型 | 説明 |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
デバッグを支援するためにリクエストとともに送信されたトラッキング ID。 |
要求本文
| 名前 | 必須 | 型 | 説明 |
|---|---|---|---|
| fields | True |
インデックスのフィールド。 |
|
| name | True |
string |
インデックスの名前です。 |
| @odata.etag |
string |
インデックスの ETag。 |
|
| analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
|
| charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
|
| corsOptions |
インデックスのクロスオリジンリソース共有 (CORS) を制御するオプション。 |
||
| defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリングプロファイルが指定されていない場合は、デフォルトのスコアリング(tf-idf)が使用されます。 |
|
| description |
string |
インデックスの説明。 |
|
| encryptionKey |
Azure Key Vault で作成する暗号化キーの説明。 このキーは、Microsoft を含む誰もデータを復号化できないという完全な保証が必要な場合に、データに追加レベルの保存時の暗号化を提供するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 検索サービスは、このプロパティを null に設定しようとすると無視されます。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーによる暗号化は、無料の検索サービスでは使用できず、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
||
| normalizers | LexicalNormalizer[]: |
インデックスの正規化。 |
|
| scoringProfiles |
インデックスのスコアリングプロファイル。 |
||
| semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
||
| similarity | Similarity: |
検索クエリに一致するドキュメントをスコアリングおよびランク付けするときに使用する類似性アルゴリズムのタイプ。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合、ClassicSimilarity アルゴリズムが使用されます。 |
|
| suggesters |
インデックスの提案者。 |
||
| tokenFilters |
TokenFilter[]:
|
インデックスのトークンフィルター。 |
|
| tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
|
| vectorSearch |
ベクトル検索に関連する構成オプションが含まれています。 |
応答
| 名前 | 型 | 説明 |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
エラー応答。 |
例
SearchServiceCreateIndex
要求のサンプル
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
応答のサンプル
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
定義
| 名前 | 説明 |
|---|---|
|
Ascii |
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、および記号の Unicode 文字を、同等の ASCII 文字 (同等のものが存在する場合) に変換します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Azure |
検索サービス用に作成された登録済みアプリケーションの資格情報で、Azure Key Vault に格納されている暗号化キーへの認証済みアクセスに使用されます。 |
|
Azure |
Azure OpenAI リソースを使用して、特定のテキスト入力のベクトル埋め込みを生成できます。 |
|
Azure |
呼び出される Azure Open AI モデル名。 |
|
Azure |
Azure OpenAI リソースに接続するためのパラメーターを指定します。 |
|
Azure |
クエリ文字列のベクトル化に使用される Azure OpenAI リソースを指定します。 |
|
Binary |
インデックス作成およびクエリ中に使用されるバイナリ量子化圧縮方法に固有の構成オプションが含まれています。 |
| BM25Similarity |
Okapi BM25類似性アルゴリズムに基づくランキング関数。 BM25はTF-IDFのようなアルゴリズムで、長さの正規化(「b」パラメータで制御)と項周波数飽和(k1パラメータで制御)が含まれています。 |
|
Char |
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。 |
|
Cjk |
標準トークナイザーから生成された CJK 用語のバイグラムを形成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Cjk |
CjkBigramTokenFilter によって無視できるスクリプト。 |
|
Classic |
TF-IDFのLucene TFIDFSimilarity実装を使用するレガシー類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的なドキュメントの長さの正規化と、検索されたクエリに部分的にしか一致しないドキュメントにペナルティを与える調整要因が導入されます。 |
|
Classic |
ほとんどのヨーロッパ言語のドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Common |
インデックス作成中に頻繁に発生する用語のバイグラムを構築します。 単一の用語も引き続きインデックス化され、バイグラムが重ねられます。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Cors |
インデックスのクロスオリジンリソース共有 (CORS) を制御するオプションを定義します。 |
|
Custom |
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーはテキストをトークンに分割し、フィルターはトークナイザーによって発行されるトークンを変更します。 |
|
Custom |
フィルタリング可能、ソート可能、ファセット可能なフィールドの正規化を構成できます。これらはデフォルトで厳密な一致で動作します。 これは、少なくとも 1 つ以上のフィルターで構成されるユーザー定義の構成であり、保存されるトークンを変更します。 |
|
Dictionary |
多くのゲルマン語に見られる複合語を分解します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Distance |
地理的な場所からの距離に基づいてスコアを上げる関数を定義します。 |
|
Distance |
距離スコアリング関数にパラメーター値を提供します。 |
|
Edge |
入力トークンの前面または背面から、指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Edge |
入力のどちら側から n-gram を生成するかを指定します。 |
|
Edge |
入力トークンの前面または背面から、指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Edge |
エッジからの入力を、指定されたサイズのnグラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Elision |
省略を削除します。 たとえば、「l'avion」(飛行機)は「avion」(飛行機)に変換されます。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Error |
リソース管理エラーの追加情報。 |
|
Error |
エラーの詳細。 |
|
Error |
エラー応答 |
|
Exhaustive |
網羅的なKNNアルゴリズムに固有のパラメータが含まれています。 |
|
Exhaustive |
クエリ中に使用される網羅的な KNN アルゴリズムに固有の構成オプションが含まれており、ベクトル インデックス全体にわたって総当たり検索を実行します。 |
|
Freshness |
日付/時刻フィールドの値に基づいてスコアをブーストする関数を定義します。 |
|
Freshness |
鮮度スコアリング関数にパラメーター値を提供します。 |
|
Hnsw |
HNSW アルゴリズムに固有のパラメーターが含まれます。 |
|
Hnsw |
インデックス作成とクエリ中に使用される HNSW 近似最近傍アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。 |
|
Input |
スキルの入力フィールド・マッピング。 |
|
Keep |
指定された単語のリストに含まれるテキストを含むトークンのみを保持するトークン フィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Keyword |
用語をキーワードとしてマークします。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Keyword |
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Keyword |
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Length |
長すぎる単語や短すぎる単語を削除します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Lexical |
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。 |
|
Lexical |
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。 |
|
Lexical |
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。 |
|
Limit |
インデックス作成中のトークンの数を制限します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Lucene |
標準のApache Luceneアナライザー。標準のトークナイザー、小文字のフィルター、停止フィルターで構成されています。 |
|
Lucene |
Unicode テキスト セグメンテーション ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Lucene |
Unicode テキスト セグメンテーション ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Magnitude |
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。 |
|
Magnitude |
マグニチュードスコアリング関数にパラメータ値を提供します。 |
|
Mapping |
mappings オプションで定義されたマッピングを適用する文字フィルタ。 マッチングは貪欲です(特定のポイントで最も長いパターンマッチングが勝ちます)。 置換は空の文字列にすることができます。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
|
Microsoft |
言語固有のルールを使用してテキストを分割し、単語を基本形式に縮小します。 |
|
Microsoft |
言語固有のルールを使用してテキストを分割します。 |
|
Microsoft |
Microsoft 言語ステミング トークナイザーでサポートされている言語を一覧表示します。 |
|
Microsoft |
Microsoft 言語トークナイザーでサポートされている言語を一覧表示します。 |
|
NGram |
指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
NGram |
指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
NGram |
入力を指定されたサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Output |
スキルの出力フィールドマッピング。 |
|
Path |
パスのような階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Pattern |
正規表現パターンを使用してテキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されています。 |
|
Pattern |
Java 正規表現を使用して、複数のトークン (1 つ以上のパターンのキャプチャグループごとに 1 つ) を出力します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Pattern |
入力文字列内の文字を置き換える文字フィルタ。 正規表現を使用して保持する文字シーケンスを識別し、置換パターンを使用して置換する文字を識別します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換 "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
|
Pattern |
入力文字列内の文字を置き換える文字フィルタ。 正規表現を使用して保持する文字シーケンスを識別し、置換パターンを使用して置換する文字を識別します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換 "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Pattern |
正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Phonetic |
PhoneticTokenFilter で使用する発信エンコーダーの種類を識別します。 |
|
Phonetic |
音声一致のトークンを作成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Prioritized |
セマンティック ランク付け、キャプション、ハイライト、および回答に使用するタイトル、コンテンツ、およびキーワード フィールドについて説明します。 |
|
Ranking |
ドキュメントの並べ替え順序に使用するスコアを表します。 |
|
Regex |
パターン・アナライザーおよびパターン・トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。 |
|
Rescoring |
再採点のオプションが含まれています。 |
|
Scalar |
スカラー量子化に固有のパラメータが含まれています。 |
|
Scalar |
インデックス作成およびクエリ中に使用されるスカラー量子化圧縮方法に固有の構成オプションが含まれています。 |
|
Scoring |
スコアリングプロファイル内のすべてのスコアリング関数の結果を結合するために使用される集計関数を定義します。 |
|
Scoring |
さまざまなドキュメントにわたってスコアブーストを補間するために使用される関数を定義します。 |
|
Scoring |
検索クエリのスコアリングに影響を与える検索インデックスのパラメーターを定義します。 |
|
Search |
インデックス定義内のフィールドを表し、フィールドの名前、データ型、および検索動作を記述します。 |
|
Search |
検索インデックス内のフィールドのデータ型を定義します。 |
|
Search |
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。 |
|
Search |
データソースの identity プロパティをクリアします。 |
|
Search |
使用するデータソースの ID を指定します。 |
|
Search |
Azure Key Vault の顧客管理暗号化キー。 作成および管理するキーを使用して、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除を行うことができます。 |
|
Semantic |
セマンティック機能のコンテキストで使用される特定の構成を定義します。 |
|
Semantic |
セマンティック構成の一部として使用されるフィールド。 |
|
Semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
|
Shingle |
トークンの組み合わせを 1 つのトークンとして作成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Snowball |
Snowball で生成されたステマーを使用して単語のステミングを行うフィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Snowball |
Snowball トークンフィルターに使用する言語。 |
|
Stemmer |
他のステミングフィルターをカスタム辞書ベースのステミングでオーバーライドする機能を提供します。 辞書の語幹付き用語はキーワードとしてマークされるため、チェーンの下の語幹で語幹処理されることはありません。 ステミングフィルターの前に配置する必要があります。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Stemmer |
言語固有のステミングフィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Stemmer |
ステマートークンフィルターに使用する言語。 |
|
Stop |
文字以外のテキストを分割します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されています。 |
|
Stopwords |
言語固有のストップワードの事前定義リストを識別します。 |
|
Stopwords |
トークン・ストリームからストップ・ワードを削除します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
| Suggester |
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。 |
|
Suggester |
サジェスターの機能を示す値。 |
|
Synonym |
トークン ストリーム内の 1 つまたは複数の単語の同義語に一致します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Tag |
特定のタグのリストに一致する文字列値を持つドキュメントのスコアをブーストする関数を定義します。 |
|
Tag |
タグスコアリング関数にパラメーター値を提供します。 |
|
Text |
検索クエリのスコアを向上させる一致のインデックス フィールドの重みを定義します。 |
|
Token |
トークン フィルターが操作できる文字のクラスを表します。 |
|
Token |
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。 |
|
Truncate |
用語を特定の長さに切り捨てます。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Uax |
URL と電子メールを 1 つのトークンとしてトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
|
Unique |
前のトークンと同じテキストを持つトークンを除外します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
|
Vector |
ベクトル フィールドの内容を解釈するためのエンコード形式。 |
|
Vector |
ベクトル検索に関連する構成オプションが含まれています。 |
|
Vector |
インデックス作成とクエリに使用されるアルゴリズム。 |
|
Vector |
ベクトル比較に使用する類似性メトリック。 埋め込みモデルがトレーニングされたのと同じ類似性メトリックを選択することをお勧めします。 |
|
Vector |
インデックス作成とクエリに使用される圧縮方法。 |
|
Vector |
再スコアリングおよび内部インデックス操作に使用される元の全精度ベクトルの格納方法。 |
|
Vector |
圧縮ベクトル値の量子化されたデータ型。 |
|
Vector |
ベクトル検索で使用する構成の組み合わせを定義します。 |
|
Vector |
クエリ時に使用するベクトル化方法。 |
|
Web |
ユーザー定義のベクトルライザーに接続するためのプロパティを指定します。 |
|
Web |
クエリ文字列のベクトル埋め込みを生成するためのユーザー定義ベクトルライザーを指定します。 外部ベクトルライザーの統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。 |
|
Word |
単語をサブワードに分割し、サブワードグループに対してオプションの変換を実行します。 このトークンフィルターは、Apache Lucene を使用して実装されます。 |
AsciiFoldingTokenFilter
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、および記号の Unicode 文字を、同等の ASCII 文字 (同等のものが存在する場合) に変換します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| preserveOriginal |
boolean |
False |
元のトークンが保持されるかどうかを示す値。 既定値は false です。 |
AzureActiveDirectoryApplicationCredentials
検索サービス用に作成された登録済みアプリケーションの資格情報で、Azure Key Vault に格納されている暗号化キーへの認証済みアクセスに使用されます。
| 名前 | 型 | 説明 |
|---|---|---|
| applicationId |
string |
保存データを暗号化するときに使用する Azure Key Vault への必要なアクセス許可が付与された AAD アプリケーション ID。 アプリケーション ID を AAD アプリケーションのオブジェクト ID と混同しないでください。 |
| applicationSecret |
string |
指定した AAD アプリケーションの認証キー。 |
AzureOpenAIEmbeddingSkill
Azure OpenAI リソースを使用して、特定のテキスト入力のベクトル埋め込みを生成できます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
スキルのタイプを指定するURIフラグメント。 |
| apiKey |
string |
指定された Azure OpenAI リソースの API キー。 |
| authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 |
| context |
string |
ドキュメントルートやドキュメントコンテンツ (/document や /document/content など) など、操作が実行されるレベルを表します。 デフォルトは /document です。 |
| deploymentId |
string |
指定されたリソース上の Azure OpenAI モデル デプロイの ID。 |
| description |
string |
スキルの入力、出力および使用法を説明するスキルの説明。 |
| dimensions |
integer (int32) |
結果として出力される埋め込みに必要なディメンションの数。 text-embedding-3 以降のモデルでのみサポートされます。 |
| inputs |
スキルの入力は、ソース・データ・セットの列、またはアップストリーム・スキルの出力である可能性があります。 |
|
| modelName |
指定された deploymentId パスにデプロイされる埋め込みモデルの名前。 |
|
| name |
string |
スキルセット内で一意に識別するスキルの名前。 名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスのデフォルト名が与えられ、接頭辞に文字「#」が付けられます。 |
| outputs |
スキルの出力は、検索インデックスのフィールド、または別のスキルによる入力として使用できる値のいずれかです。 |
|
| resourceUri |
string (uri) |
Azure OpenAI リソースのリソース URI。 |
AzureOpenAIModelName
呼び出される Azure Open AI モデル名。
| 値 | 説明 |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Azure OpenAI リソースに接続するためのパラメーターを指定します。
| 名前 | 型 | 説明 |
|---|---|---|
| apiKey |
string |
指定された Azure OpenAI リソースの API キー。 |
| authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 |
| deploymentId |
string |
指定されたリソース上の Azure OpenAI モデル デプロイの ID。 |
| modelName |
指定された deploymentId パスにデプロイされる埋め込みモデルの名前。 |
|
| resourceUri |
string (uri) |
Azure OpenAI リソースのリソース URI。 |
AzureOpenAIVectorizer
クエリ文字列のベクトル化に使用される Azure OpenAI リソースを指定します。
| 名前 | 型 | 説明 |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Azure OpenAI 埋め込みベクトル化に固有のパラメーターが含まれています。 |
| kind |
string:
azure |
ベクトル検索で使用するために構成されているベクトル化方法の種類の名前。 |
| name |
string |
この特定のベクトル化方法に関連付ける名前。 |
BinaryQuantizationVectorSearchCompressionConfiguration
インデックス作成およびクエリ中に使用されるバイナリ量子化圧縮方法に固有の構成オプションが含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| kind |
string:
binary |
ベクトル検索で使用するために構成されている圧縮方法の種類の名前。 |
| name |
string |
この特定の設定に関連付ける名前。 |
| rescoringOptions |
再採点のオプションが含まれています。 |
|
| truncationDimension |
integer (int32) |
ベクトルを切り捨てる次元の数。 ベクトルを切り捨てると、ベクトルのサイズと、検索中に転送する必要があるデータの量が削減されます。 これにより、ストレージコストを節約し、再呼び出しを犠牲にして検索パフォーマンスを向上させることができます。 これは、OpenAI text-embedding-3-large (small) などの Matryoshka Representation Learning (MRL) でトレーニングされた埋め込みにのみ使用する必要があります。 デフォルト値は null で、切り捨てがないことを意味します。 |
BM25Similarity
Okapi BM25類似性アルゴリズムに基づくランキング関数。 BM25はTF-IDFのようなアルゴリズムで、長さの正規化(「b」パラメータで制御)と項周波数飽和(k1パラメータで制御)が含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
このプロパティは、ドキュメントの長さが関連性スコアにどのように影響するかを制御します。 デフォルトでは、値 0.75 が使用されます。 値 0.0 は長さの正規化が適用されないことを意味し、値 1.0 はスコアがドキュメントの長さによって完全に正規化されることを意味します。 |
| k1 |
number (double) |
このプロパティは、一致する各用語の用語の頻度と、ドキュメントとクエリのペアの最終的な関連性スコアとの間のスケーリング関数を制御します。 デフォルトでは、値 1.2 が使用されます。 値が 0.0 の場合、用語頻度の増加に伴ってスコアがスケーリングされないことを意味します。 |
CharFilterName
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
| 値 | 説明 |
|---|---|
| html_strip |
HTML コンストラクトを削除しようとする文字フィルタ。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください |
CjkBigramTokenFilter
標準トークナイザーから生成された CJK 用語のバイグラムを形成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| ignoreScripts |
無視するスクリプト。 |
||
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| outputUnigrams |
boolean |
False |
ユニグラムとバイグラムの両方を出力するか (true の場合)、またはバイグラムのみを出力するか (false の場合) を示す値。 既定値は false です。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter によって無視できるスクリプト。
| 値 | 説明 |
|---|---|
| han |
CJK用語のバイグラムを形成するときは、漢文字を無視します。 |
| hiragana |
CJK用語のバイグラムを形成するときは、ひらがな文字を無視します。 |
| katakana |
CJK 用語のバイグラムを形成するときは、カタカナ文字を無視します。 |
| hangul |
CJK用語のバイグラムを形成するときは、ハングルスクリプトを無視します。 |
ClassicSimilarity
TF-IDFのLucene TFIDFSimilarity実装を使用するレガシー類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的なドキュメントの長さの正規化と、検索されたクエリに部分的にしか一致しないドキュメントにペナルティを与える調整要因が導入されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
ほとんどのヨーロッパ言語のドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 デフォルトは 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
CommonGramTokenFilter
インデックス作成中に頻繁に発生する用語のバイグラムを構築します。 単一の用語も引き続きインデックス化され、バイグラムが重ねられます。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| commonWords |
string[] |
一般的な単語のセット。 |
|
| ignoreCase |
boolean |
False |
一般的な単語の一致で大文字と小文字が区別されないかどうかを示す値。 既定値は false です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| queryMode |
boolean |
False |
トークン フィルターがクエリ モードであるかどうかを示す値。 クエリ モードの場合、トークン フィルターはバイグラムを生成し、一般的な単語と 1 つの用語の後に一般的な単語を削除します。 既定値は false です。 |
CorsOptions
インデックスのクロスオリジンリソース共有 (CORS) を制御するオプションを定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| allowedOrigins |
string[] |
JavaScript コードにインデックスへのアクセスを許可されるオリジンのリスト。 {protocol}://{fully-qualified-___domain-name}[:{port#}] 形式のホストのリスト、またはすべてのオリジンを許可する 1 つの '*' を含めることができます (推奨されません)。 |
| maxAgeInSeconds |
integer (int64) |
ブラウザーが CORS プリフライト応答をキャッシュする期間。 デフォルトは 5 分です。 |
CustomAnalyzer
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーはテキストをトークンに分割し、フィルターはトークナイザーによって発行されるトークンを変更します。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
アナライザーのタイプを指定する URI フラグメント。 |
| charFilters |
トークナイザーによって処理される前に入力テキストを準備するために使用される文字フィルターのリスト。 たとえば、特定の文字や記号を置き換えることができます。 フィルターは、リストされている順序で実行されます。 |
|
| name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
| tokenFilters |
トークナイザーによって生成されたトークンを除外または変更するために使用されるトークン フィルターのリスト。 たとえば、すべての文字を小文字に変換する小文字フィルターを指定できます。 フィルターは、リストされている順序で実行されます。 |
|
| tokenizer |
文を単語に分割するなど、連続テキストを一連のトークンに分割するために使用するトークナイザーの名前。 |
CustomNormalizer
フィルタリング可能、ソート可能、ファセット可能なフィールドの正規化を構成できます。これらはデフォルトで厳密な一致で動作します。 これは、少なくとも 1 つ以上のフィルターで構成されるユーザー定義の構成であり、保存されるトークンを変更します。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ノーマライザーのタイプを指定する URI フラグメント。 |
| charFilters |
入力テキストが処理される前に準備するために使用される文字フィルターのリスト。 たとえば、特定の文字や記号を置き換えることができます。 フィルターは、リストされている順序で実行されます。 |
|
| name |
string |
ノーマライザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 '.microsoft' や '.lucene' で終わったり、'asciifolding'、'standard'、'lowercase'、'uppercase'、'elision' という名前を付けたりすることはできません。 |
| tokenFilters |
入力トークンを除外または変更するために使用されるトークン フィルターのリスト。 たとえば、すべての文字を小文字に変換する小文字フィルターを指定できます。 フィルターは、リストされている順序で実行されます。 |
DictionaryDecompounderTokenFilter
多くのゲルマン語に見られる複合語を分解します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
最大サブワードサイズ。 これより短いサブワードのみ出力されます。 既定値は 15 です。 最大は 300 です。 |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
最小サブワードサイズ。 これより長いサブワードのみ出力されます。 デフォルトは 2 です。 最大は 300 です。 |
| minWordSize |
integer (int32) maximum: 300 |
5 |
最小ワードサイズ。 これより長い単語のみが処理されます。 既定値は 5 です。 最大は 300 です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| onlyLongestMatch |
boolean |
False |
一致する最も長いサブワードのみを出力に追加するかどうかを示す値。 既定値は false です。 |
| wordList |
string[] |
一致する単語のリスト。 |
DistanceScoringFunction
地理的な場所からの距離に基づいてスコアを上げる関数を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| boost |
number (double) |
生スコアの乗数。 1.0 に等しくない正の数である必要があります。 |
| distance |
距離スコアリング関数のパラメーター値。 |
|
| fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
| interpolation |
ドキュメントスコア間でブーストがどのように補間されるかを示す値。デフォルトは「線形」です。 |
|
| type |
string:
distance |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグなどがあります。 関数型は小文字にする必要があります。 |
DistanceScoringParameters
距離スコアリング関数にパラメーター値を提供します。
| 名前 | 型 | 説明 |
|---|---|---|
| boostingDistance |
number (double) |
ブースト範囲が終了する基準位置からの距離(キロメートル単位)。 |
| referencePointParameter |
string |
参照場所を指定するために検索クエリで渡されるパラメーターの名前。 |
EdgeNGramTokenFilter
入力トークンの前面または背面から、指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) |
2 |
n-gramの最大長。 デフォルトは 2 です。 |
| minGram |
integer (int32) |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| side | front |
n-gram を生成する入力のどちら側から生成するかを指定します。 デフォルトは「front」です。 |
EdgeNGramTokenFilterSide
入力のどちら側から n-gram を生成するかを指定します。
| 値 | 説明 |
|---|---|
| front |
n-gram が入力の前面から生成されるように指定します。 |
| back |
n-gram を入力の背面から生成することを指定します。 |
EdgeNGramTokenFilterV2
入力トークンの前面または背面から、指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gramの最大長。 デフォルトは 2 です。 最大は 300 です。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 最大は 300 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| side | front |
n-gram を生成する入力のどちら側から生成するかを指定します。 デフォルトは「front」です。 |
EdgeNGramTokenizer
エッジからの入力を、指定されたサイズのnグラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gramの最大長。 デフォルトは 2 です。 最大は 300 です。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 最大は 300 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| tokenChars |
トークンに保持する文字クラス。 |
ElisionTokenFilter
省略を削除します。 たとえば、「l'avion」(飛行機)は「avion」(飛行機)に変換されます。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
| articles |
string[] |
削除する記事のセット。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
ErrorAdditionalInfo
リソース管理エラーの追加情報。
| 名前 | 型 | 説明 |
|---|---|---|
| info |
object |
追加情報。 |
| type |
string |
追加情報の種類。 |
ErrorDetail
エラーの詳細。
| 名前 | 型 | 説明 |
|---|---|---|
| additionalInfo |
エラーの追加情報。 |
|
| code |
string |
エラー コード。 |
| details |
エラーの詳細。 |
|
| message |
string |
エラー メッセージ。 |
| target |
string |
エラーターゲット。 |
ErrorResponse
エラー応答
| 名前 | 型 | 説明 |
|---|---|---|
| error |
エラー オブジェクト。 |
ExhaustiveKnnParameters
網羅的なKNNアルゴリズムに固有のパラメータが含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| metric |
ベクトル比較に使用する類似性メトリック。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
クエリ中に使用される網羅的な KNN アルゴリズムに固有の構成オプションが含まれており、ベクトル インデックス全体にわたって総当たり検索を実行します。
| 名前 | 型 | 説明 |
|---|---|---|
| exhaustiveKnnParameters |
網羅的なKNNアルゴリズムに固有のパラメータが含まれています。 |
|
| kind |
string:
exhaustive |
ベクトル検索で使用するために構成されているアルゴリズムの種類の名前。 |
| name |
string |
この特定の設定に関連付ける名前。 |
FreshnessScoringFunction
日付/時刻フィールドの値に基づいてスコアをブーストする関数を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| boost |
number (double) |
生スコアの乗数。 1.0 に等しくない正の数である必要があります。 |
| fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
| freshness |
鮮度スコアリング関数のパラメーター値。 |
|
| interpolation |
ドキュメントスコア間でブーストがどのように補間されるかを示す値。デフォルトは「線形」です。 |
|
| type |
string:
freshness |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグなどがあります。 関数型は小文字にする必要があります。 |
FreshnessScoringParameters
鮮度スコアリング関数にパラメーター値を提供します。
| 名前 | 型 | 説明 |
|---|---|---|
| boostingDuration |
string (duration) |
特定のドキュメントのブーストが停止するまでの有効期限。 |
HnswParameters
HNSW アルゴリズムに固有のパラメーターが含まれます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
インデックス時に使用される最近傍を含む動的リストのサイズ。 このパラメーターを増やすと、インデックス作成時間が長くなる代わりに、インデックスの品質が向上する可能性があります。 ある時点で、このパラメータを増やすと収益が減少します。 |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
最近傍を含む動的リストのサイズで、検索時に使用されます。 このパラメーターを増やすと、検索結果が改善される可能性がありますが、検索速度が遅くなります。 ある時点で、このパラメータを増やすと収益が減少します。 |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
コンストラクション中に新しい要素ごとに作成される双方向リンクの数。 このパラメーター値を増やすと、メモリ消費量の増加とインデックス作成時間の延長を犠牲にして、固有の次元の高いデータセットの再現率が向上し、取得時間が短縮される可能性があります。 |
| metric |
ベクトル比較に使用する類似性メトリック。 |
HnswVectorSearchAlgorithmConfiguration
インデックス作成とクエリ中に使用される HNSW 近似最近傍アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。
| 名前 | 型 | 説明 |
|---|---|---|
| hnswParameters |
HNSW アルゴリズムに固有のパラメーターが含まれます。 |
|
| kind |
string:
hnsw |
ベクトル検索で使用するために構成されているアルゴリズムの種類の名前。 |
| name |
string |
この特定の設定に関連付ける名前。 |
InputFieldMappingEntry
スキルの入力フィールド・マッピング。
| 名前 | 型 | 説明 |
|---|---|---|
| inputs |
複合型の作成時に使用される再帰的入力。 |
|
| name |
string |
入力の名前。 |
| source |
string |
入力のソース。 |
| sourceContext |
string |
再帰入力の選択に使用されるソースコンテキスト。 |
KeepTokenFilter
指定された単語のリストに含まれるテキストを含むトークンのみを保持するトークン フィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| keepWords |
string[] |
保持する単語のリスト。 |
|
| keepWordsCase |
boolean |
False |
すべての単語を最初に小文字にするかどうかを示す値。 既定値は false です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
KeywordMarkerTokenFilter
用語をキーワードとしてマークします。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| ignoreCase |
boolean |
False |
大文字と小文字を無視するかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
| keywords |
string[] |
キーワードとしてマークする単語のリスト。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
KeywordTokenizer
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| bufferSize |
integer (int32) |
256 |
読み取りバッファーのサイズ (バイト単位)。 デフォルトは 256 です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
KeywordTokenizerV2
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
トークンの最大長。 デフォルトは 256 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
LengthTokenFilter
長すぎる単語や短すぎる単語を削除します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| max |
integer (int32) maximum: 300 |
300 |
文字単位の最大長。 デフォルトと最大値は 300 です。 |
| min |
integer (int32) maximum: 300 |
0 |
文字単位の最小長。 既定値は 0 です。 最大は 300 です。 max の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
LexicalAnalyzerName
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。
| 値 | 説明 |
|---|---|
| ar.microsoft |
アラビア語用の Microsoft アナライザー。 |
| ar.lucene |
アラビア語用のLucene分析装置。 |
| hy.lucene |
アルメニア語用のLucene分析装置。 |
| bn.microsoft |
バングラ語用の Microsoft アナライザー。 |
| eu.lucene |
バスク語のLucene分析装置。 |
| bg.microsoft |
ブルガリア語用の Microsoft アナライザー。 |
| bg.lucene |
ブルガリア語用のLucene分析装置。 |
| ca.microsoft |
カタロニア語用の Microsoft アナライザー。 |
| ca.lucene |
カタロニア語用のLucene分析装置。 |
| zh-Hans.microsoft |
中国語 (簡体字) の Microsoft アナライザー。 |
| zh-Hans.lucene |
中国語用Lucene分析装置(簡体字)。 |
| zh-Hant.microsoft |
中国語 (繁体字) の Microsoft アナライザー。 |
| zh-Hant.lucene |
中国語(繁体字)用のLucene分析装置。 |
| hr.microsoft |
クロアチア語用の Microsoft アナライザー。 |
| cs.microsoft |
チェコ語用のMicrosoftアナライザー。 |
| cs.lucene |
チェコ語のLucene分析装置 |
| da.microsoft |
デンマーク語用の Microsoft アナライザー。 |
| da.lucene |
デンマーク語のLucene分析装置。 |
| nl.microsoft |
オランダ語用の Microsoft アナライザー。 |
| nl.lucene |
オランダ語用のLucene分析装置。 |
| en.microsoft |
英語用の Microsoft アナライザー。 |
| en.lucene |
英語用のLucene分析装置。 |
| et.microsoft |
エストニア語用の Microsoft アナライザー。 |
| fi.microsoft |
フィンランド語用の Microsoft アナライザー。 |
| fi.lucene |
フィンランド語用のLucene分析装置。 |
| fr.microsoft |
フランス語用の Microsoft アナライザー。 |
| fr.lucene |
フランス語用Lucene分析装置 |
| gl.lucene |
ガリシア語のLucene分析装置 |
| de.microsoft |
ドイツ語用の Microsoft アナライザー。 |
| de.lucene |
ドイツ語のLucene分析装置 |
| el.microsoft |
ギリシャ語用の Microsoft アナライザー。 |
| el.lucene |
ギリシャ語のLucene分析装置。 |
| gu.microsoft |
グジャラート語用の Microsoft アナライザー。 |
| he.microsoft |
ヘブライ語用の Microsoft アナライザー。 |
| hi.microsoft |
ヒンディー語用の Microsoft アナライザー。 |
| hi.lucene |
ヒンディー語用のLucene分析装置。 |
| hu.microsoft |
ハンガリー語用の Microsoft アナライザー。 |
| hu.lucene |
ハンガリー語のLucene分析装置。 |
| is.microsoft |
アイスランド語の Microsoft アナライザー。 |
| id.microsoft |
インドネシア語 (Bahasa) 用の Microsoft アナライザー。 |
| id.lucene |
インドネシア語用Lucene分析装置 |
| ga.lucene |
アイルランド語用のLucene分析装置。 |
| it.microsoft |
イタリア語の Microsoft アナライザー。 |
| it.lucene |
イタリア語のLucene分析装置。 |
| ja.microsoft |
日本語用のMicrosoftアナライザー。 |
| ja.lucene |
日本語用ルセン分析装置 |
| kn.microsoft |
カンナダ語の Microsoft アナライザー。 |
| ko.microsoft |
韓国語用マイクロソフトアナライザー。 |
| ko.lucene |
韓国語用ルセン分析装置 |
| lv.microsoft |
ラトビア語用の Microsoft アナライザー。 |
| lv.lucene |
ラトビア語のLucene分析装置 |
| lt.microsoft |
リトアニア語用の Microsoft アナライザー。 |
| ml.microsoft |
マラヤーラム語の Microsoft アナライザー。 |
| ms.microsoft |
マレー語 (ラテン語) の Microsoft アナライザー。 |
| mr.microsoft |
マラーティー語の Microsoft アナライザー。 |
| nb.microsoft |
ノルウェー語 (Bokmål) の Microsoft アナライザー。 |
| no.lucene |
ノルウェー語のLucene分析装置。 |
| fa.lucene |
ペルシャ語用のLucene分析装置 |
| pl.microsoft |
ポーランド語用の Microsoft アナライザー。 |
| pl.lucene |
ポーランド語用Lucene分析装置 |
| pt-BR.microsoft |
ポルトガル語 (ブラジル) の Microsoft アナライザー。 |
| pt-BR.lucene |
ポルトガル語(ブラジル)用のLucene分析装置。 |
| pt-PT.microsoft |
ポルトガル語 (ポルトガル) の Microsoft アナライザー。 |
| pt-PT.lucene |
ポルトガル語(ポルトガル)のLuceneアナライザー。 |
| pa.microsoft |
パンジャブ語用の Microsoft アナライザー。 |
| ro.microsoft |
ルーマニア語用の Microsoft アナライザー。 |
| ro.lucene |
ルーマニア語用のLucene分析装置。 |
| ru.microsoft |
ロシア語用のMicrosoftアナライザー。 |
| ru.lucene |
ロシア語用のLucene分析装置。 |
| sr-cyrillic.microsoft |
セルビア語 (キリル文字) 用の Microsoft アナライザー。 |
| sr-latin.microsoft |
セルビア語 (ラテン語) の Microsoft アナライザー。 |
| sk.microsoft |
スロバキア語の Microsoft アナライザー。 |
| sl.microsoft |
スロベニア語用の Microsoft アナライザー。 |
| es.microsoft |
スペイン語用の Microsoft アナライザー。 |
| es.lucene |
スペイン語用のLucene分析装置。 |
| sv.microsoft |
スウェーデン語用の Microsoft アナライザー。 |
| sv.lucene |
スウェーデン語用Lucene分析装置 |
| ta.microsoft |
タミル語用の Microsoft アナライザー。 |
| te.microsoft |
テルグ語用の Microsoft アナライザー。 |
| th.microsoft |
タイ語用の Microsoft アナライザー。 |
| th.lucene |
タイ語用ルセン分析装置。 |
| tr.microsoft |
トルコ語用の Microsoft アナライザー。 |
| tr.lucene |
トルコ語用Lucene分析装置。 |
| uk.microsoft |
ウクライナ語用の Microsoft アナライザー。 |
| ur.microsoft |
ウルドゥー語用の Microsoft アナライザー。 |
| vi.microsoft |
ベトナム語用のMicrosoftアナライザー。 |
| standard.lucene |
標準的なLucene分析装置。 |
| standardasciifolding.lucene |
標準ASCII折りたたみ式Lucene分析装置 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください |
| keyword |
フィールドのコンテンツ全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください |
| pattern |
正規表現パターンを使用してテキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください |
| simple |
文字以外の部分でテキストを分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください |
| stop |
文字以外のテキストを分割します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください |
| whitespace |
空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください |
LexicalNormalizerName
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。
| 値 | 説明 |
|---|---|
| asciifolding |
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、および記号の Unicode 文字を、同等の ASCII 文字 (同等のものが存在する場合) に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください |
| elision |
省略を削除します。 たとえば、「l'avion」(飛行機)は「avion」(飛行機)に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください |
| lowercase |
トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください |
| standard |
標準ノーマライザーは、小文字とアスキーフォールディングで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください |
| uppercase |
トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください |
LexicalTokenizerName
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
LimitTokenFilter
インデックス作成中のトークンの数を制限します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| consumeAllTokens |
boolean |
False |
maxTokenCount に達した場合でも、入力からのすべてのトークンを消費する必要があるかどうかを示す値。 既定値は false です。 |
| maxTokenCount |
integer (int32) |
1 |
生成するトークンの最大数。 既定値の は 1 です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
LuceneStandardAnalyzer
標準のApache Luceneアナライザー。標準のトークナイザー、小文字のフィルター、停止フィルターで構成されています。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
アナライザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 デフォルトは 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
| name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| stopwords |
string[] |
ストップワードのリスト。 |
LuceneStandardTokenizer
Unicode テキスト セグメンテーション ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) |
255 |
トークンの最大長。 デフォルトは 255 です。 最大長より長いトークンは分割されます。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
LuceneStandardTokenizerV2
Unicode テキスト セグメンテーション ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 デフォルトは 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
MagnitudeScoringFunction
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| boost |
number (double) |
生スコアの乗数。 1.0 に等しくない正の数である必要があります。 |
| fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
| interpolation |
ドキュメントスコア間でブーストがどのように補間されるかを示す値。デフォルトは「線形」です。 |
|
| magnitude |
マグニチュードスコアリング関数のパラメーター値。 |
|
| type |
string:
magnitude |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグなどがあります。 関数型は小文字にする必要があります。 |
MagnitudeScoringParameters
マグニチュードスコアリング関数にパラメータ値を提供します。
| 名前 | 型 | 説明 |
|---|---|---|
| boostingRangeEnd |
number (double) |
ブーストが終了するフィールド値。 |
| boostingRangeStart |
number (double) |
ブーストが開始されるフィールド値。 |
| constantBoostBeyondRange |
boolean |
範囲の終了値を超えるフィールド値に一定のブーストを適用するかどうかを示す値。デフォルトは false です。 |
MappingCharFilter
mappings オプションで定義されたマッピングを適用する文字フィルタ。 マッチングは貪欲です(特定のポイントで最も長いパターンマッチングが勝ちます)。 置換は空の文字列にすることができます。 この文字フィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
char フィルターのタイプを指定する URI フラグメント。 |
| mappings |
string[] |
次の形式のマッピングのリスト: "a=>b" (文字 "a" のすべての出現箇所は文字 "b" に置き換えられます)。 |
| name |
string |
char フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
MicrosoftLanguageStemmingTokenizer
言語固有のルールを使用してテキストを分割し、単語を基本形式に縮小します。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
| language |
使用する言語。 デフォルトは英語です。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、次にそれらの各トークンは、設定された最大トークン長に基づいて分割されます。 デフォルトは 255 です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
MicrosoftLanguageTokenizer
言語固有のルールを使用してテキストを分割します。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
| language |
使用する言語。 デフォルトは英語です。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、次にそれらの各トークンは、設定された最大トークン長に基づいて分割されます。 デフォルトは 255 です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
MicrosoftStemmingTokenizerLanguage
Microsoft 言語ステミング トークナイザーでサポートされている言語を一覧表示します。
| 値 | 説明 |
|---|---|
| arabic |
アラビア語の Microsoft ステミング トークナイザーを選択します。 |
| bangla |
バングラ語の Microsoft ステミング トークナイザーを選択します。 |
| bulgarian |
ブルガリア語の Microsoft ステミング トークナイザーを選択します。 |
| catalan |
カタロニア語の Microsoft ステミング トークナイザーを選択します。 |
| croatian |
クロアチア語の Microsoft ステミング トークナイザーを選択します。 |
| czech |
チェコ語の Microsoft ステミング トークナイザーを選択します。 |
| danish |
デンマーク語の Microsoft ステミング トークナイザーを選択します。 |
| dutch |
オランダ語の Microsoft ステミング トークナイザーを選択します。 |
| english |
英語の Microsoft ステミング トークナイザーを選択します。 |
| estonian |
エストニア語の Microsoft ステミング トークナイザーを選択します。 |
| finnish |
フィンランド語の Microsoft ステミング トークナイザーを選択します。 |
| french |
フランス語の Microsoft ステミング トークナイザーを選択します。 |
| german |
ドイツ語の Microsoft ステミング トークナイザーを選択します。 |
| greek |
ギリシャ語の Microsoft ステミング トークナイザーを選択します。 |
| gujarati |
グジャラート語の Microsoft ステミング トークナイザーを選択します。 |
| hebrew |
ヘブライ語の Microsoft ステミング トークナイザーを選択します。 |
| hindi |
ヒンディー語の Microsoft ステミング トークナイザーを選択します。 |
| hungarian |
ハンガリー語の Microsoft ステミング トークナイザーを選択します。 |
| icelandic |
アイスランド語の Microsoft ステミング トークナイザーを選択します。 |
| indonesian |
インドネシア語の Microsoft ステミング トークナイザーを選択します。 |
| italian |
イタリア語の Microsoft ステミング トークナイザーを選択します。 |
| kannada |
カンナダ語の Microsoft ステミング トークナイザーを選択します。 |
| latvian |
ラトビア語の Microsoft ステミング トークナイザーを選択します。 |
| lithuanian |
リトアニア語の Microsoft ステミング トークナイザーを選択します。 |
| malay |
マレー語の Microsoft ステミング トークナイザーを選択します。 |
| malayalam |
マラヤーラム語の Microsoft ステミング トークナイザーを選択します。 |
| marathi |
マラーティー語の Microsoft ステミング トークナイザーを選択します。 |
| norwegianBokmaal |
ノルウェー語 (Bokmål) の Microsoft ステミング トークナイザーを選択します。 |
| polish |
ポーランド語の Microsoft ステミング トークナイザーを選択します。 |
| portuguese |
ポルトガル語の Microsoft ステミング トークナイザーを選択します。 |
| portugueseBrazilian |
ポルトガル語 (ブラジル) の Microsoft ステミング トークナイザーを選択します。 |
| punjabi |
パンジャブ語の Microsoft ステミング トークナイザーを選択します。 |
| romanian |
ルーマニア語の Microsoft ステミング トークナイザーを選択します。 |
| russian |
ロシア語の Microsoft ステミング トークナイザーを選択します。 |
| serbianCyrillic |
セルビア語 (キリル文字) の Microsoft ステミング トークナイザーを選択します。 |
| serbianLatin |
セルビア語 (ラテン語) の Microsoft ステミング トークナイザーを選択します。 |
| slovak |
スロバキア語の Microsoft ステミング トークナイザーを選択します。 |
| slovenian |
スロベニア語の Microsoft ステミング トークナイザーを選択します。 |
| spanish |
スペイン語の Microsoft ステミング トークナイザーを選択します。 |
| swedish |
スウェーデン語の Microsoft ステミング トークナイザーを選択します。 |
| tamil |
タミル語の Microsoft ステミング トークナイザーを選択します。 |
| telugu |
テルグ語の Microsoft ステミング トークナイザーを選択します。 |
| turkish |
トルコ語の Microsoft ステミング トークナイザーを選択します。 |
| ukrainian |
ウクライナ語の Microsoft ステミング トークナイザーを選択します。 |
| urdu |
ウルドゥー語の Microsoft ステミング トークナイザーを選択します。 |
MicrosoftTokenizerLanguage
Microsoft 言語トークナイザーでサポートされている言語を一覧表示します。
| 値 | 説明 |
|---|---|
| bangla |
バングラ語の Microsoft トークナイザーを選択します。 |
| bulgarian |
ブルガリア語の Microsoft トークナイザーを選択します。 |
| catalan |
カタロニア語の Microsoft トークナイザーを選択します。 |
| chineseSimplified |
中国語 (簡体字) の Microsoft トークナイザーを選択します。 |
| chineseTraditional |
中国語 (繁体字) の Microsoft トークナイザーを選択します。 |
| croatian |
クロアチア語の Microsoft トークナイザーを選択します。 |
| czech |
チェコ語の Microsoft トークナイザーを選択します。 |
| danish |
デンマーク語の Microsoft トークナイザーを選択します。 |
| dutch |
オランダ語の Microsoft トークナイザーを選択します。 |
| english |
英語用の Microsoft トークナイザーを選択します。 |
| french |
フランス語の Microsoft トークナイザーを選択します。 |
| german |
ドイツ語の Microsoft トークナイザーを選択します。 |
| greek |
ギリシャ語の Microsoft トークナイザーを選択します。 |
| gujarati |
グジャラート語の Microsoft トークナイザーを選択します。 |
| hindi |
ヒンディー語の Microsoft トークナイザーを選択します。 |
| icelandic |
アイスランド語の Microsoft トークナイザーを選択します。 |
| indonesian |
インドネシア語の Microsoft トークナイザーを選択します。 |
| italian |
イタリア語の Microsoft トークナイザーを選択します。 |
| japanese |
日本語の Microsoft トークナイザーを選択します。 |
| kannada |
カンナダ語の Microsoft トークナイザーを選択します。 |
| korean |
韓国語の Microsoft トークナイザーを選択します。 |
| malay |
マレー語の Microsoft トークナイザーを選択します。 |
| malayalam |
マラヤーラム語の Microsoft トークナイザーを選択します。 |
| marathi |
マラーティー語の Microsoft トークナイザーを選択します。 |
| norwegianBokmaal |
ノルウェー語 (Bokmål) の Microsoft トークナイザーを選択します。 |
| polish |
ポーランド語の Microsoft トークナイザーを選択します。 |
| portuguese |
ポルトガル語の Microsoft トークナイザーを選択します。 |
| portugueseBrazilian |
ポルトガル語 (ブラジル) の Microsoft トークナイザーを選択します。 |
| punjabi |
パンジャブ語の Microsoft トークナイザーを選択します。 |
| romanian |
ルーマニア語の Microsoft トークナイザーを選択します。 |
| russian |
ロシア語の Microsoft トークナイザーを選択します。 |
| serbianCyrillic |
セルビア語 (キリル文字) の Microsoft トークナイザーを選択します。 |
| serbianLatin |
セルビア語 (ラテン語) の Microsoft トークナイザーを選択します。 |
| slovenian |
スロベニア語の Microsoft トークナイザーを選択します。 |
| spanish |
スペイン語の Microsoft トークナイザーを選択します。 |
| swedish |
スウェーデン語の Microsoft トークナイザーを選択します。 |
| tamil |
タミル語の Microsoft トークナイザーを選択します。 |
| telugu |
テルグ語の Microsoft トークナイザーを選択します。 |
| thai |
タイ語の Microsoft トークナイザーを選択します。 |
| ukrainian |
ウクライナ語の Microsoft トークナイザーを選択します。 |
| urdu |
ウルドゥー語の Microsoft トークナイザーを選択します。 |
| vietnamese |
ベトナム語の Microsoft トークナイザーを選択します。 |
NGramTokenFilter
指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) |
2 |
n-gramの最大長。 デフォルトは 2 です。 |
| minGram |
integer (int32) |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
NGramTokenFilterV2
指定されたサイズの n グラムを生成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gramの最大長。 デフォルトは 2 です。 最大は 300 です。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 最大は 300 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
NGramTokenizer
入力を指定されたサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gramの最大長。 デフォルトは 2 です。 最大は 300 です。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram の長さ。 既定値の は 1 です。 最大は 300 です。 maxGram の値より小さくする必要があります。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| tokenChars |
トークンに保持する文字クラス。 |
OutputFieldMappingEntry
スキルの出力フィールドマッピング。
| 名前 | 型 | 説明 |
|---|---|---|
| name |
string |
スキルによって定義された出力の名前。 |
| targetName |
string |
出力のターゲット名。 これはオプションであり、デフォルトは名前です。 |
PathHierarchyTokenizerV2
パスのような階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| delimiter |
string (char) |
/ |
使用する区切り文字。 デフォルトは「/」です。 |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
トークンの最大長。 デフォルトと最大値は 300 です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| replacement |
string (char) |
/ |
設定されている場合、区切り文字を置き換える値。 デフォルトは「/」です。 |
| reverse |
boolean |
False |
トークンを逆の順序で生成するかどうかを示す値。 既定値は false です。 |
| skip |
integer (int32) |
0 |
スキップする初期トークンの数。 既定値は 0 です。 |
PatternAnalyzer
正規表現パターンを使用してテキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されています。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
アナライザーのタイプを指定する URI フラグメント。 |
|
| flags |
正規表現フラグ。 |
||
| lowercase |
boolean |
True |
用語を小文字にするかどうかを示す値。 既定値は True です。 |
| name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| pattern |
string |
\W+ |
トークン区切り記号を一致させる正規表現パターン。 デフォルトは、1 つ以上の単語以外の文字に一致する式です。 |
| stopwords |
string[] |
ストップワードのリスト。 |
PatternCaptureTokenFilter
Java 正規表現を使用して、複数のトークン (1 つ以上のパターンのキャプチャグループごとに 1 つ) を出力します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| patterns |
string[] |
各トークンに一致するパターンのリスト。 |
|
| preserveOriginal |
boolean |
True |
パターンの 1 つが一致しても元のトークンを返すかどうかを示す値。 既定値は True です。 |
PatternReplaceCharFilter
入力文字列内の文字を置き換える文字フィルタ。 正規表現を使用して保持する文字シーケンスを識別し、置換パターンを使用して置換する文字を識別します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換 "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
char フィルターのタイプを指定する URI フラグメント。 |
| name |
string |
char フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
| pattern |
string |
正規表現パターン。 |
| replacement |
string |
置換テキスト。 |
PatternReplaceTokenFilter
入力文字列内の文字を置き換える文字フィルタ。 正規表現を使用して保持する文字シーケンスを識別し、置換パターンを使用して置換する文字を識別します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換 "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
| pattern |
string |
正規表現パターン。 |
| replacement |
string |
置換テキスト。 |
PatternTokenizer
正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| flags |
正規表現フラグ。 |
||
| group |
integer (int32) |
-1 |
トークンに抽出する正規表現パターン内の一致グループの 0 から始まる序数。 パターン全体を使用して、一致するグループに関係なく、入力をトークンに分割する場合は、-1 を使用します。 デフォルトは -1 です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| pattern |
string |
\W+ |
トークン区切り記号を一致させる正規表現パターン。 デフォルトは、1 つ以上の単語以外の文字に一致する式です。 |
PhoneticEncoder
PhoneticTokenFilter で使用する発信エンコーダーの種類を識別します。
| 値 | 説明 |
|---|---|
| metaphone |
トークンをメタフォン値にエンコードします。 |
| doubleMetaphone |
トークンをダブルメタフォン値にエンコードします。 |
| soundex |
トークンをSoundex値にエンコードします。 |
| refinedSoundex |
トークンを Refined Soundex 値にエンコードします。 |
| caverphone1 |
トークンを Caverphone 1.0 値にエンコードします。 |
| caverphone2 |
トークンを Caverphone 2.0 値にエンコードします。 |
| cologne |
トークンをケルン音声値にエンコードします。 |
| nysiis |
トークンをNYSIIS値にエンコードします。 |
| koelnerPhonetik |
Kölner Phonetik アルゴリズムを使用してトークンをエンコードします。 |
| haasePhonetik |
Kölner Phonetik アルゴリズムの Haase 改良を使用してトークンをエンコードします。 |
| beiderMorse |
トークンを Beider-Morse 値にエンコードします。 |
PhoneticTokenFilter
音声一致のトークンを作成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| encoder | metaphone |
使用する発音エンコーダー。 デフォルトは「メタフォン」です。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| replace |
boolean |
True |
エンコードされたトークンが元のトークンを置き換えるかどうかを示す値。 false の場合、エンコードされたトークンがシノニムとして追加されます。 既定値は True です。 |
PrioritizedFields
セマンティック ランク付け、キャプション、ハイライト、および回答に使用するタイトル、コンテンツ、およびキーワード フィールドについて説明します。
| 名前 | 型 | 説明 |
|---|---|---|
| prioritizedContentFields |
セマンティック ランク付け、キャプション、ハイライト、および回答に使用するコンテンツ フィールドを定義します。 最良の結果を得るには、選択したフィールドに自然言語形式のテキストが含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 優先度の低いフィールドは、コンテンツが長い場合、切り捨てられる可能性があります。 |
|
| prioritizedKeywordsFields |
セマンティック ランキング、キャプション、ハイライト、および回答に使用するキーワード フィールドを定義します。 最良の結果を得るには、選択したフィールドにキーワードのリストが含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 優先度の低いフィールドは、コンテンツが長い場合、切り捨てられる可能性があります。 |
|
| titleField |
セマンティック ランク付け、キャプション、ハイライト、および回答に使用するタイトル フィールドを定義します。 インデックスにタイトルフィールドがない場合は、空白のままにします。 |
RankingOrder
ドキュメントの並べ替え順序に使用するスコアを表します。
| 値 | 説明 |
|---|---|
| BoostedRerankerScore |
並べ替え順序を BoostedRerankerScore に設定します。 |
| RerankerScore |
並べ替え順序を ReRankerScore に設定します |
RegexFlags
パターン・アナライザーおよびパターン・トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。
| 値 | 説明 |
|---|---|
| CANON_EQ |
正規の等価性を有効にします。 |
| CASE_INSENSITIVE |
大文字と小文字を区別しない一致を有効にします。 |
| COMMENTS |
パターン内の空白とコメントを許可します。 |
| DOTALL |
dotall モードを有効にします。 |
| LITERAL |
パターンのリテラル解析を有効にします。 |
| MULTILINE |
複数行モードを有効にします。 |
| UNICODE_CASE |
Unicode 対応の大文字と小文字の折り畳みを有効にします。 |
| UNIX_LINES |
Unix 回線モードを有効にします。 |
RescoringOptions
再採点のオプションが含まれています。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| defaultOversampling |
number (double) |
デフォルトのオーバーサンプリング係数。 オーバーサンプリングは、量子化による分解能の損失を相殺するために、より多くの潜在的なドキュメントのセットを取得します。 これにより、全精度ベクトルで再採点される結果のセットが増加します。 最小値は 1 で、オーバーサンプリングがないことを意味します (1x)。 このパラメータは、'enableRescoring' が true の場合にのみ設定できます。 値を大きくすると、待機時間が犠牲になりますが、再現率が向上します。 |
|
| enableRescoring |
boolean |
True |
true に設定すると、圧縮ベクトルの初期検索の後、類似性スコアは全精度ベクトルを使用して再計算されます。 これにより、遅延を犠牲にして再現率が向上します。 |
| rescoreStorageMethod | preserveOriginals |
元のベクトルの保存方法を制御します。 この設定は不変です。 |
ScalarQuantizationParameters
スカラー量子化に固有のパラメータが含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| quantizedDataType |
圧縮ベクトル値の量子化されたデータ型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
インデックス作成およびクエリ中に使用されるスカラー量子化圧縮方法に固有の構成オプションが含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| kind |
string:
scalar |
ベクトル検索で使用するために構成されている圧縮方法の種類の名前。 |
| name |
string |
この特定の設定に関連付ける名前。 |
| rescoringOptions |
再採点のオプションが含まれています。 |
|
| scalarQuantizationParameters |
スカラー量子化に固有のパラメータが含まれています。 |
|
| truncationDimension |
integer (int32) |
ベクトルを切り捨てる次元の数。 ベクトルを切り捨てると、ベクトルのサイズと、検索中に転送する必要があるデータの量が削減されます。 これにより、ストレージコストを節約し、再呼び出しを犠牲にして検索パフォーマンスを向上させることができます。 これは、OpenAI text-embedding-3-large (small) などの Matryoshka Representation Learning (MRL) でトレーニングされた埋め込みにのみ使用する必要があります。 デフォルト値は null で、切り捨てがないことを意味します。 |
ScoringFunctionAggregation
スコアリングプロファイル内のすべてのスコアリング関数の結果を結合するために使用される集計関数を定義します。
| 値 | 説明 |
|---|---|
| sum |
すべてのスコアリング関数の結果の合計でスコアをブーストします。 |
| average |
すべてのスコアリング関数の結果の平均でスコアをブーストします。 |
| minimum |
すべてのスコアリング関数の結果の最小値でスコアをブーストします。 |
| maximum |
すべてのスコアリング関数の結果の最大値でスコアをブーストします。 |
| firstMatching |
スコアリングプロファイルで最初に適用可能なスコアリング関数を使用してスコアをブーストします。 |
ScoringFunctionInterpolation
さまざまなドキュメントにわたってスコアブーストを補間するために使用される関数を定義します。
| 値 | 説明 |
|---|---|
| linear |
スコアを直線的に減少する量だけブーストします。 これは、スコアリング関数のデフォルトの補間です。 |
| constant |
一定の係数でスコアをブーストします。 |
| quadratic |
スコアを2次的に減少する量だけブーストします。 ブーストは、スコアが高いほどゆっくりと減少し、スコアが下がるにつれて急速に減少します。 この補間オプションは、タグスコアリング関数では使用できません。 |
| logarithmic |
対数的に減少する量だけスコアをブーストします。 ブーストはスコアが高いほど急速に減少し、スコアが減少するにつれてゆっくりと減少します。 この補間オプションは、タグスコアリング関数では使用できません。 |
ScoringProfile
検索クエリのスコアリングに影響を与える検索インデックスのパラメーターを定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| functionAggregation |
個々のスコアリング関数の結果をどのように組み合わせるかを示す値。 デフォルトは「合計」です。 スコアリング関数がない場合は無視されます。 |
|
| functions | ScoringFunction[]: |
ドキュメントのスコアリングに影響を与える関数のコレクション。 |
| name |
string |
スコアリングプロファイルの名前。 |
| text |
特定のインデックスフィールドのテキスト一致に基づいてスコアリングを向上させるパラメーター。 |
SearchField
インデックス定義内のフィールドを表し、フィールドの名前、データ型、および検索動作を記述します。
| 名前 | 型 | 説明 |
|---|---|---|
| analyzer |
フィールドに使用するアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用でき、searchAnalyzer または indexAnalyzer と一緒に設定することはできません。 アナライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
ベクトル場の次元。 |
| facetable |
boolean |
ファセット照会でフィールドを参照できるようにするかどうかを示す値。 通常、カテゴリ別のヒット カウントを含む検索結果のプレゼンテーションで使用されます (たとえば、デジタル カメラを検索し、ブランド別、メガピクセル別、価格別などでヒットを表示する場合)。 このプロパティは、複合フィールドの場合は null にする必要があります。 Edm.GeographyPoint 型または Collection(Edm.GeographyPoint) 型のフィールドはファセット可能にできません。 デフォルトは、他のすべての単純なフィールドに対して true です。 |
| fields |
サブフィールドが Edm.ComplexType 型または Collection(Edm.ComplexType) 型のフィールドである場合のサブフィールドの一覧。 単純なフィールドの場合は null または空にする必要があります。 |
|
| filterable |
boolean |
$filterクエリでフィールドを参照できるようにするかどうかを示す値。 filterable は、文字列の処理方法が searchable とは異なります。 フィルター処理可能な Edm.String 型または Collection(Edm.String) 型のフィールドは単語区切りを受けないため、比較は完全一致のみを行います。 たとえば、このようなフィールド f を "sunny day" に設定すると、$filter=f eq 'sunny' は一致しませんが、$filter=f eq 'sunny day' は一致しません。 このプロパティは、複合フィールドの場合は null にする必要があります。 デフォルトは、単純フィールドの場合は true、複合フィールドの場合は null です。 |
| indexAnalyzer |
フィールドのインデックス作成時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 searchAnalyzer と一緒に設定する必要があり、analyzer オプションと一緒に設定することはできません。 このプロパティは、言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりに analyzer プロパティを使用します。 アナライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
| key |
boolean |
フィールドがインデックス内のドキュメントを一意に識別するかどうかを示す値。 各インデックスの最上位フィールドをキー フィールドとして 1 つだけ選択する必要があり、そのフィールドは Edm.String 型である必要があります。 キー フィールドを使用して、ドキュメントを直接検索したり、特定のドキュメントを更新または削除したりできます。 デフォルトは、単純フィールドの場合は false、複合フィールドの場合は null です。 |
| name |
string |
フィールドの名前で、インデックスまたは親フィールドのフィールド コレクション内で一意である必要があります。 |
| normalizer |
フィールドに使用するノーマライザーの名前。 このオプションは、フィルタリング可能、ソート可能、またはファセット可能が有効になっているフィールドでのみ使用できます。 ノーマライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
| retrievable |
boolean |
フィールドを検索結果で返すことができるかどうかを示す値。 フィールド (マージンなど) をフィルター、並べ替え、またはスコアリングのメカニズムとして使用するが、フィールドをエンドユーザーに表示したくない場合は、このオプションを無効にすることができます。 このプロパティは、キー フィールドの場合は true である必要があり、複雑なフィールドの場合は null である必要があります。 このプロパティは、既存のフィールドで変更できます。 このプロパティを有効にしても、インデックス ストレージ要件は増加しません。 デフォルトは、単純フィールドの場合は true、ベクトル フィールドの場合は false、複合フィールドの場合は null です。 |
| searchAnalyzer |
フィールドの検索時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 indexAnalyzer と一緒に設定する必要があり、analyzer オプションと一緒に設定することはできません。 このプロパティは、言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりに analyzer プロパティを使用します。 このアナライザーは、既存のフィールドで更新できます。 複合フィールドの場合は null にする必要があります。 |
|
| searchable |
boolean |
フィールドが全文検索可能かどうかを示す値。 これは、インデックス作成中に単語分割などの分析が行われることを意味します。 検索可能なフィールドを「晴れの日」のような値に設定すると、内部的には個々のトークン「晴れ」と「日」に分割されます。 これにより、これらの語句をフルテキスト検索できます。 Edm.String 型または Collection(Edm.String) 型のフィールドは、既定で検索可能です。 このプロパティは、他の非文字列データ型の単純フィールドの場合は false に、複合フィールドの場合は null にする必要があります。 注: 検索可能なフィールドは、全文検索用のフィールド値のトークン化されたバージョンを追加で収容するために、インデックス内の余分なスペースを消費します。 インデックスの領域を節約し、検索にフィールドを含める必要がない場合は、searchable を false に設定します。 |
| sortable |
boolean |
$orderby式でフィールドを参照できるようにするかどうかを示す値。 デフォルトでは、検索エンジンは結果をスコアで並べ替えますが、多くのエクスペリエンスでは、ユーザーはドキュメント内のフィールドで並べ替えたいと思うでしょう。 単純なフィールドは、単一値 (親ドキュメントのスコープ内に 1 つの値がある) の場合にのみ並べ替え可能です。 単純なコレクション フィールドは複数値であるため、並べ替えできません。 複雑なコレクションの単純なサブフィールドも複数値であるため、並べ替えできません。 これは、それが直接の親フィールドであるか、先祖フィールドであるかに関係なくあてはまり、複合コレクションです。 複雑なフィールドは並べ替えできず、そのようなフィールドでは sortable プロパティが null である必要があります。 sortable のデフォルトは、単一値の単純フィールドの場合は true、複数値の単純フィールドの場合は false、複合フィールドの場合は null です。 |
| stored |
boolean |
フィールドが検索結果で返されるディスク上に個別に保持されるかどうかを示す不変値。 ストレージのオーバーヘッドを節約するために、検索応答でフィールドの内容を返す予定がない場合は、このオプションを無効にすることができます。 これは、インデックスの作成時にのみ、ベクトルフィールドに対してのみ設定できます。 このプロパティは、既存のフィールドで変更したり、新しいフィールドで false として設定したりすることはできません。 このプロパティが false に設定されている場合は、プロパティ 'retrievable' も false に設定する必要があります。 このプロパティは、キー フィールド、新しいフィールド、および非ベクトル フィールドでは true または未設定でなければならず、複合フィールドの場合は null である必要があります。 このプロパティを無効にすると、インデックス ストレージの要件が減ります。 デフォルトはベクトルフィールドの true です。 |
| synonymMaps |
string[] |
このフィールドに関連付けるシノニム マップの名前の一覧。 このオプションは、検索可能なフィールドでのみ使用できます。 現在は、フィールドごとに 1 つのみのシノニム マップがサポートされます。 フィールドにシノニム マップを割り当てると、そのフィールドを対象とするクエリ用語が、クエリ時にシノニム マップのルールを使用して展開されます。 この属性は、既存のフィールドのものを変更できます。 複合フィールドの場合は null または空のコレクションである必要があります。 |
| type |
フィールドのデータ型。 |
|
| vectorEncoding |
フィールドの内容を解釈するためのエンコード形式。 |
|
| vectorSearchProfile |
string |
ベクトル フィールドを検索するときに使用するアルゴリズムとベクトル化器を指定するベクトル検索プロファイルの名前。 |
SearchFieldDataType
検索インデックス内のフィールドのデータ型を定義します。
| 値 | 説明 |
|---|---|
| Edm.String |
フィールドに文字列が含まれていることを示します。 |
| Edm.Int32 |
フィールドに 32 ビットの符号付き整数が含まれていることを示します。 |
| Edm.Int64 |
フィールドに 64 ビットの符号付き整数が含まれていることを示します。 |
| Edm.Double |
フィールドに IEEE 倍精度浮動小数点数が含まれていることを示します。 |
| Edm.Boolean |
フィールドにブール値 (true または false) が含まれていることを示します。 |
| Edm.DateTimeOffset |
フィールドにタイムゾーン情報を含む日付/時刻値が含まれていることを示します。 |
| Edm.GeographyPoint |
フィールドに経度と緯度の地理的位置が含まれていることを示します。 |
| Edm.ComplexType |
フィールドに 1 つ以上の複雑なオブジェクトが含まれ、そのオブジェクトに他のタイプのサブフィールドが含まれていることを示します。 |
| Edm.Single |
フィールドに単精度浮動小数点数が含まれていることを示します。 これは、Collection(Edm.Single) と一緒に使用する場合にのみ有効です。 |
| Edm.Half |
フィールドに半精度浮動小数点数が含まれていることを示します。 これは、Collection(Edm.Half) とともに使用する場合にのみ有効です。 |
| Edm.Int16 |
フィールドに 16 ビットの符号付き整数が含まれていることを示します。 これは、Collection(Edm.Int16) とともに使用する場合にのみ有効です。 |
| Edm.SByte |
フィールドに 8 ビットの符号付き整数が含まれていることを示します。 これは、Collection(Edm.SByte) とともに使用する場合にのみ有効です。 |
| Edm.Byte |
フィールドに 8 ビット符号なし整数が含まれていることを示します。 これは、Collection(Edm.Byte) とともに使用する場合にのみ有効です。 |
SearchIndex
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.etag |
string |
インデックスの ETag。 |
| analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
| charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
| corsOptions |
インデックスのクロスオリジンリソース共有 (CORS) を制御するオプション。 |
|
| defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリングプロファイルが指定されていない場合は、デフォルトのスコアリング(tf-idf)が使用されます。 |
| description |
string |
インデックスの説明。 |
| encryptionKey |
Azure Key Vault で作成する暗号化キーの説明。 このキーは、Microsoft を含む誰もデータを復号化できないという完全な保証が必要な場合に、データに追加レベルの保存時の暗号化を提供するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 検索サービスは、このプロパティを null に設定しようとすると無視されます。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーによる暗号化は、無料の検索サービスでは使用できず、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
|
| fields |
インデックスのフィールド。 |
|
| name |
string |
インデックスの名前です。 |
| normalizers | LexicalNormalizer[]: |
インデックスの正規化。 |
| scoringProfiles |
インデックスのスコアリングプロファイル。 |
|
| semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
|
| similarity | Similarity: |
検索クエリに一致するドキュメントをスコアリングおよびランク付けするときに使用する類似性アルゴリズムのタイプ。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合、ClassicSimilarity アルゴリズムが使用されます。 |
| suggesters |
インデックスの提案者。 |
|
| tokenFilters |
TokenFilter[]:
|
インデックスのトークンフィルター。 |
| tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
| vectorSearch |
ベクトル検索に関連する構成オプションが含まれています。 |
SearchIndexerDataNoneIdentity
データソースの identity プロパティをクリアします。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ID のタイプを指定する URI フラグメント。 |
SearchIndexerDataUserAssignedIdentity
使用するデータソースの ID を指定します。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ID のタイプを指定する URI フラグメント。 |
| userAssignedIdentity |
string |
ユーザーが割り当てたマネージド ID の完全修飾 Azure リソース ID は、通常、検索サービスに割り当てられている必要がある "/subscriptions/1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" の形式です。 |
SearchResourceEncryptionKey
Azure Key Vault の顧客管理暗号化キー。 作成および管理するキーを使用して、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除を行うことができます。
| 名前 | 型 | 説明 |
|---|---|---|
| accessCredentials |
Azure Key Vault へのアクセスに使用されるオプションの Azure Active Directory 資格情報。 代わりにマネージド ID を使用する場合は必要ありません。 |
|
| keyVaultKeyName |
string |
保存データの暗号化に使用する Azure Key Vault キーの名前。 |
| keyVaultKeyVersion |
string |
保存データの暗号化に使用する Azure Key Vault キーのバージョン。 |
| keyVaultUri |
string |
Azure Key Vault の URI (DNS 名とも呼ばれます) で、保存データの暗号化に使用するキーが含まれています。 URI の例は |
SemanticConfiguration
セマンティック機能のコンテキストで使用される特定の構成を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| name |
string |
セマンティック構成の名前。 |
| prioritizedFields |
セマンティック ランク付け、キャプション、ハイライト、および回答に使用するタイトル、コンテンツ、およびキーワード フィールドについて説明します。 3 つのサブプロパティ (titleField、prioritizedKeywordsFields、prioritizedContentFields) のうち少なくとも 1 つを設定する必要があります。 |
|
| rankingOrder |
検索結果の並べ替え順序に使用するスコアの種類を指定します。 |
SemanticField
セマンティック構成の一部として使用されるフィールド。
| 名前 | 型 | 説明 |
|---|---|---|
| fieldName |
string |
SemanticSettings
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| configurations |
インデックスのセマンティック構成。 |
|
| defaultConfiguration |
string |
インデックス内のデフォルトのセマンティック構成の名前を設定し、毎回クエリパラメータとして渡すことをオプションにすることができます。 |
ShingleTokenFilter
トークンの組み合わせを 1 つのトークンとして作成します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| filterToken |
string |
_ |
トークンがない位置ごとに挿入する文字列。 デフォルトはアンダースコア ("_") です。 |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
最大シングルサイズ。 デフォルトと最小値は 2 です。 |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
最小の屋根板サイズ。 デフォルトと最小値は 2 です。 maxShingleSize の値より小さくする必要があります。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| outputUnigrams |
boolean |
True |
出力ストリームに入力トークン (ユニグラム) と帯状疱疹が含まれるかどうかを示す値。 既定値は True です。 |
| outputUnigramsIfNoShingles |
boolean |
False |
帯状疱疹が使用できない時間にユニグラムを出力するかどうかを示す値。 このプロパティは、outputUnigrams が false に設定されている場合に優先されます。 既定値は false です。 |
| tokenSeparator |
string |
隣接するトークンを結合して帯状疱疹を形成するときに使用する文字列。 デフォルトは 1 つのスペース (" ") です。 |
SnowballTokenFilter
Snowball で生成されたステマーを使用して単語のステミングを行うフィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
| language |
使用する言語。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
SnowballTokenFilterLanguage
Snowball トークンフィルターに使用する言語。
| 値 | 説明 |
|---|---|
| armenian |
アルメニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
| basque |
バスク語の Lucene Snowball ステミングトークナイザーを選択します。 |
| catalan |
カタロニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
| danish |
デンマーク語の Lucene Snowball ステミング トークナイザーを選択します。 |
| dutch |
オランダ語の Lucene Snowball ステミング トークナイザーを選択します。 |
| english |
英語の Lucene Snowball ステミング トークナイザーを選択します。 |
| finnish |
フィンランド語の Lucene Snowball 語幹記号取得トークナイザーを選択します。 |
| french |
フランス語の Lucene Snowball ステミング トークナイザーを選択します。 |
| german |
ドイツ語の Lucene Snowball ステミング トークナイザーを選択します。 |
| german2 |
ドイツ語のバリアントアルゴリズムを使用する Lucene Snowball ステミングトークナイザーを選択します。 |
| hungarian |
ハンガリー語の Lucene Snowball ステミングトークナイザーを選択します。 |
| italian |
イタリア語の Lucene Snowball ステミング トークナイザーを選択します。 |
| kp |
Kraaij-Pohlmann ステミングアルゴリズムを使用するオランダ語の Lucene Snowball ステミングトークナイザーを選択します。 |
| lovins |
Lovins ステミングアルゴリズムを使用する英語の Lucene Snowball ステミングトークナイザーを選択します。 |
| norwegian |
ノルウェー語の Lucene Snowball ステミングトークナイザーを選択します。 |
| porter |
Porter ステミングアルゴリズムを使用する英語の Lucene Snowball ステミングトークナイザーを選択します。 |
| portuguese |
ポルトガル語の Lucene Snowball 語幹記号取得トークナイザーを選択します。 |
| romanian |
ルーマニア語の Lucene Snowball ステミングトークナイザーを選択します。 |
| russian |
ロシア語の Lucene Snowball ステミング トークナイザーを選択します。 |
| spanish |
スペイン語の Lucene Snowball ステミング トークナイザーを選択します。 |
| swedish |
スウェーデン語の Lucene Snowball ステミングトークナイザーを選択します。 |
| turkish |
トルコ語の Lucene Snowball ステミング トークナイザーを選択します。 |
StemmerOverrideTokenFilter
他のステミングフィルターをカスタム辞書ベースのステミングでオーバーライドする機能を提供します。 辞書の語幹付き用語はキーワードとしてマークされるため、チェーンの下の語幹で語幹処理されることはありません。 ステミングフィルターの前に配置する必要があります。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
| rules |
string[] |
「word => stem」の形式のステミング規則のリスト (例: "ran => run")。 |
StemmerTokenFilter
言語固有のステミングフィルター。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
| language |
使用する言語。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
StemmerTokenFilterLanguage
ステマートークンフィルターに使用する言語。
| 値 | 説明 |
|---|---|
| arabic |
アラビア語の Lucene ステミング トークナイザーを選択します。 |
| armenian |
アルメニア語の Lucene ステミング トークナイザーを選択します。 |
| basque |
バスク語の Lucene ステミング トークナイザーを選択します。 |
| brazilian |
ポルトガル語 (ブラジル) の Lucene ステミング トークナイザーを選択します。 |
| bulgarian |
ブルガリア語の Lucene ステミング トークナイザーを選択します。 |
| catalan |
カタロニア語の Lucene ステミング トークナイザーを選択します。 |
| czech |
チェコ語の Lucene ステミングトークナイザーを選択します。 |
| danish |
デンマーク語の Lucene ステミング トークナイザーを選択します。 |
| dutch |
オランダ語の Lucene ステミング トークナイザーを選択します。 |
| dutchKp |
Kraaij-Pohlmann ステミングアルゴリズムを使用するオランダ語のLuceneステミングトークナイザーを選択します。 |
| english |
英語の Lucene ステミング トークナイザーを選択します。 |
| lightEnglish |
ライトステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
| minimalEnglish |
最小限のステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
| possessiveEnglish |
単語から末尾の所有格を削除する英語の Lucene ステミング トークナイザーを選択します。 |
| porter2 |
Porter2 ステミングアルゴリズムを使用する英語の Lucene ステミングトークナイザーを選択します。 |
| lovins |
Lovins ステミングアルゴリズムを使用する英語の Lucene ステミングトークナイザーを選択します。 |
| finnish |
フィンランド語の Lucene ステミング トークナイザーを選択します。 |
| lightFinnish |
ライトステミングを行うフィンランド語の Lucene ステミング トークナイザーを選択します。 |
| french |
フランス語の Lucene ステミング トークナイザーを選択します。 |
| lightFrench |
ライトステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
| minimalFrench |
最小限のステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
| galician |
ガリシア語の Lucene ステミング トークナイザーを選択します。 |
| minimalGalician |
最小限のステミングを行うガリシア語の Lucene ステミング トークナイザーを選択します。 |
| german |
ドイツ語の Lucene ステミング トークナイザーを選択します。 |
| german2 |
ドイツ語バリアントアルゴリズムを使用するLuceneステミングトークナイザーを選択します。 |
| lightGerman |
ライトステミングを行うドイツ語のLuceneステミングトークナイザーを選択します。 |
| minimalGerman |
最小限のステミングを行うドイツ語のLuceneステミングトークナイザーを選択します。 |
| greek |
ギリシャ語の Lucene ステミング トークナイザーを選択します。 |
| hindi |
ヒンディー語の Lucene ステミング トークナイザーを選択します。 |
| hungarian |
ハンガリー語の Lucene ステミング トークナイザーを選択します。 |
| lightHungarian |
ライトステミングを行うハンガリー語の Lucene ステミング トークナイザーを選択します。 |
| indonesian |
インドネシア語の Lucene ステミング トークナイザーを選択します。 |
| irish |
アイルランド語の Lucene ステミング トークナイザーを選択します。 |
| italian |
イタリア語の Lucene ステミング トークナイザーを選択します。 |
| lightItalian |
ライトステミングを行うイタリア語のLuceneステミングトークナイザーを選択します。 |
| sorani |
Sorani の Lucene ステミングトークナイザーを選択します。 |
| latvian |
ラトビア語の Lucene ステミング トークナイザーを選択します。 |
| norwegian |
ノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
| lightNorwegian |
ライトステミングを行うノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
| minimalNorwegian |
最小限のステミングを行うノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
| lightNynorsk |
ライトステミングを行うノルウェー語 (Nynorsk) の Lucene ステミング トークナイザーを選択します。 |
| minimalNynorsk |
最小限のステミングを行うノルウェー語 (Nynorsk) の Lucene ステミング トークナイザーを選択します。 |
| portuguese |
ポルトガル語の Lucene ステミング トークナイザーを選択します。 |
| lightPortuguese |
ライトステミングを行うポルトガル語のLuceneステミングトークナイザーを選択します。 |
| minimalPortuguese |
最小限のステミングを行うポルトガル語の Lucene ステミング トークナイザーを選択します。 |
| portugueseRslp |
RSLP ステミングアルゴリズムを使用するポルトガル語の Lucene ステミングトークナイザーを選択します。 |
| romanian |
ルーマニア語の Lucene ステミング トークナイザーを選択します。 |
| russian |
ロシア語の Lucene ステミング トークナイザーを選択します。 |
| lightRussian |
ライトステミングを行うロシア語のLuceneステミングトークナイザーを選択します。 |
| spanish |
スペイン語の Lucene ステミング トークナイザーを選択します。 |
| lightSpanish |
ライトステミングを行うスペイン語の Lucene ステミング トークナイザーを選択します。 |
| swedish |
スウェーデン語の Lucene 語幹記号トークナイザーを選択します。 |
| lightSwedish |
ライトステミングを行うスウェーデン語の Lucene ステミング トークナイザーを選択します。 |
| turkish |
トルコ語の Lucene ステミング トークナイザーを選択します。 |
StopAnalyzer
文字以外のテキストを分割します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されています。
| 名前 | 型 | 説明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
アナライザーのタイプを指定する URI フラグメント。 |
| name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
| stopwords |
string[] |
ストップワードのリスト。 |
StopwordsList
言語固有のストップワードの事前定義リストを識別します。
| 値 | 説明 |
|---|---|
| arabic |
アラビア語のストップワードリストを選択します。 |
| armenian |
アルメニア語のストップワードリストを選択します。 |
| basque |
バスク語のストップワードリストを選択します。 |
| brazilian |
ポルトガル語 (ブラジル) のストップワード リストを選択します。 |
| bulgarian |
ブルガリア語のストップワードリストを選択します。 |
| catalan |
カタロニア語のストップワードリストを選択します。 |
| czech |
チェコ語のストップワードリストを選択します。 |
| danish |
デンマーク語のストップワードリストを選択します。 |
| dutch |
オランダ語のストップワードリストを選択します。 |
| english |
英語のストップワードリストを選択します。 |
| finnish |
フィンランド語のストップワードリストを選択します。 |
| french |
フランス語のストップワードリストを選択します。 |
| galician |
ガリシア語のストップワードリストを選択します。 |
| german |
ドイツ語のストップワード・リストを選択します。 |
| greek |
ギリシャ語のストップワード・リストを選択します。 |
| hindi |
ヒンディー語のストップワード・リストを選択します。 |
| hungarian |
ハンガリー語のストップワード・リストを選択します。 |
| indonesian |
インドネシア語のストップワードリストを選択します。 |
| irish |
アイルランド語のストップワードリストを選択します。 |
| italian |
イタリア語のストップワードリストを選択します。 |
| latvian |
ラトビア語のストップワードリストを選択します。 |
| norwegian |
ノルウェー語のストップワード・リストを選択します。 |
| persian |
ペルシア語のストップワードリストを選択します。 |
| portuguese |
ポルトガル語のストップワードリストを選択します。 |
| romanian |
ルーマニア語のストップワードリストを選択します。 |
| russian |
ロシア語のストップワードリストを選択します。 |
| sorani |
ソラニのストップワードリストを選択します。 |
| spanish |
スペイン語のストップワードリストを選択します。 |
| swedish |
スウェーデン語のストップワード・リストを選択します。 |
| thai |
タイ語のストップワードリストを選択します。 |
| turkish |
トルコ語のストップワードリストを選択します。 |
StopwordsTokenFilter
トークン・ストリームからストップ・ワードを削除します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| ignoreCase |
boolean |
False |
大文字と小文字を無視するかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| removeTrailing |
boolean |
True |
最後の検索語がストップワードの場合に無視するかどうかを示す値。 既定値は True です。 |
| stopwords |
string[] |
ストップワードのリスト。 このプロパティとストップワード リスト プロパティの両方を設定することはできません。 |
|
| stopwordsList | english |
使用するストップワードの定義済みリスト。 このプロパティと stopwords プロパティの両方を設定することはできません。 デフォルトは英語です。 |
Suggester
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| name |
string |
サジェスタの名前。 |
| searchMode |
サジェスターの機能を示す値。 |
|
| sourceFields |
string[] |
サジェスターが適用されるフィールド名のリスト。 各フィールドは検索可能である必要があります。 |
SuggesterSearchMode
サジェスターの機能を示す値。
| 値 | 説明 |
|---|---|
| analyzingInfixMatching |
フィールド内の連続する用語全体とプレフィックスに一致します。 たとえば、フィールド 'The fastest brown fox' の場合、クエリ 'fast' と 'fastest brow' は両方とも一致します。 |
SynonymTokenFilter
トークン ストリーム内の 1 つまたは複数の単語の同義語に一致します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| expand |
boolean |
True |
同義語のリスト内のすべての単語 (=> 表記が使用されていない場合) が相互にマップされるかどうかを示す値。 true の場合、同義語のリスト内のすべての単語 (=> 表記が使用されていない場合) は相互にマップされます。 次のリスト: 信じられない、信じられない、素晴らしい、素晴らしい は、信じられない、信じられない、素晴らしい、素晴らしい => 信じられない、信じられない、素晴らしい、素晴らしい。 falseの場合、次のリスト:信じられない、信じられない、素晴らしい、驚くべきものは、信じられない、信じられない、素晴らしい、驚くべき=> 信じられないほどに相当します。 既定値は True です。 |
| ignoreCase |
boolean |
False |
一致のために入力を大文字と小文字で折り返すかどうかを示す値。 既定値は false です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| synonyms |
string[] |
次の 2 つの形式のいずれかの同義語のリスト: 1. 信じられない、信じられない、素晴らしい => 素晴らしい - => 記号の左側にあるすべての用語は、右側のすべての用語に置き換えられます。2. 信じられない、信じられない、素晴らしい、驚くべき - 同等の単語のコンマ区切りリスト。 展開オプションを設定して、このリストの解釈方法を変更します。 |
TagScoringFunction
特定のタグのリストに一致する文字列値を持つドキュメントのスコアをブーストする関数を定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| boost |
number (double) |
生スコアの乗数。 1.0 に等しくない正の数である必要があります。 |
| fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
| interpolation |
ドキュメントスコア間でブーストがどのように補間されるかを示す値。デフォルトは「線形」です。 |
|
| tag |
タグスコアリング関数のパラメーター値。 |
|
| type |
string:
tag |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグなどがあります。 関数型は小文字にする必要があります。 |
TagScoringParameters
タグスコアリング関数にパラメーター値を提供します。
| 名前 | 型 | 説明 |
|---|---|---|
| tagsParameter |
string |
ターゲットフィールドと比較するタグのリストを指定するために検索クエリで渡されるパラメータの名前。 |
TextWeights
検索クエリのスコアを向上させる一致のインデックス フィールドの重みを定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| weights |
object |
ドキュメントのスコアリングを高めるためのフィールドごとの重みの辞書。 キーはフィールド名で、値は各フィールドの重みです。 |
TokenCharacterKind
トークン フィルターが操作できる文字のクラスを表します。
| 値 | 説明 |
|---|---|
| letter |
文字をトークンに保持します。 |
| digit |
トークンに数字を保持します。 |
| whitespace |
トークンに空白を保持します。 |
| punctuation |
句読点をトークンに保持します。 |
| symbol |
シンボルをトークンに保持します。 |
TokenFilterName
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。
TruncateTokenFilter
用語を特定の長さに切り捨てます。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| length |
integer (int32) maximum: 300 |
300 |
用語が切り捨てられる長さ。 デフォルトと最大値は 300 です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
UaxUrlEmailTokenizer
URL と電子メールを 1 つのトークンとしてトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークナイザーのタイプを指定する URI フラグメント。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
トークンの最大長。 デフォルトは 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
| name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
UniqueTokenFilter
前のトークンと同じテキストを持つトークンを除外します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| onlyOnSamePosition |
boolean |
False |
同じ位置でのみ重複を削除するかどうかを示す値。 既定値は false です。 |
VectorEncodingFormat
ベクトル フィールドの内容を解釈するためのエンコード形式。
| 値 | 説明 |
|---|---|
| packedBit |
より広いデータ型にパックされたビットを表すエンコード形式。 |
VectorSearch
ベクトル検索に関連する構成オプションが含まれています。
| 名前 | 型 | 説明 |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
インデックス作成またはクエリ中に使用されるアルゴリズムに固有の構成オプションが含まれています。 |
| compressions | VectorSearchCompressionConfiguration[]: |
インデックス作成またはクエリ時に使用される圧縮方法に固有の構成オプションが含まれています。 |
| profiles |
ベクトル検索で使用する構成の組み合わせを定義します。 |
|
| vectorizers | VectorSearchVectorizer[]: |
テキスト ベクトル クエリをベクトル化する方法に関する構成オプションが含まれています。 |
VectorSearchAlgorithmKind
インデックス作成とクエリに使用されるアルゴリズム。
| 値 | 説明 |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World) は、近似最近傍アルゴリズムの一種です。 |
| exhaustiveKnn |
総当たり探索を実行する網羅的なKNNアルゴリズム。 |
VectorSearchAlgorithmMetric
ベクトル比較に使用する類似性メトリック。 埋め込みモデルがトレーニングされたのと同じ類似性メトリックを選択することをお勧めします。
| 値 | 説明 |
|---|---|
| cosine |
ベクトル間の角度を測定して、大きさを無視して類似性を定量化します。 角度が小さいほど類似性が近くなります。 |
| euclidean |
多次元空間内のベクトル間の直線距離を計算します。 距離が小さいほど類似性が近くなります。 |
| dotProduct |
要素ごとの積の合計を計算して、アラインメントと大きさの類似性を測定します。 大きくて肯定的であればあるほど、類似性は近くなります。 |
| hamming |
ビットパックされたバイナリデータ型にのみ適用されます。 バイナリベクトルの異なる位置をカウントすることによって、非類似性を判別します。 違いが少ないほど、類似性は近くなります。 |
VectorSearchCompressionKind
インデックス作成とクエリに使用される圧縮方法。
| 値 | 説明 |
|---|---|
| scalarQuantization |
圧縮方式の一種であるスカラー量子化。 スカラー量子化では、量子化された値のセットを縮小してベクトルの各コンポーネントを離散化して表現することで、元のベクトル値をより狭い型に圧縮し、それによって全体的なデータサイズを縮小します。 |
| binaryQuantization |
圧縮方式の一種であるバイナリ量子化。 バイナリ量子化では、バイナリ値を使用してベクトルの各コンポーネントを離散化して表現することにより、元のベクトルの値をより狭いバイナリ型に圧縮し、それによって全体的なデータサイズを縮小します。 |
VectorSearchCompressionRescoreStorageMethod
再スコアリングおよび内部インデックス操作に使用される元の全精度ベクトルの格納方法。
| 値 | 説明 |
|---|---|
| preserveOriginals |
このオプションは、元の全精度ベクトルを保持します。 このオプションを選択すると、圧縮された検索結果の柔軟性と最高品質が得られます。 これにより、より多くのストレージが消費されますが、再スコアリングとオーバーサンプリングが可能になります。 |
| discardOriginals |
このオプションは、元の全精度ベクトルを破棄します。 ストレージを最大限に節約するには、このオプションを選択します。 このオプションでは再スコアリングとオーバーサンプリングが許可されないため、多くの場合、品質がわずかから中程度に低下します。 |
VectorSearchCompressionTargetDataType
圧縮ベクトル値の量子化されたデータ型。
| 値 | 説明 |
|---|---|
| int8 |
VectorSearchProfile
ベクトル検索で使用する構成の組み合わせを定義します。
| 名前 | 型 | 説明 |
|---|---|---|
| algorithm |
string |
アルゴリズムとオプションのパラメーターを指定するベクトル検索アルゴリズム構成の名前。 |
| compression |
string |
圧縮方法とオプションのパラメーターを指定する圧縮方法構成の名前。 |
| name |
string |
この特定のベクトル検索プロファイルに関連付ける名前。 |
| vectorizer |
string |
ベクトル検索で使用するために構成されているベクトル化の名前。 |
VectorSearchVectorizerKind
クエリ時に使用するベクトル化方法。
| 値 | 説明 |
|---|---|
| azureOpenAI |
クエリ時に Azure OpenAI リソースを使用して埋め込みを生成します。 |
| customWebApi |
クエリ時にカスタム Web エンドポイントを使用して埋め込みを生成します。 |
WebApiParameters
ユーザー定義のベクトルライザーに接続するためのプロパティを指定します。
| 名前 | 型 | 説明 |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 authResourceId が指定されていて指定されていない場合は、システム割り当てマネージド ID が使用されます。 インデクサーの更新時に、ID が指定されていない場合、値は変更されません。 「none」に設定すると、このプロパティの値はクリアされます。 |
| authResourceId |
string |
Azure 関数の外部コード、または変換を提供するその他のアプリケーションに接続するカスタム エンドポイントに適用されます。 この値は、Azure Active Directory に登録されたときに関数またはアプリ用に作成されたアプリケーション ID である必要があります。 指定すると、ベクトル化は、検索サービスのマネージド ID (システムまたはユーザー割り当て) と関数またはアプリのアクセス トークンを使用して関数またはアプリに接続し、この値をアクセス トークンのスコープを作成するためのリソース ID として使用します。 |
| httpHeaders |
object |
HTTP 要求を行うために必要なヘッダー。 |
| httpMethod |
string |
HTTP 要求のメソッド。 |
| timeout |
string (duration) |
要求に必要なタイムアウト。 既定値は 30 秒です。 |
| uri |
string (uri) |
ベクタライザーを提供する Web API の URI。 |
WebApiVectorizer
クエリ文字列のベクトル埋め込みを生成するためのユーザー定義ベクトルライザーを指定します。 外部ベクトルライザーの統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。
| 名前 | 型 | 説明 |
|---|---|---|
| customWebApiParameters |
ユーザー定義のベクトル化器のプロパティを指定します。 |
|
| kind |
string:
custom |
ベクトル検索で使用するために構成されているベクトル化方法の種類の名前。 |
| name |
string |
この特定のベクトル化方法に関連付ける名前。 |
WordDelimiterTokenFilter
単語をサブワードに分割し、サブワードグループに対してオプションの変換を実行します。 このトークンフィルターは、Apache Lucene を使用して実装されます。
| 名前 | 型 | 規定値 | 説明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
トークン フィルターのタイプを指定する URI フラグメント。 |
|
| catenateAll |
boolean |
False |
すべてのサブワード・パーツを連結するかどうかを示す値。 たとえば、これを true に設定すると、"Azure-Search-1" は "AzureSearch1" になります。 既定値は false です。 |
| catenateNumbers |
boolean |
False |
番号部材の最大実行を連結するかどうかを示す値。 たとえば、これを true に設定すると、「1-2」は「12」になります。 既定値は false です。 |
| catenateWords |
boolean |
False |
ワード・パーツの最大実行数がカテネートされるかどうかを示す値。 たとえば、これを true に設定すると、"Azure-Search" は "AzureSearch" になります。 既定値は false です。 |
| generateNumberParts |
boolean |
True |
数値の部分語を生成するかどうかを示す値。 既定値は True です。 |
| generateWordParts |
boolean |
True |
パートワードを生成するかどうかを示す値。 設定すると、単語の一部が生成されます。たとえば、"AzureSearch" は "Azure" "Search" になります。 既定値は True です。 |
| name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、またはアンダースコアのみを含める必要があり、英数字で始末と終点のみで、128 文字に制限されています。 |
|
| preserveOriginal |
boolean |
False |
元の単語を保持してサブワードリストに追加するかどうかを示す値。 既定値は false です。 |
| protectedWords |
string[] |
区切られないように保護するトークンのリスト。 |
|
| splitOnCaseChange |
boolean |
True |
caseChange で単語を分割するかどうかを示す値。 たとえば、これを true に設定すると、"AzureSearch" は "Azure" "Search" になります。 既定値は True です。 |
| splitOnNumerics |
boolean |
True |
数値で分割するかどうかを示す値。 たとえば、これを true に設定すると、"Azure1Search" は "Azure" "1" "Search" になります。 既定値は True です。 |
| stemEnglishPossessive |
boolean |
True |
各サブワードの末尾の "'s" を削除するかどうかを示す値。 既定値は True です。 |