Indexes - Create
Erstellt einen neuen Suchindex.
POST {endpoint}/indexes?api-version=2025-09-01
URI-Parameter
| Name | In | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
|
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Die Nachverfolgungs-ID, die mit der Anforderung gesendet wird, um das Debuggen zu unterstützen. |
Anforderungstext
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| fields | True |
Die Felder des Indexes. |
|
| name | True |
string |
Der Name des Index. |
| @odata.etag |
string |
Das ETag des Index. |
|
| analyzers | LexicalAnalyzer[]: |
Die Analysetools für den Index. |
|
| charFilters | CharFilter[]: |
Die Zeichenfilter für den Index. |
|
| corsOptions |
Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für den Index. |
||
| defaultScoringProfile |
string |
Der Name des zu verwendenden Bewertungsprofils, wenn in der Abfrage keines angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und in der Abfrage kein Bewertungsprofil angegeben ist, wird die Standardbewertung (tf-idf) verwendet. |
|
| description |
string |
Die Beschreibung des Indexes. |
|
| encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Ebene der Verschlüsselung ruhender Daten für Ihre Daten bereitzustellen, wenn Sie die vollständige Gewissheit haben möchten, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleiben sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie Ihren Verschlüsselungsschlüssel rotieren möchten. Ihre Daten bleiben davon unberührt. Die Verschlüsselung mit kundenseitig verwalteten Schlüsseln ist für kostenlose Suchdienste nicht verfügbar und nur für kostenpflichtige Dienste, die am oder nach dem 1. Januar 2019 erstellt wurden. |
||
| normalizers | LexicalNormalizer[]: |
Die Normalisierer für den Index. |
|
| scoringProfiles |
Die Bewertungsprofile für den Index. |
||
| semantic |
Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen. |
||
| similarity | Similarity: |
Die Art des Ähnlichkeitsalgorithmus, der bei der Bewertung und Rangfolge der Dokumente verwendet werden soll, die einer Suchanfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zum Zeitpunkt der Indexerstellung definiert werden und kann nicht an vorhandenen Indizes geändert werden. Wenn null, wird der ClassicSimilarity-Algorithmus verwendet. |
|
| suggesters |
Die Vorschläge für den Index. |
||
| tokenFilters |
TokenFilter[]:
|
Das Token filtert nach dem Index. |
|
| tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
|
| vectorSearch |
Enthält Konfigurationsoptionen für die Vektorsuche. |
Antworten
| Name | Typ | Beschreibung |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceCreateIndex
Beispielanforderung
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Beispiel für eine Antwort
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definitionen
| Name | Beschreibung |
|---|---|
|
Ascii |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Azure |
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird. |
|
Azure |
Ermöglicht das Generieren einer Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource. |
|
Azure |
Der Name des Azure Open AI-Modells, der aufgerufen wird. |
|
Azure |
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an. |
|
Azure |
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird. |
|
Binary |
Enthält Konfigurationsoptionen, die für die binäre Quantisierungskomprimierungsmethode spezifisch sind, die während der Indizierung und Abfrage verwendet wird. |
| BM25Similarity |
Ranking-Funktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der sowohl die Längennormalisierung (gesteuert durch den 'b'-Parameter) als auch die Termfrequenzsättigung (gesteuert durch den 'k1'-Parameter) umfasst. |
|
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
|
Cjk |
Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Cjk |
Skripts, die von CjkBigramTokenFilter ignoriert werden können. |
|
Classic |
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation der TF-IDF führt zu einer statischen Normalisierung der Dokumentlänge sowie zu koordinierenden Faktoren, die Dokumente benachteiligen, die nur teilweise mit den gesuchten Abfragen übereinstimmen. |
|
Classic |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Common |
Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Cors |
Definiert Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für einen Index. |
|
Custom |
Ermöglicht es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indexierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter für die Änderung von Token verantwortlich, die vom Tokenizer ausgegeben werden. |
|
Custom |
Ermöglicht das Konfigurieren der Normalisierung für filterbare, sortierbare und facettierbare Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Hierbei handelt es sich um eine benutzerdefinierte Konfiguration, die aus mindestens einem oder mehreren Filtern besteht, die das gespeicherte Token ändern. |
|
Dictionary |
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Distance |
Definiert eine Funktion, die die Punktzahl basierend auf der Entfernung von einem geografischen Standort erhöht. |
|
Distance |
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit. |
|
Edge |
Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Edge |
Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll. |
|
Edge |
Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Edge |
Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Elision |
Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
|
Error |
Das Fehlerdetails. |
|
Error |
Fehlerantwort |
|
Exhaustive |
Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind. |
|
Exhaustive |
Enthält Konfigurationsoptionen, die speziell für den umfassenden KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird und eine Brute-Force-Suche über den gesamten Vektorindex durchführt. |
|
Freshness |
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datums-/Uhrzeitfelds erhöht. |
|
Freshness |
Stellt Parameterwerte für eine Funktion zur Bewertung der Aktualität bereit. |
|
Hnsw |
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind. |
|
Hnsw |
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit. |
|
Input |
Zuordnung von Eingabefeldern für einen Skill. |
|
Keep |
Ein Tokenfilter, der nur Token mit Text enthält, der in einer angegebenen Liste von Wörtern enthalten ist. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Keyword |
Markiert Begriffe als Schlüsselwörter. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Keyword |
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Keyword |
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Length |
Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Lexical |
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
|
Limit |
Begrenzt die Anzahl der Token während der Indizierung. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Lucene |
Standardmäßiger Apache Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. |
|
Lucene |
Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Lucene |
Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Magnitude |
Definiert eine Funktion, die die Punktzahl basierend auf der Größe eines numerischen Felds erhöht. |
|
Magnitude |
Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit. |
|
Mapping |
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Option mappings definiert wurden. Matching ist gierig (das längste Pattern-Matching zu einem bestimmten Zeitpunkt gewinnt). Die Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
|
Microsoft |
Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen. |
|
Microsoft |
Unterteilt Text nach sprachspezifischen Regeln. |
|
Microsoft |
Listet die Sprachen auf, die vom Microsoft-Tokenizer für die Wortstammerkennung unterstützt werden. |
|
Microsoft |
Listet die Sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden. |
|
NGram |
Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
NGram |
Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
NGram |
Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Output |
Ausgabefeldzuordnung für einen Skill. |
|
Path |
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Pattern |
Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Dieser Analysator wird mit Apache Lucene implementiert. |
|
Pattern |
Verwendet Java-Regexes, um mehrere Token auszugeben – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
|
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Pattern |
Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Phonetic |
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll. |
|
Phonetic |
Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Prioritized |
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. |
|
Ranking |
Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll. |
|
Regex |
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke in der Musteranalyse und im Mustertokenisierer verwendet werden. |
|
Rescoring |
Enthält die Optionen für die Neubewertung. |
|
Scalar |
Enthält die Parameter, die für die skalare Quantisierung spezifisch sind. |
|
Scalar |
Enthält Konfigurationsoptionen, die speziell für die Komprimierungsmethode der skalaren Quantisierung entwickelt wurden, die bei der Indizierung und Abfrage verwendet wird. |
|
Scoring |
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren. |
|
Scoring |
Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird. |
|
Scoring |
Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen. |
|
Search |
Stellt ein Feld in einer Indexdefinition dar, die den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt. |
|
Search |
Definiert den Datentyp eines Feldes in einem Suchindex. |
|
Search |
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt. |
|
Search |
Löscht die Identitätseigenschaft einer Datenquelle. |
|
Search |
Gibt die Identität an, die von einer Datenquelle verwendet werden soll. |
|
Search |
Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen. |
|
Semantic |
Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll. |
|
Semantic |
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird. |
|
Semantic |
Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen. |
|
Shingle |
Erstellt Kombinationen von Token als einzelnes Token. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Snowball |
Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Snowball |
Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll. |
|
Stemmer |
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerdefinierter wörterbuchbasierter Wortstammerkennung zu überschreiben. Alle Begriffe, die im Wörterbuch enthalten sind, werden als Schlüsselwörter markiert, sodass sie nicht mit Stammwörtern in der Kette verknüpft werden. Muss vor allen Stielfiltern platziert werden. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Stemmer |
Sprachspezifischer Stemming-Filter. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Stemmer |
Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll. |
|
Stop |
Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Dieser Analysator wird mit Apache Lucene implementiert. |
|
Stopwords |
Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an. |
|
Stopwords |
Entfernt Stoppwörter aus einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert. |
| Suggester |
Definiert, wie die Suggest-API auf eine Gruppe von Feldern im Index angewendet werden soll. |
|
Suggester |
Ein Wert, der die Funktionen des Vorschlags angibt. |
|
Synonym |
Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Tag |
Definiert eine Funktion, die die Punktzahl von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen. |
|
Tag |
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit. |
|
Text |
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen verbessern sollen. |
|
Token |
Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann. |
|
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
|
Truncate |
Kürzt die Begriffe auf eine bestimmte Länge. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Uax |
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Unique |
Filtert Token mit demselben Text wie das vorherige Token heraus. Dieser Token-Filter wird mit Apache Lucene implementiert. |
|
Vector |
Das Codierungsformat für die Interpretation von Vektorfeldinhalten. |
|
Vector |
Enthält Konfigurationsoptionen für die Vektorsuche. |
|
Vector |
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird. |
|
Vector |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde. |
|
Vector |
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird. |
|
Vector |
Die Speichermethode für die ursprünglichen Vektoren mit voller Genauigkeit, die für die Neubewertung und interne Indexvorgänge verwendet werden. |
|
Vector |
Der quantisierte Datentyp von komprimierten Vektorwerten. |
|
Vector |
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
Vector |
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll. |
|
Web |
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an. |
|
Web |
Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets. |
|
Word |
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch. Dieser Token-Filter wird mit Apache Lucene implementiert. |
AsciiFoldingTokenFilter
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob das ursprüngliche Token beibehalten wird. Der Standardwert ist "false". |
AzureActiveDirectoryApplicationCredentials
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| applicationId |
string |
Eine AAD-Anwendungs-ID, der die erforderlichen Zugriffsberechtigungen für Azure Key Vault erteilt wurden, die beim Verschlüsseln ruhender Daten verwendet werden soll. Die Anwendungs-ID sollte nicht mit der Objekt-ID für Ihre AAD-Anwendung verwechselt werden. |
| applicationSecret |
string |
Der Authentifizierungsschlüssel der angegebenen AAD-Anwendung. |
AzureOpenAIEmbeddingSkill
Ermöglicht das Generieren einer Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Skills angibt. |
| apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
| authIdentity | SearchIndexerDataIdentity: |
Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
| context |
string |
Stellt die Ebene dar, auf der Vorgänge ausgeführt werden, z. B. der Dokumentstamm oder der Dokumentinhalt (z. B. /document oder /document/content). Der Standardwert ist /document. |
| deploymentId |
string |
ID der Bereitstellung des Azure OpenAI-Modells für die angegebene Ressource. |
| description |
string |
Die Beschreibung des Skills, die die Eingaben, Ausgaben und die Verwendung des Skills beschreibt. |
| dimensions |
integer (int32) |
Die Anzahl der Dimensionen, die die resultierenden Ausgabeeinbettungen aufweisen sollen. Wird nur in text-embedding-3 und höheren Modellen unterstützt. |
| inputs |
Bei der Eingabe der Fertigkeiten kann es sich um eine Spalte im Quelldatensatz oder um die Ausgabe einer vorgelagerten Fertigkeit handeln. |
|
| modelName |
Der Name des Einbettungsmodells, das unter dem angegebenen deploymentId-Pfad bereitgestellt wird. |
|
| name |
string |
Der Name des Skills, der ihn innerhalb des Skillssets eindeutig identifiziert. Ein Skill, für den kein Name definiert ist, erhält einen Standardnamen seines 1-basierten Index im skills-Array mit dem Präfix "#". |
| outputs |
Die Ausgabe eines Skills ist entweder ein Feld in einem Suchindex oder ein Wert, der von einem anderen Skill als Eingabe verwendet werden kann. |
|
| resourceUri |
string (uri) |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
AzureOpenAIModelName
Der Name des Azure Open AI-Modells, der aufgerufen wird.
| Wert | Beschreibung |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.
| Name | Typ | Beschreibung |
|---|---|---|
| apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
| authIdentity | SearchIndexerDataIdentity: |
Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
| deploymentId |
string |
ID der Bereitstellung des Azure OpenAI-Modells für die angegebene Ressource. |
| modelName |
Der Name des Einbettungsmodells, das unter dem angegebenen deploymentId-Pfad bereitgestellt wird. |
|
| resourceUri |
string (uri) |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
AzureOpenAIVectorizer
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Enthält die Parameter, die für die Vektorisierung der Azure OpenAI-Einbettung spezifisch sind. |
| kind |
string:
azure |
Der Name der Art von Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
BinaryQuantizationVectorSearchCompressionConfiguration
Enthält Konfigurationsoptionen, die für die binäre Quantisierungskomprimierungsmethode spezifisch sind, die während der Indizierung und Abfrage verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| kind |
string:
binary |
Der Name der Art von Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
| rescoringOptions |
Enthält die Optionen für die Neubewertung. |
|
| truncationDimension |
integer (int32) |
Die Anzahl der Dimensionen, auf die die Vektoren gekürzt werden sollen. Durch das Abschneiden der Vektoren werden die Größe der Vektoren und die Datenmenge, die während der Suche übertragen werden muss, reduziert. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Abrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, wie z. B. OpenAI text-embedding-3-large (small). Der Standardwert ist null, was bedeutet, dass keine Kürzung vorgenommen wird. |
BM25Similarity
Ranking-Funktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der sowohl die Längennormalisierung (gesteuert durch den 'b'-Parameter) als auch die Termfrequenzsättigung (gesteuert durch den 'k1'-Parameter) umfasst.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Diese Eigenschaft steuert, wie sich die Länge eines Dokuments auf die Relevanzbewertung auswirkt. Standardmäßig wird ein Wert von 0,75 verwendet. Ein Wert von 0,0 bedeutet, dass keine Längennormalisierung angewendet wird, während ein Wert von 1,0 bedeutet, dass die Punktzahl vollständig um die Länge des Dokuments normalisiert wird. |
| k1 |
number (double) |
Diese Eigenschaft steuert die Skalierungsfunktion zwischen der Ausdruckshäufigkeit der einzelnen übereinstimmenden Begriffe und der endgültigen Relevanzbewertung eines Dokument-Abfrage-Paares. Standardmäßig wird der Wert 1,2 verwendet. Ein Wert von 0,0 bedeutet, dass die Punktzahl nicht mit einer Zunahme der Termhäufigkeit skaliert wird. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| html_strip |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| ignoreScripts |
Die Skripte, die ignoriert werden sollen. |
||
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| outputUnigrams |
boolean |
False |
Ein Wert, der angibt, ob sowohl Unigramme als auch Bigramme (bei true) oder nur Bigramme (bei false) ausgegeben werden sollen. Der Standardwert ist "false". |
CjkBigramTokenFilterScripts
Skripts, die von CjkBigramTokenFilter ignoriert werden können.
| Wert | Beschreibung |
|---|---|
| han |
Ignorieren Sie die Han-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| hiragana |
Ignorieren Sie die Hiragana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| katakana |
Ignorieren Sie die Katakana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| hangul |
Ignorieren Sie die Hangul-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
ClassicSimilarity
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation der TF-IDF führt zu einer statischen Normalisierung der Dokumentlänge sowie zu koordinierenden Faktoren, die Dokumente benachteiligen, die nur teilweise mit den gesuchten Abfragen übereinstimmen.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
CommonGramTokenFilter
Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| commonWords |
string[] |
Die Menge der gebräuchlichen Wörter. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob bei der Übereinstimmung allgemeiner Wörter die Groß-/Kleinschreibung nicht beachtet wird. Der Standardwert ist "false". |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| queryMode |
boolean |
False |
Ein Wert, der angibt, ob sich der Tokenfilter im Abfragemodus befindet. Im Abfragemodus generiert der Tokenfilter Bigramme und entfernt dann allgemeine Wörter und einzelne Begriffe, gefolgt von einem allgemeinen Wort. Der Standardwert ist "false". |
CorsOptions
Definiert Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für einen Index.
| Name | Typ | Beschreibung |
|---|---|---|
| allowedOrigins |
string[] |
Die Liste der Ursprünge, von denen aus JavaScript-Code Zugriff auf Ihren Index erhält. Kann eine Liste von Hosts in der Form {protocol}://{fully-qualified-___domain-name}[:{port#}] oder ein einzelnes '*' enthalten, um alle Ursprünge zuzulassen (nicht empfohlen). |
| maxAgeInSeconds |
integer (int64) |
Die Dauer, für die Browser CORS-Preflight-Antworten zwischenspeichern sollen. Der Standardwert ist 5 Minuten. |
CustomAnalyzer
Ermöglicht es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indexierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter für die Änderung von Token verantwortlich, die vom Tokenizer ausgegeben werden.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
| charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er vom Tokenizer verarbeitet wird. Sie können zum Beispiel bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
| name |
string |
Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
| tokenFilters |
Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern der von einem Tokenizer generierten Token verwendet werden. Sie können z. B. einen Kleinbuchstabenfilter angeben, der alle Zeichen in Kleinbuchstaben konvertiert. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
| tokenizer |
Der Name des Tokenizers, der zum Unterteilen von Fließtext in eine Sequenz von Token verwendet werden soll, z. B. zum Aufteilen eines Satzes in Wörter. |
CustomNormalizer
Ermöglicht das Konfigurieren der Normalisierung für filterbare, sortierbare und facettierbare Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Hierbei handelt es sich um eine benutzerdefinierte Konfiguration, die aus mindestens einem oder mehreren Filtern besteht, die das gespeicherte Token ändern.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Normalisierungsprogramms angibt. |
| charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext vor der Verarbeitung verwendet werden. Sie können zum Beispiel bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
| name |
string |
Der Name des Normalisierungsprogramms. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. Er darf nicht auf ".microsoft" oder ".lucene" enden und auch nicht "asciifolding", "standard", "lowercase", "uppercase" oder "elision" heißen. |
| tokenFilters |
Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern des Eingabetokens verwendet werden. Sie können z. B. einen Kleinbuchstabenfilter angeben, der alle Zeichen in Kleinbuchstaben konvertiert. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
DictionaryDecompounderTokenFilter
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Die maximale Größe eines Teilworts. Es werden nur Unterwörter ausgegeben, die kürzer sind. Der Standardwert ist 15. Der Höchstwert beträgt 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Die minimale Größe von Unterwörtern. Es werden nur noch längere Unterwörter ausgegeben. Der Standardwert ist 2. Der Höchstwert beträgt 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Die minimale Wortgröße. Es werden nur Wörter verarbeitet, die länger sind. Der Standardwert ist 5. Der Höchstwert beträgt 300. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| onlyLongestMatch |
boolean |
False |
Ein Wert, der angibt, ob der Ausgabe nur das längste übereinstimmende Teilwort hinzugefügt werden soll. Der Standardwert ist "false". |
| wordList |
string[] |
Die Liste der Wörter, mit denen abgeglichen werden soll. |
DistanceScoringFunction
Definiert eine Funktion, die die Punktzahl basierend auf der Entfernung von einem geografischen Standort erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein. |
| distance |
Parameterwerte für die Abstandsbewertungsfunktion. |
|
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt. |
|
| type |
string:
distance |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden. |
DistanceScoringParameters
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingDistance |
number (double) |
Die Entfernung in Kilometern von der Referenzposition, an der der Boosting-Bereich endet. |
| referencePointParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um den Referenzspeicherort anzugeben. |
EdgeNGramTokenFilter
Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| maxGram |
integer (int32) |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. |
| minGram |
integer (int32) |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| side | front |
Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne". |
EdgeNGramTokenFilterSide
Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll.
| Wert | Beschreibung |
|---|---|
| front |
Gibt an, dass das N-Gramm von der Vorderseite der Eingabe generiert werden soll. |
| back |
Gibt an, dass das N-Gramm von der Rückseite der Eingabe generiert werden soll. |
EdgeNGramTokenFilterV2
Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| side | front |
Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne". |
EdgeNGramTokenizer
Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| tokenChars |
Zeichenklassen, die in den Token aufbewahrt werden sollen. |
ElisionTokenFilter
Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
| articles |
string[] |
Die Gruppe der Artikel, die entfernt werden sollen. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
| Name | Typ | Beschreibung |
|---|---|---|
| info |
object |
Die zusätzlichen Informationen. |
| type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
| Name | Typ | Beschreibung |
|---|---|---|
| additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
| code |
string |
Der Fehlercode. |
| details |
Die Fehlerdetails. |
|
| message |
string |
Die Fehlermeldung. |
| target |
string |
Das Fehlerziel. |
ErrorResponse
Fehlerantwort
| Name | Typ | Beschreibung |
|---|---|---|
| error |
Das Fehlerobjekt. |
ExhaustiveKnnParameters
Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind.
| Name | Typ | Beschreibung |
|---|---|---|
| metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die speziell für den umfassenden KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird und eine Brute-Force-Suche über den gesamten Vektorindex durchführt.
| Name | Typ | Beschreibung |
|---|---|---|
| exhaustiveKnnParameters |
Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind. |
|
| kind |
string:
exhaustive |
Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
FreshnessScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datums-/Uhrzeitfelds erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| freshness |
Parameterwerte für die Funktion zur Bewertung der Aktualität. |
|
| interpolation |
Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt. |
|
| type |
string:
freshness |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden. |
FreshnessScoringParameters
Stellt Parameterwerte für eine Funktion zur Bewertung der Aktualität bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingDuration |
string (duration) |
Der Ablaufzeitraum, nach dem das Boosten für ein bestimmtes Dokument gestoppt wird. |
HnswParameters
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Indexzeit verwendet wird. Durch Erhöhen dieses Parameters kann die Indexqualität auf Kosten einer längeren Indizierungszeit verbessert werden. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Suchzeit verwendet wird. Das Erhöhen dieses Parameters kann die Suchergebnisse auf Kosten einer langsameren Suche verbessern. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Die Anzahl der bidirektionalen Verknüpfungen, die während der Konstruktion für jedes neue Element erstellt werden. Das Erhöhen dieses Parameterwerts kann den Abruf verbessern und die Abrufzeiten für Datasets mit hoher intrinsischer Dimensionalität auf Kosten eines höheren Speicherverbrauchs und einer längeren Indizierungszeit verkürzen. |
| metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
HnswVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.
| Name | Typ | Beschreibung |
|---|---|---|
| hnswParameters |
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind. |
|
| kind |
string:
hnsw |
Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
InputFieldMappingEntry
Zuordnung von Eingabefeldern für einen Skill.
| Name | Typ | Beschreibung |
|---|---|---|
| inputs |
Die rekursiven Eingaben, die beim Erstellen eines komplexen Typs verwendet werden. |
|
| name |
string |
Der Name der Eingabe. |
| source |
string |
Die Quelle der Eingabe. |
| sourceContext |
string |
Der Quellkontext, der zum Auswählen rekursiver Eingaben verwendet wird. |
KeepTokenFilter
Ein Tokenfilter, der nur Token mit Text enthält, der in einer angegebenen Liste von Wörtern enthalten ist. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| keepWords |
string[] |
Die Liste der Wörter, die aufbewahrt werden sollen. |
|
| keepWordsCase |
boolean |
False |
Ein Wert, der angibt, ob alle Wörter zuerst klein geschrieben werden sollen. Der Standardwert ist "false". |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
KeywordMarkerTokenFilter
Markiert Begriffe als Schlüsselwörter. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben umgewandelt. Der Standardwert ist "false". |
| keywords |
string[] |
Eine Liste von Wörtern, die als Schlüsselwörter markiert werden sollen. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
KeywordTokenizer
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| bufferSize |
integer (int32) |
256 |
Die Größe des Lesepuffers in Bytes. Der Standardwert ist 256. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
KeywordTokenizerV2
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Die maximale Tokenlänge. Der Standardwert ist 256. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
LengthTokenFilter
Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| max |
integer (int32) maximum: 300 |
300 |
Die maximale Länge in Zeichen. Der Standardwert und der Höchstwert ist 300. |
| min |
integer (int32) maximum: 300 |
0 |
Die Mindestlänge in Zeichen. Standard ist "0". Der Höchstwert beträgt 300. Muss kleiner als der Wert von max. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
LexicalAnalyzerName
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| ar.microsoft |
Microsoft Analyzer für Arabisch. |
| ar.lucene |
Lucene-Analysator für Arabisch. |
| hy.lucene |
Lucene-Analysator für Armenisch. |
| bn.microsoft |
Microsoft Analyzer für Bangla. |
| eu.lucene |
Lucene-Analysator für Baskisch. |
| bg.microsoft |
Microsoft Analyzer für Bulgarisch. |
| bg.lucene |
Lucene-Analysator für Bulgarisch. |
| ca.microsoft |
Microsoft Analyzer für Katalanisch. |
| ca.lucene |
Lucene-Analysator für Katalanisch. |
| zh-Hans.microsoft |
Microsoft Analyzer für Chinesisch (vereinfacht). |
| zh-Hans.lucene |
Lucene-Analysator für Chinesisch (vereinfacht). |
| zh-Hant.microsoft |
Microsoft Analyzer für Chinesisch (traditionell). |
| zh-Hant.lucene |
Lucene-Analysator für Chinesisch (traditionell). |
| hr.microsoft |
Microsoft Analyzer für Kroatisch. |
| cs.microsoft |
Microsoft Analyzer für Tschechisch. |
| cs.lucene |
Lucene-Analysator für Tschechisch. |
| da.microsoft |
Microsoft Analyzer für Dänisch. |
| da.lucene |
Lucene-Analysator für Dänisch. |
| nl.microsoft |
Microsoft Analyzer für Niederländisch. |
| nl.lucene |
Lucene-Analysator für Niederländisch. |
| en.microsoft |
Microsoft Analyzer für Englisch. |
| en.lucene |
Lucene-Analysator für Englisch. |
| et.microsoft |
Microsoft Analyzer für Estnisch. |
| fi.microsoft |
Microsoft Analyzer für Finnisch. |
| fi.lucene |
Lucene-Analysator für Finnisch. |
| fr.microsoft |
Microsoft Analyzer für Französisch. |
| fr.lucene |
Lucene-Analysator für Französisch. |
| gl.lucene |
Lucene-Analysator für Galizisch. |
| de.microsoft |
Microsoft Analyzer für Deutsch. |
| de.lucene |
Lucene-Analysator für Deutsch. |
| el.microsoft |
Microsoft Analyzer für Griechisch. |
| el.lucene |
Lucene-Analysator für Griechisch. |
| gu.microsoft |
Microsoft Analyzer für Gujarati. |
| he.microsoft |
Microsoft Analyzer für Hebräisch. |
| hi.microsoft |
Microsoft Analyzer für Hindi. |
| hi.lucene |
Lucene-Analysator für Hindi. |
| hu.microsoft |
Microsoft Analyzer für Ungarisch. |
| hu.lucene |
Lucene-Analysator für Ungarisch. |
| is.microsoft |
Microsoft Analyzer für Isländisch. |
| id.microsoft |
Microsoft Analyzer für Indonesisch (Bahasa). |
| id.lucene |
Lucene-Analysator für Indonesisch. |
| ga.lucene |
Lucene-Analysator für Irisch. |
| it.microsoft |
Microsoft Analyzer für Italienisch. |
| it.lucene |
Lucene-Analysator für Italienisch. |
| ja.microsoft |
Microsoft Analyzer für Japanisch. |
| ja.lucene |
Lucene-Analysator für Japanisch. |
| kn.microsoft |
Microsoft Analyzer für Kannada. |
| ko.microsoft |
Microsoft Analyzer für Koreanisch. |
| ko.lucene |
Lucene-Analysator für Koreanisch. |
| lv.microsoft |
Microsoft Analyzer für Lettisch. |
| lv.lucene |
Lucene-Analysator für Lettisch. |
| lt.microsoft |
Microsoft Analyzer für Litauisch. |
| ml.microsoft |
Microsoft Analyzer für Malayalam. |
| ms.microsoft |
Microsoft Analyzer für Malaiisch (Lateinisch). |
| mr.microsoft |
Microsoft Analyzer für Marathi. |
| nb.microsoft |
Microsoft analyzer für Norwegisch (Bokmål). |
| no.lucene |
Lucene-Analysator für Norwegian. |
| fa.lucene |
Lucene-Analysator für Persisch. |
| pl.microsoft |
Microsoft Analyzer für Polnisch. |
| pl.lucene |
Lucene-Analysator für Polnisch. |
| pt-BR.microsoft |
Microsoft Analyzer für Portugiesisch (Brasilien). |
| pt-BR.lucene |
Lucene-Analysator für Portugiesisch (Brasilien). |
| pt-PT.microsoft |
Microsoft Analyzer für Portugiesisch (Portugal). |
| pt-PT.lucene |
Lucene-Analysator für Portugiesisch (Portugal). |
| pa.microsoft |
Microsoft Analyzer für Punjabi. |
| ro.microsoft |
Microsoft Analyzer für Rumänisch. |
| ro.lucene |
Lucene-Analysator für Rumänisch. |
| ru.microsoft |
Microsoft Analyzer für Russisch. |
| ru.lucene |
Lucene-Analysator für Russisch. |
| sr-cyrillic.microsoft |
Microsoft Analyzer für Serbisch (Kyrillisch). |
| sr-latin.microsoft |
Microsoft Analyzer für Serbisch (Lateinisch). |
| sk.microsoft |
Microsoft Analyzer für Slowakisch. |
| sl.microsoft |
Microsoft Analyzer für Slowenisch. |
| es.microsoft |
Microsoft Analyzer für Spanisch. |
| es.lucene |
Lucene-Analysator für Spanisch. |
| sv.microsoft |
Microsoft Analyzer für Schwedisch. |
| sv.lucene |
Lucene-Analysator für Schwedisch. |
| ta.microsoft |
Microsoft Analyzer für Tamil. |
| te.microsoft |
Microsoft Analyzer für Telugu. |
| th.microsoft |
Microsoft Analyzer für Thai. |
| th.lucene |
Lucene-Analysator für Thai. |
| tr.microsoft |
Microsoft Analyzer für Türkisch. |
| tr.lucene |
Lucene-Analysator für Türkisch. |
| uk.microsoft |
Microsoft Analyzer für Ukrainisch. |
| ur.microsoft |
Microsoft Analyzer für Urdu. |
| vi.microsoft |
Microsoft Analyzer für Vietnamesisch. |
| standard.lucene |
Standardmäßiger Lucene-Analysator. |
| standardasciifolding.lucene |
Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| asciifolding |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
LimitTokenFilter
Begrenzt die Anzahl der Token während der Indizierung. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| consumeAllTokens |
boolean |
False |
Ein Wert, der angibt, ob alle Token aus der Eingabe auch dann verbraucht werden müssen, wenn maxTokenCount erreicht ist. Der Standardwert ist "false". |
| maxTokenCount |
integer (int32) |
1 |
Die maximale Anzahl der zu produzierenden Token. Der Standardwert ist 1. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
LuceneStandardAnalyzer
Standardmäßiger Apache Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| stopwords |
string[] |
Eine Liste von Stoppwörtern. |
LuceneStandardTokenizer
Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxTokenLength |
integer (int32) |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
LuceneStandardTokenizerV2
Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
MagnitudeScoringFunction
Definiert eine Funktion, die die Punktzahl basierend auf der Größe eines numerischen Felds erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt. |
|
| magnitude |
Parameterwerte für die Funktion zur Bewertung des Betrags. |
|
| type |
string:
magnitude |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden. |
MagnitudeScoringParameters
Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingRangeEnd |
number (double) |
Der Feldwert, bei dem das Boosten endet. |
| boostingRangeStart |
number (double) |
Der Feldwert, bei dem das Boosten gestartet wird. |
| constantBoostBeyondRange |
boolean |
Ein Wert, der angibt, ob eine konstante Verstärkung für Feldwerte angewendet werden soll, die über den Endwert des Bereichs hinausgehen. Der Standardwert ist false. |
MappingCharFilter
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Option mappings definiert wurden. Matching ist gierig (das längste Pattern-Matching zu einem bestimmten Zeitpunkt gewinnt). Die Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des char-Filters angibt. |
| mappings |
string[] |
Eine Liste von Zuordnungen im folgenden Format: "a=>b" (alle Vorkommen des Zeichens "a" werden durch das Zeichen "b" ersetzt). |
| name |
string |
Der Name des char-Filters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
MicrosoftLanguageStemmingTokenizer
Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie diesen Wert auf true fest, wenn er als Such-Tokenizer verwendet wird, und auf false, wenn er als Indizierungs-Tokenizer verwendet wird. Der Standardwert ist "false". |
| language |
Die zu verwendende Sprache. Die Standardeinstellung ist Englisch. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der festgelegten maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
MicrosoftLanguageTokenizer
Unterteilt Text nach sprachspezifischen Regeln.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie diesen Wert auf true fest, wenn er als Such-Tokenizer verwendet wird, und auf false, wenn er als Indizierungs-Tokenizer verwendet wird. Der Standardwert ist "false". |
| language |
Die zu verwendende Sprache. Die Standardeinstellung ist Englisch. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der festgelegten maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
MicrosoftStemmingTokenizerLanguage
Listet die Sprachen auf, die vom Microsoft-Tokenizer für die Wortstammerkennung unterstützt werden.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt den Microsoft-Wortstamm-Tokenizer für Arabisch aus. |
| bangla |
Wählt den Microsoft-Stemming-Tokenizer für Bangla aus. |
| bulgarian |
Wählt den Microsoft-Stemming-Tokenizer für Bulgarisch aus. |
| catalan |
Wählt den Microsoft-Stemming-Tokenizer für Katalanisch aus. |
| croatian |
Wählt den Microsoft-Stemming-Tokenizer für Kroatisch aus. |
| czech |
Wählt den Microsoft-Stemming-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Microsoft-Stemming-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Microsoft-Stemming-Tokenizer für Niederländisch aus. |
| english |
Wählt den Microsoft-Wortstamm-Tokenizer für Englisch aus. |
| estonian |
Wählt den Microsoft-Stemming-Tokenizer für Estnisch aus. |
| finnish |
Wählt den Microsoft-Stemming-Tokenizer für Finnisch aus. |
| french |
Wählt den Microsoft-Stemming-Tokenizer für Französisch aus. |
| german |
Wählt den Microsoft-Stemming-Tokenizer für Deutsch aus. |
| greek |
Wählt den Microsoft-Stemming-Tokenizer für Griechisch aus. |
| gujarati |
Wählt den Microsoft-Stemming-Tokenizer für Gujarati aus. |
| hebrew |
Wählt den Microsoft-Stemming-Tokenizer für Hebräisch aus. |
| hindi |
Wählt den Microsoft-Stemming-Tokenizer für Hindi aus. |
| hungarian |
Wählt den Microsoft-Stemming-Tokenizer für Ungarisch aus. |
| icelandic |
Wählt den Microsoft-Stemming-Tokenizer für Isländisch aus. |
| indonesian |
Wählt den Microsoft-Stemming-Tokenizer für Indonesisch aus. |
| italian |
Wählt den Microsoft-Stemming-Tokenizer für Italienisch aus. |
| kannada |
Wählt den Microsoft-Stemming-Tokenizer für Kannada aus. |
| latvian |
Wählt den Microsoft-Stemming-Tokenizer für Lettisch aus. |
| lithuanian |
Wählt den Microsoft-Stemming-Tokenizer für Litauisch aus. |
| malay |
Wählt den Microsoft-Stemming-Tokenizer für Malaiisch aus. |
| malayalam |
Wählt den Microsoft-Stemming-Tokenizer für Malayalam aus. |
| marathi |
Wählt den Microsoft-Stemming-Tokenizer für Marathi aus. |
| norwegianBokmaal |
Wählt den Microsoft-Stemming-Tokenizer für Norwegisch (Bokmål) aus. |
| polish |
Wählt den Microsoft-Stemming-Tokenizer für Polnisch aus. |
| portuguese |
Wählt den Microsoft-Stemming-Tokenizer für Portugiesisch aus. |
| portugueseBrazilian |
Wählt den Microsoft-Stemming-Tokenizer für Portugiesisch (Brasilien) aus. |
| punjabi |
Wählt den Microsoft-Stemming-Tokenizer für Punjabi aus. |
| romanian |
Wählt den Microsoft-Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Microsoft-Stemming-Tokenizer für Russisch aus. |
| serbianCyrillic |
Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Kyrillisch) aus. |
| serbianLatin |
Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Lateinisch) aus. |
| slovak |
Wählt den Microsoft-Stemming-Tokenizer für Slowakisch aus. |
| slovenian |
Wählt den Microsoft-Stemming-Tokenizer für Slowenisch aus. |
| spanish |
Wählt den Microsoft-Stemming-Tokenizer für Spanisch aus. |
| swedish |
Wählt den Microsoft-Stemming-Tokenizer für Schwedisch aus. |
| tamil |
Wählt den Microsoft-Stemming-Tokenizer für Tamil aus. |
| telugu |
Wählt den Microsoft-Stemming-Tokenizer für Telugu aus. |
| turkish |
Wählt den Microsoft-Stemming-Tokenizer für Türkisch aus. |
| ukrainian |
Wählt den Microsoft-Stemming-Tokenizer für Ukrainisch aus. |
| urdu |
Wählt den Microsoft-Wortstamm-Tokenizer für Urdu aus. |
MicrosoftTokenizerLanguage
Listet die Sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden.
| Wert | Beschreibung |
|---|---|
| bangla |
Wählt den Microsoft-Tokenizer für Bangla aus. |
| bulgarian |
Wählt den Microsoft-Tokenizer für Bulgarisch aus. |
| catalan |
Wählt den Microsoft-Tokenizer für Katalanisch aus. |
| chineseSimplified |
Wählt den Microsoft-Tokenizer für Chinesisch (vereinfacht) aus. |
| chineseTraditional |
Wählt den Microsoft-Tokenizer für Chinesisch (traditionell) aus. |
| croatian |
Wählt den Microsoft-Tokenizer für Kroatisch aus. |
| czech |
Wählt den Microsoft-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Microsoft-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Microsoft-Tokenizer für Niederländisch aus. |
| english |
Wählt den Microsoft-Tokenizer für Englisch aus. |
| french |
Wählt den Microsoft-Tokenizer für Französisch aus. |
| german |
Wählt den Microsoft-Tokenizer für Deutsch aus. |
| greek |
Wählt den Microsoft-Tokenizer für Griechisch aus. |
| gujarati |
Wählt den Microsoft-Tokenizer für Gujarati aus. |
| hindi |
Wählt den Microsoft-Tokenizer für Hindi aus. |
| icelandic |
Wählt den Microsoft-Tokenizer für Isländisch aus. |
| indonesian |
Wählt den Microsoft-Tokenizer für Indonesisch aus. |
| italian |
Wählt den Microsoft-Tokenizer für Italienisch aus. |
| japanese |
Wählt den Microsoft-Tokenizer für Japanisch aus. |
| kannada |
Wählt den Microsoft-Tokenizer für Kannada aus. |
| korean |
Wählt den Microsoft-Tokenizer für Koreanisch aus. |
| malay |
Wählt den Microsoft-Tokenizer für Malaiisch aus. |
| malayalam |
Wählt den Microsoft-Tokenizer für Malayalam aus. |
| marathi |
Wählt den Microsoft-Tokenizer für Marathi aus. |
| norwegianBokmaal |
Wählt den Microsoft-Tokenizer für Norwegisch (Bokmål) aus. |
| polish |
Wählt den Microsoft-Tokenizer für Polnisch aus. |
| portuguese |
Wählt den Microsoft-Tokenizer für Portugiesisch aus. |
| portugueseBrazilian |
Wählt den Microsoft-Tokenizer für Portugiesisch (Brasilien) aus. |
| punjabi |
Wählt den Microsoft-Tokenizer für Punjabi aus. |
| romanian |
Wählt den Microsoft-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Microsoft-Tokenizer für Russisch aus. |
| serbianCyrillic |
Wählt den Microsoft-Tokenizer für Serbisch (Kyrillisch) aus. |
| serbianLatin |
Wählt den Microsoft-Tokenizer für Serbisch (Lateinisch) aus. |
| slovenian |
Wählt den Microsoft-Tokenizer für Slowenisch aus. |
| spanish |
Wählt den Microsoft-Tokenizer für Spanisch aus. |
| swedish |
Wählt den Microsoft-Tokenizer für Schwedisch aus. |
| tamil |
Wählt den Microsoft-Tokenizer für Tamil aus. |
| telugu |
Wählt den Microsoft-Tokenizer für Telugu aus. |
| thai |
Wählt den Microsoft-Tokenizer für Thai aus. |
| ukrainian |
Wählt den Microsoft-Tokenizer für Ukrainisch aus. |
| urdu |
Wählt den Microsoft-Tokenizer für Urdu aus. |
| vietnamese |
Wählt den Microsoft-Tokenizer für Vietnamesisch aus. |
NGramTokenFilter
Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| maxGram |
integer (int32) |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. |
| minGram |
integer (int32) |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
NGramTokenFilterV2
Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
NGramTokenizer
Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| tokenChars |
Zeichenklassen, die in den Token aufbewahrt werden sollen. |
OutputFieldMappingEntry
Ausgabefeldzuordnung für einen Skill.
| Name | Typ | Beschreibung |
|---|---|---|
| name |
string |
Der Name der Ausgabe, der durch den Skill definiert wird. |
| targetName |
string |
Der Zielname der Ausgabe. Es ist optional und standardmäßig name. |
PathHierarchyTokenizerV2
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| delimiter |
string (char) |
/ |
Das zu verwendende Trennzeichen. Der Standardwert ist "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Die maximale Tokenlänge. Der Standardwert und der Höchstwert ist 300. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| replacement |
string (char) |
/ |
Ein Wert, der, wenn er festgelegt ist, das Trennzeichen ersetzt. Der Standardwert ist "/". |
| reverse |
boolean |
False |
Ein Wert, der angibt, ob Token in umgekehrter Reihenfolge generiert werden sollen. Der Standardwert ist "false". |
| skip |
integer (int32) |
0 |
Die Anzahl der anfänglichen Token, die übersprungen werden sollen. Standard ist "0". |
PatternAnalyzer
Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Dieser Analysator wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
|
| flags |
Flags für reguläre Ausdrücke. |
||
| lowercase |
boolean |
True |
Ein Wert, der angibt, ob Begriffe in Kleinbuchstaben geschrieben werden sollen. Der Standardwert ist "true". |
| name |
string |
Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt. |
| stopwords |
string[] |
Eine Liste von Stoppwörtern. |
PatternCaptureTokenFilter
Verwendet Java-Regexes, um mehrere Token auszugeben – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| patterns |
string[] |
Eine Liste von Mustern, die mit jedem Token abgeglichen werden sollen. |
|
| preserveOriginal |
boolean |
True |
Ein Wert, der angibt, ob das ursprüngliche Token zurückgegeben werden soll, auch wenn eines der Muster übereinstimmt. Der Standardwert ist "true". |
PatternReplaceCharFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des char-Filters angibt. |
| name |
string |
Der Name des char-Filters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
| pattern |
string |
Ein Muster für reguläre Ausdrücke. |
| replacement |
string |
Der Ersetzungstext. |
PatternReplaceTokenFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
| pattern |
string |
Ein Muster für reguläre Ausdrücke. |
| replacement |
string |
Der Ersetzungstext. |
PatternTokenizer
Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| flags |
Flags für reguläre Ausdrücke. |
||
| group |
integer (int32) |
-1 |
Die nullbasierte Ordinalzahl der übereinstimmenden Gruppe im Muster für reguläre Ausdrücke, die in Token extrahiert werden sollen. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe in Token aufzuteilen, unabhängig von übereinstimmenden Gruppen. Der Standardwert ist -1. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt. |
PhoneticEncoder
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| metaphone |
Codiert ein Token in einen Metaphone-Wert. |
| doubleMetaphone |
Codiert ein Token in einen doppelten Metaphonwert. |
| soundex |
Codiert ein Token in einen Soundex-Wert. |
| refinedSoundex |
Codiert ein Token in einen verfeinerten Soundex-Wert. |
| caverphone1 |
Codiert ein Token in einen Caverphone 1.0-Wert. |
| caverphone2 |
Codiert ein Token in einen Caverphone 2.0-Wert. |
| cologne |
Codiert ein Token in einen Kölner Phonetischen Wert. |
| nysiis |
Codiert ein Token in einen NYSIIS-Wert. |
| koelnerPhonetik |
Codiert ein Token mit dem Kölner Phonetik-Algorithmus. |
| haasePhonetik |
Codiert ein Token mit der Haase-Verfeinerung des Kölner Phonetik-Algorithmus. |
| beiderMorse |
Codiert ein Token in einen Beider-Morse Wert. |
PhoneticTokenFilter
Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| encoder | metaphone |
Der zu verwendende phonetische Encoder. Der Standardwert ist "Metaphone". |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| replace |
boolean |
True |
Ein Wert, der angibt, ob codierte Token die ursprünglichen Token ersetzen sollen. Bei false werden codierte Token als Synonyme hinzugefügt. Der Standardwert ist "true". |
PrioritizedFields
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| prioritizedContentFields |
Definiert die Inhaltsfelder, die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder Text in natürlicher Sprache enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
| prioritizedKeywordsFields |
Definiert die Schlüsselwortfelder, die für die semantische Rangfolge, Bildunterschriften, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder eine Liste von Schlüsselwörtern enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
| titleField |
Definiert das Titelfeld, das für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden soll. Wenn Sie kein Titelfeld in Ihrem Index haben, lassen Sie dieses Feld leer. |
RankingOrder
Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| BoostedRerankerScore |
Legt die Sortierreihenfolge als BoostedRerankerScore fest |
| RerankerScore |
Legt die Sortierreihenfolge als ReRankerScore fest |
RegexFlags
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke in der Musteranalyse und im Mustertokenisierer verwendet werden.
| Wert | Beschreibung |
|---|---|
| CANON_EQ |
Ermöglicht die kanonische Äquivalenz. |
| CASE_INSENSITIVE |
Ermöglicht den Abgleich ohne Berücksichtigung der Groß-/Kleinschreibung. |
| COMMENTS |
Lässt Leerzeichen und Kommentare im Muster zu. |
| DOTALL |
Aktiviert den dotall-Modus. |
| LITERAL |
Aktiviert die literale Analyse des Musters. |
| MULTILINE |
Aktiviert den mehrzeiligen Modus. |
| UNICODE_CASE |
Ermöglicht das Unicode-fähige Falten von Groß- und Kleinschreibung. |
| UNIX_LINES |
Aktiviert den Unix-Zeilenmodus. |
RescoringOptions
Enthält die Optionen für die Neubewertung.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| defaultOversampling |
number (double) |
Standardmäßiger Oversampling-Faktor. Beim Oversampling wird eine größere Anzahl potenzieller Dokumente abgerufen, um den Auflösungsverlust aufgrund der Quantisierung auszugleichen. Dadurch wird die Anzahl der Ergebnisse erhöht, die auf Vektoren mit voller Genauigkeit neu bewertet werden. Der Mindestwert ist 1, d.h. kein Oversampling (1x). Dieser Parameter kann nur gesetzt werden, wenn 'enableRescoring' true ist. Höhere Werte verbessern den Abruf auf Kosten der Latenz. |
|
| enableRescoring |
boolean |
True |
Wenn diese Option auf true festgelegt ist, werden die Ähnlichkeitsbewertungen nach der ersten Suche nach den komprimierten Vektoren mit den Vektoren mit voller Genauigkeit neu berechnet. Dies verbessert den Abruf auf Kosten der Latenz. |
| rescoreStorageMethod | preserveOriginals |
Steuert die Speichermethode für Originalvektoren. Diese Einstellung ist unveränderlich. |
ScalarQuantizationParameters
Enthält die Parameter, die für die skalare Quantisierung spezifisch sind.
| Name | Typ | Beschreibung |
|---|---|---|
| quantizedDataType |
Der quantisierte Datentyp von komprimierten Vektorwerten. |
ScalarQuantizationVectorSearchCompressionConfiguration
Enthält Konfigurationsoptionen, die speziell für die Komprimierungsmethode der skalaren Quantisierung entwickelt wurden, die bei der Indizierung und Abfrage verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| kind |
string:
scalar |
Der Name der Art von Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
| rescoringOptions |
Enthält die Optionen für die Neubewertung. |
|
| scalarQuantizationParameters |
Enthält die Parameter, die für die skalare Quantisierung spezifisch sind. |
|
| truncationDimension |
integer (int32) |
Die Anzahl der Dimensionen, auf die die Vektoren gekürzt werden sollen. Durch das Abschneiden der Vektoren werden die Größe der Vektoren und die Datenmenge, die während der Suche übertragen werden muss, reduziert. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Abrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, wie z. B. OpenAI text-embedding-3-large (small). Der Standardwert ist null, was bedeutet, dass keine Kürzung vorgenommen wird. |
ScoringFunctionAggregation
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.
| Wert | Beschreibung |
|---|---|
| sum |
Steigern Sie die Punktzahl um die Summe aller Ergebnisse der Bewertungsfunktion. |
| average |
Erhöhen Sie die Punktzahl um den Durchschnitt aller Ergebnisse der Bewertungsfunktion. |
| minimum |
Erhöhen Sie die Punktzahl um das Minimum aller Ergebnisse der Bewertungsfunktion. |
| maximum |
Steigern Sie die Punktzahl um das Maximum aller Ergebnisse der Bewertungsfunktion. |
| firstMatching |
Steigern Sie die Punktzahl mit der ersten anwendbaren Bewertungsfunktion im Bewertungsprofil. |
ScoringFunctionInterpolation
Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird.
| Wert | Beschreibung |
|---|---|
| linear |
Erhöht die Punktzahl um einen linear abnehmenden Betrag. Dies ist die Standardinterpolation für Bewertungsfunktionen. |
| constant |
Erhöht die Punktzahl um einen konstanten Faktor. |
| quadratic |
Erhöht die Punktzahl um einen Betrag, der quadratisch abnimmt. Die Boosts nehmen bei höheren Punktzahlen langsam ab und bei sinkenden Punktzahlen schneller. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig. |
| logarithmic |
Erhöht die Punktzahl um einen Betrag, der logarithmisch abnimmt. Boosts nehmen bei höheren Punktzahlen schnell ab und langsamer, wenn die Punktzahl sinkt. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig. |
ScoringProfile
Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen.
| Name | Typ | Beschreibung |
|---|---|---|
| functionAggregation |
Ein Wert, der angibt, wie die Ergebnisse der einzelnen Bewertungsfunktionen kombiniert werden sollen. Der Standardwert ist "Summe". Wird ignoriert, wenn keine Bewertungsfunktionen vorhanden sind. |
|
| functions | ScoringFunction[]: |
Die Sammlung von Funktionen, die die Bewertung von Dokumenten beeinflussen. |
| name |
string |
Der Name des Bewertungsprofils. |
| text |
Parameter, die die Bewertung basierend auf Textübereinstimmungen in bestimmten Indexfeldern verbessern. |
SearchField
Stellt ein Feld in einer Indexdefinition dar, die den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.
| Name | Typ | Beschreibung |
|---|---|---|
| analyzer |
Der Name des Analysetools, das für das Feld verwendet werden soll. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden und kann nicht zusammen mit searchAnalyzer oder indexAnalyzer festgelegt werden. Sobald der Analysator ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Die Dimensionalität des Vektorfeldes. |
| facetable |
boolean |
Ein Wert, der angibt, ob das Feld in Facettenabfragen referenziert werden soll. Wird in der Regel in Anzeigen von Suchergebnissen verwendet, die eine nach Kategorie sortierte Trefferanzahl beinhalten (z. B. werden bei der Suche nach Digitalkameras Treffer nach Marke, Megapixel, Preis usw. angezeigt). Diese Eigenschaft muss für komplexe Felder null sein. Felder vom Typ "Edm.GeographyPoint" oder "Collection(Edm.GeographyPoint)" können nicht facettiert werden. Der Standardwert ist true für alle anderen einfachen Felder. |
| fields |
Eine Liste von Unterfeldern, wenn es sich um ein Feld vom Typ Edm.ComplexType oder Collection(Edm.ComplexType) handelt. Muss für einfache Felder null oder leer sein. |
|
| filterable |
boolean |
Ein Wert, der angibt, ob in $filter Abfragen auf das Feld verwiesen werden soll. Filterable unterscheidet sich von Searchable in der Art und Weise, wie Zeichenfolgen behandelt werden. Felder vom Typ Edm.String oder Collection(Edm.String), die gefiltert werden können, werden nicht durch Wörter getrennt, sodass Vergleiche nur für exakte Übereinstimmungen gelten. Wenn Sie beispielsweise ein solches Feld f auf "sonniger Tag" setzen, findet $filter=f eq 'sonnig' keine Übereinstimmungen, aber $filter=f eq 'sonniger Tag' schon. Diese Eigenschaft muss für komplexe Felder null sein. Der Standardwert ist true für einfache Felder und null für komplexe Felder. |
| indexAnalyzer |
Der Name des Analysetools, das zum Zeitpunkt der Indizierung für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit searchAnalyzer festgelegt werden und kann nicht zusammen mit der Analyzer-Option festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie eine Sprachanalyse benötigen. Sobald der Analysator ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| key |
boolean |
Ein Wert, der angibt, ob das Feld Dokumente im Index eindeutig identifiziert. Es muss genau ein Feld der obersten Ebene in jedem Index als Schlüsselfeld ausgewählt werden, und es muss vom Typ Edm.String sein. Schlüsselfelder können verwendet werden, um Dokumente direkt nachzuschlagen und bestimmte Dokumente zu aktualisieren oder zu löschen. Der Standardwert ist false für einfache Felder und null für komplexe Felder. |
| name |
string |
Der Name des Felds, der innerhalb der fields-Auflistung des Indexes oder übergeordneten Felds eindeutig sein muss. |
| normalizer |
Der Name des Normalisierers, der für das Feld verwendet werden soll. Diese Option kann nur für Felder verwendet werden, für die filterbar, sortierbar oder facettierbar aktiviert ist. Sobald der Normalisierer ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| retrievable |
boolean |
Ein Wert, der angibt, ob das Feld in einem Suchergebnis zurückgegeben werden kann. Sie können diese Option deaktivieren, wenn Sie ein Feld (z. B. margin) als Filter-, Sortier- oder Bewertungsmechanismus verwenden möchten, das Feld jedoch nicht für den Endbenutzer sichtbar sein soll. Diese Eigenschaft muss für Schlüsselfelder true und für komplexe Felder null sein. Diese Eigenschaft kann für vorhandene Felder geändert werden. Das Aktivieren dieser Eigenschaft führt nicht zu einer Erhöhung der Anforderungen an den Indexspeicher. Der Standardwert ist true für einfache Felder, false für Vektorfelder und null für komplexe Felder. |
| searchAnalyzer |
Der Name des Analysetools, der zur Suchzeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit indexAnalyzer festgelegt werden und kann nicht zusammen mit der Option analyzer festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie eine Sprachanalyse benötigen. Dieser Analyzer kann für ein vorhandenes Feld aktualisiert werden. Muss für komplexe Felder null sein. |
|
| searchable |
boolean |
Ein Wert, der angibt, ob das Feld im Volltext durchsucht werden kann. Das bedeutet, dass es während der Indizierung einer Analyse unterzogen wird, wie z. B. einer Worttrennung. Wenn Sie ein durchsuchbares Feld auf einen Wert wie "sonniger Tag" setzen, wird es intern in die einzelnen Token "sonnig" und "tag" aufgeteilt. Dies ermöglicht die Volltextsuche nach diesen Begriffen. Felder vom Typ Edm.String oder Collection(Edm.String) können standardmäßig durchsucht werden. Diese Eigenschaft muss für einfache Felder anderer Datentypen, die keine Zeichenfolgen sind, false und für komplexe Felder null sein. Hinweis: Durchsuchbare Felder belegen zusätzlichen Speicherplatz in Ihrem Index, um zusätzliche tokenisierte Versionen des Feldwerts für die Volltextsuche aufzunehmen. Wenn Sie Platz in Ihrem Index sparen möchten und kein Feld in die Suche einbezogen werden müssen, legen Sie searchable auf false fest. |
| sortable |
boolean |
Ein Wert, der angibt, ob das Feld in $orderby Ausdrücken referenziert werden soll. Standardmäßig sortiert die Suchmaschine die Ergebnisse nach Punktzahl, aber in vielen Fällen möchten Benutzer nach Feldern in den Dokumenten sortieren. Ein einfaches Feld kann nur sortiert werden, wenn es einwertig ist (es hat einen einzelnen Wert im Bereich des übergeordneten Dokuments). Einfache Sammlungsfelder können nicht sortiert werden, da sie mehrwertig sind. Einfache Unterfelder komplexer Auflistungen sind ebenfalls mehrwertig und können daher nicht sortierbar sein. Dies gilt unabhängig davon, ob es sich um ein unmittelbares übergeordnetes Feld oder ein Vorgängerfeld handelt, das die komplexe Auflistung ist. Komplexe Felder können nicht sortierbar sein, und die sortable-Eigenschaft muss für solche Felder null sein. Der Standardwert für sortierbare Felder ist true, für einfache Felder mit einem einzigen Wert, false für einfache Felder mit mehreren Werten und null für komplexe Felder. |
| stored |
boolean |
Ein unveränderlicher Wert, der angibt, ob das Feld separat auf dem Datenträger gespeichert wird, um in einem Suchergebnis zurückgegeben zu werden. Sie können diese Option deaktivieren, wenn Sie nicht vorhaben, den Feldinhalt in einer Suchantwort zurückzugeben, um Speicherplatz zu sparen. Dies kann nur während der Indexerstellung und nur für Vektorfelder eingestellt werden. Diese Eigenschaft kann für vorhandene Felder nicht geändert oder für neue Felder auf false gesetzt werden. Wenn diese Eigenschaft auf false gesetzt ist, muss auch die Eigenschaft 'retrievable' auf false gesetzt werden. Diese Eigenschaft muss für Schlüsselfelder, für neue Felder und für Nicht-Vektorfelder true oder nicht festgelegt sein, und sie muss für komplexe Felder null sein. Durch das Deaktivieren dieser Eigenschaft werden die Anforderungen an den Indexspeicher reduziert. Der Standardwert ist true für Vektorfelder. |
| synonymMaps |
string[] |
Eine Liste der Namen der Synonymzuordnungen, die diesem Feld zugeordnet werden sollen. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Derzeit wird nur eine Synonymzuordnung pro Feld unterstützt. Durch das Zuweisen einer Synonymzuordnung zu einem Feld wird sichergestellt, dass Abfragebegriffe für dieses Feld zum Abfragezeitpunkt mithilfe der Regeln in der Synonymzuordnung erweitert werden. Dieses Attribut kann für vorhandene Felder geändert werden. Muss null oder eine leere Auflistung für komplexe Felder sein. |
| type |
Der Datentyp des Felds. |
|
| vectorEncoding |
Das Codierungsformat zum Interpretieren des Feldinhalts. |
|
| vectorSearchProfile |
string |
Der Name des Vektorsuchprofils, der den Algorithmus und den Vektorisierer angibt, die beim Durchsuchen des Vektorfelds verwendet werden sollen. |
SearchFieldDataType
Definiert den Datentyp eines Feldes in einem Suchindex.
| Wert | Beschreibung |
|---|---|
| Edm.String |
Gibt an, dass ein Feld eine Zeichenfolge enthält. |
| Edm.Int32 |
Gibt an, dass ein Feld eine 32-Bit-Ganzzahl mit Vorzeichen enthält. |
| Edm.Int64 |
Gibt an, dass ein Feld eine 64-Bit-Ganzzahl mit Vorzeichen enthält. |
| Edm.Double |
Gibt an, dass ein Feld eine IEEE-Gleitkommazahl mit doppelter Genauigkeit enthält. |
| Edm.Boolean |
Gibt an, dass ein Feld einen booleschen Wert (true oder false) enthält. |
| Edm.DateTimeOffset |
Gibt an, dass ein Feld einen Datums-/Uhrzeitwert enthält, einschließlich Zeitzoneninformationen. |
| Edm.GeographyPoint |
Gibt an, dass ein Feld einen geografischen Standort in Bezug auf Längen- und Breitengrad enthält. |
| Edm.ComplexType |
Gibt an, dass ein Feld ein oder mehrere komplexe Objekte enthält, die wiederum Unterfelder anderer Typen haben. |
| Edm.Single |
Gibt an, dass ein Feld eine Gleitkommazahl mit einfacher Genauigkeit enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Single) verwendet wird. |
| Edm.Half |
Gibt an, dass ein Feld eine Gleitkommazahl mit halber Genauigkeit enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Half) verwendet wird. |
| Edm.Int16 |
Gibt an, dass ein Feld eine 16-Bit-Ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Int16) verwendet wird. |
| Edm.SByte |
Gibt an, dass ein Feld eine 8-Bit-Ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.SByte) verwendet wird. |
| Edm.Byte |
Gibt an, dass ein Feld eine 8-Bit-Ganzzahl ohne Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Byte) verwendet wird. |
SearchIndex
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.etag |
string |
Das ETag des Index. |
| analyzers | LexicalAnalyzer[]: |
Die Analysetools für den Index. |
| charFilters | CharFilter[]: |
Die Zeichenfilter für den Index. |
| corsOptions |
Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für den Index. |
|
| defaultScoringProfile |
string |
Der Name des zu verwendenden Bewertungsprofils, wenn in der Abfrage keines angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und in der Abfrage kein Bewertungsprofil angegeben ist, wird die Standardbewertung (tf-idf) verwendet. |
| description |
string |
Die Beschreibung des Indexes. |
| encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Ebene der Verschlüsselung ruhender Daten für Ihre Daten bereitzustellen, wenn Sie die vollständige Gewissheit haben möchten, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleiben sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie Ihren Verschlüsselungsschlüssel rotieren möchten. Ihre Daten bleiben davon unberührt. Die Verschlüsselung mit kundenseitig verwalteten Schlüsseln ist für kostenlose Suchdienste nicht verfügbar und nur für kostenpflichtige Dienste, die am oder nach dem 1. Januar 2019 erstellt wurden. |
|
| fields |
Die Felder des Indexes. |
|
| name |
string |
Der Name des Index. |
| normalizers | LexicalNormalizer[]: |
Die Normalisierer für den Index. |
| scoringProfiles |
Die Bewertungsprofile für den Index. |
|
| semantic |
Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen. |
|
| similarity | Similarity: |
Die Art des Ähnlichkeitsalgorithmus, der bei der Bewertung und Rangfolge der Dokumente verwendet werden soll, die einer Suchanfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zum Zeitpunkt der Indexerstellung definiert werden und kann nicht an vorhandenen Indizes geändert werden. Wenn null, wird der ClassicSimilarity-Algorithmus verwendet. |
| suggesters |
Die Vorschläge für den Index. |
|
| tokenFilters |
TokenFilter[]:
|
Das Token filtert nach dem Index. |
| tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
| vectorSearch |
Enthält Konfigurationsoptionen für die Vektorsuche. |
SearchIndexerDataNoneIdentity
Löscht die Identitätseigenschaft einer Datenquelle.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ der Identität angibt. |
SearchIndexerDataUserAssignedIdentity
Gibt die Identität an, die von einer Datenquelle verwendet werden soll.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ der Identität angibt. |
| userAssignedIdentity |
string |
Die vollqualifizierte Azure-Ressourcen-ID einer benutzerseitig zugewiesenen verwalteten Identität, in der Regel im Format "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", die dem Suchdienst hätte zugewiesen werden sollen. |
SearchResourceEncryptionKey
Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.
| Name | Typ | Beschreibung |
|---|---|---|
| accessCredentials |
Optionale Azure Active Directory-Anmeldeinformationen, die für den Zugriff auf Ihren Azure Key Vault verwendet werden. Nicht erforderlich, wenn stattdessen eine verwaltete Identität verwendet wird. |
|
| keyVaultKeyName |
string |
Der Name Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln ruhender Daten verwendet werden soll. |
| keyVaultKeyVersion |
string |
Die Version Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln ruhender Daten verwendet werden soll. |
| keyVaultUri |
string |
Der URI Ihres Azure Key Vault-Postfachs, der auch als DNS-Name bezeichnet wird und den Schlüssel enthält, der zum Verschlüsseln ruhender Daten verwendet werden soll. Ein Beispiel-URI könnte sein |
SemanticConfiguration
Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll.
| Name | Typ | Beschreibung |
|---|---|---|
| name |
string |
Der Name der semantischen Konfiguration. |
| prioritizedFields |
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Mindestens eine der drei Untereigenschaften (titleField, prioritizedKeywordsFields und prioritizedContentFields) muss festgelegt werden. |
|
| rankingOrder |
Gibt den Bewertungstyp an, der für die Sortierreihenfolge der Suchergebnisse verwendet werden soll. |
SemanticField
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| fieldName |
string |
SemanticSettings
Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen.
| Name | Typ | Beschreibung |
|---|---|---|
| configurations |
Die semantischen Konfigurationen für den Index. |
|
| defaultConfiguration |
string |
Ermöglicht es Ihnen, den Namen einer standardmäßigen semantischen Konfiguration in Ihrem Index festzulegen, sodass es optional ist, ihn jedes Mal als Abfrageparameter zu übergeben. |
ShingleTokenFilter
Erstellt Kombinationen von Token als einzelnes Token. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| filterToken |
string |
_ |
Die Zeichenfolge, die für jede Position eingefügt werden soll, an der kein Token vorhanden ist. Der Standardwert ist ein Unterstrich ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Die maximale Schindelgröße. Der Standard- und Mindestwert ist 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Die minimale Schindelgröße. Der Standard- und Mindestwert ist 2. Muss kleiner als der Wert von maxShingleSize sein. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| outputUnigrams |
boolean |
True |
Ein Wert, der angibt, ob der Ausgabestream sowohl die Eingabetoken (Unigramme) als auch die Gürtelrose enthält. Der Standardwert ist "true". |
| outputUnigramsIfNoShingles |
boolean |
False |
Ein Wert, der angibt, ob Unigramme für die Zeiten ausgegeben werden sollen, in denen keine Schindeln verfügbar sind. Diese Eigenschaft hat Vorrang, wenn outputUnigrams auf false festgelegt ist. Der Standardwert ist "false". |
| tokenSeparator |
string |
Die Zeichenfolge, die verwendet werden soll, wenn benachbarte Token zu einer Schindel verbunden werden. Der Standardwert ist ein einzelnes Leerzeichen (" "). |
SnowballTokenFilter
Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
| language |
Die zu verwendende Sprache. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
SnowballTokenFilterLanguage
Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| armenian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Armenisch aus. |
| basque |
Wählt den Lucene Snowball-Stemming-Tokenizer für Baskisch aus. |
| catalan |
Wählt den Lucene Snowball-Stemming-Tokenizer für Katalanisch aus. |
| danish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus. |
| english |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus. |
| finnish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Finnisch aus. |
| french |
Wählt den Lucene Snowball-Stemming-Tokenizer für Französisch aus. |
| german |
Wählt den Lucene Snowball-Stemming-Tokenizer für Deutsch aus. |
| german2 |
Wählt den Lucene Snowball-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
| hungarian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Ungarisch aus. |
| italian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Italienisch aus. |
| kp |
Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet. |
| lovins |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet. |
| norwegian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Norwegisch aus. |
| porter |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Porter-Stemming-Algorithmus verwendet. |
| portuguese |
Wählt den Lucene Snowball-Stemming-Tokenizer für Portugiesisch aus. |
| romanian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Russisch aus. |
| spanish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Spanisch aus. |
| swedish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Schwedisch aus. |
| turkish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Türkisch aus. |
StemmerOverrideTokenFilter
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerdefinierter wörterbuchbasierter Wortstammerkennung zu überschreiben. Alle Begriffe, die im Wörterbuch enthalten sind, werden als Schlüsselwörter markiert, sodass sie nicht mit Stammwörtern in der Kette verknüpft werden. Muss vor allen Stielfiltern platziert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
| rules |
string[] |
Eine Liste von Wortstammregeln im folgenden Format: "Wort => Stamm", z. B.: "ran => run". |
StemmerTokenFilter
Sprachspezifischer Stemming-Filter. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
| language |
Die zu verwendende Sprache. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
StemmerTokenFilterLanguage
Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt den Lucene-Stemming-Tokenizer für Arabisch aus. |
| armenian |
Wählt den Lucene-Stemming-Tokenizer für Armenisch aus. |
| basque |
Wählt den Lucene-Stemming-Tokenizer für Baskisch aus. |
| brazilian |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch (Brasilien) aus. |
| bulgarian |
Wählt den Lucene-Stemming-Tokenizer für Bulgarisch aus. |
| catalan |
Wählt den Lucene-Stemming-Tokenizer für Katalanisch aus. |
| czech |
Wählt den Lucene-Stemming-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Lucene-Stemming-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus. |
| dutchKp |
Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet. |
| english |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus. |
| lightEnglish |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der leichte Wortstammerkennung ausführt. |
| minimalEnglish |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der nur minimale Wortstammerkennung ausführt. |
| possessiveEnglish |
Wählt den Lucene-Stammtokenizer für Englisch aus, der nachfolgende Possessivwörter aus Wörtern entfernt. |
| porter2 |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Porter2-Stemming-Algorithmus verwendet. |
| lovins |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet. |
| finnish |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus. |
| lightFinnish |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus, der Light-Stemming ausführt. |
| french |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus. |
| lightFrench |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der Light-Stemming ausführt. |
| minimalFrench |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der nur minimale Wortstammerkennung ausführt. |
| galician |
Wählt den Lucene-Stemming-Tokenizer für Galizisch aus. |
| minimalGalician |
Wählt den Lucene-Stemming-Tokenizer für Galicisch aus, der nur minimales Stemming ausführt. |
| german |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus. |
| german2 |
Wählt den Lucene-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
| lightGerman |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der Light-Stemming ausführt. |
| minimalGerman |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der nur minimales Stemming ausführt. |
| greek |
Wählt den Lucene-Stemming-Tokenizer für Griechisch aus. |
| hindi |
Wählt den Lucene-Stemming-Tokenizer für Hindi aus. |
| hungarian |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus. |
| lightHungarian |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus, der Light-Stemming ausführt. |
| indonesian |
Wählt den Lucene-Stemming-Tokenizer für Indonesisch aus. |
| irish |
Wählt den Lucene-Stemming-Tokenizer für Irisch aus. |
| italian |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus. |
| lightItalian |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus, der leichte Wortstammerkennung ausführt. |
| sorani |
Wählt den Lucene-Stemming-Tokenizer für Sorani aus. |
| latvian |
Wählt den Lucene-Stemming-Tokenizer für Lettisch aus. |
| norwegian |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus. |
| lightNorwegian |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der Light-Stemming ausführt. |
| minimalNorwegian |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der nur minimales Stemming ausführt. |
| lightNynorsk |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der leichte Wortstammerkennung ausführt. |
| minimalNynorsk |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der nur minimale Wortstammerkennung ausführt. |
| portuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus. |
| lightPortuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der leichte Wortstammerkennung ausführt. |
| minimalPortuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der nur minimale Wortstammerkennung ausführt. |
| portugueseRslp |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der den RSLP-Stemming-Algorithmus verwendet. |
| romanian |
Wählt den Lucene-Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus. |
| lightRussian |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus, der Light-Stemming ausführt. |
| spanish |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus. |
| lightSpanish |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus, der leichte Wortstammerkennung ausführt. |
| swedish |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus. |
| lightSwedish |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus, der leichte Wortstammerkennung ausführt. |
| turkish |
Wählt den Lucene-Stemming-Tokenizer für Türkisch aus. |
StopAnalyzer
Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Dieser Analysator wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
| name |
string |
Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
| stopwords |
string[] |
Eine Liste von Stoppwörtern. |
StopwordsList
Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt die Stoppwortliste für Arabisch aus. |
| armenian |
Wählt die Stoppwortliste für Armenisch aus. |
| basque |
Wählt die Stoppwortliste für Baskisch aus. |
| brazilian |
Wählt die Stoppwortliste für Portugiesisch (Brasilien) aus. |
| bulgarian |
Wählt die Stoppwortliste für Bulgarisch aus. |
| catalan |
Wählt die Stoppwortliste für Katalanisch aus. |
| czech |
Wählt die Stoppwortliste für Tschechisch aus. |
| danish |
Wählt die Stoppwortliste für Dänisch aus. |
| dutch |
Wählt die Stoppwortliste für Niederländisch aus. |
| english |
Wählt die Stoppwortliste für Englisch aus. |
| finnish |
Wählt die Stoppwortliste für Finnisch aus. |
| french |
Wählt die Stoppwortliste für Französisch aus. |
| galician |
Wählt die Stoppwortliste für Galizisch aus. |
| german |
Wählt die Stoppwortliste für Deutsch aus. |
| greek |
Wählt die Stoppwortliste für Griechisch aus. |
| hindi |
Wählt die Stoppwortliste für Hindi aus. |
| hungarian |
Wählt die Stoppwortliste für Ungarisch aus. |
| indonesian |
Wählt die Stoppwortliste für Indonesisch aus. |
| irish |
Wählt die Stoppwortliste für Irisch aus. |
| italian |
Wählt die Stoppwortliste für Italienisch aus. |
| latvian |
Wählt die Stoppwortliste für Lettisch aus. |
| norwegian |
Wählt die Stoppwortliste für Norwegisch aus. |
| persian |
Wählt die Stoppwortliste für Persisch aus. |
| portuguese |
Wählt die Stoppwortliste für Portugiesisch aus. |
| romanian |
Wählt die Stoppwortliste für Rumänisch aus. |
| russian |
Wählt die Stoppwortliste für Russisch aus. |
| sorani |
Wählt die Stoppwortliste für Sorani aus. |
| spanish |
Wählt die Stoppwortliste für Spanisch aus. |
| swedish |
Wählt die Stoppwortliste für Schwedisch aus. |
| thai |
Wählt die Stoppwortliste für Thai aus. |
| turkish |
Wählt die Stoppwortliste für Türkisch aus. |
StopwordsTokenFilter
Entfernt Stoppwörter aus einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben umgewandelt. Der Standardwert ist "false". |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| removeTrailing |
boolean |
True |
Ein Wert, der angibt, ob der letzte Suchbegriff ignoriert werden soll, wenn es sich um ein Stoppwort handelt. Der Standardwert ist "true". |
| stopwords |
string[] |
Die Liste der Stoppwörter. Diese Eigenschaft und die Eigenschaft Stoppwortliste können nicht beide festgelegt werden. |
|
| stopwordsList | english |
Eine vordefinierte Liste von Stoppwörtern, die verwendet werden sollen. Diese Eigenschaft und die stopwords-Eigenschaft können nicht beide festgelegt werden. Der Standardwert ist Englisch. |
Suggester
Definiert, wie die Suggest-API auf eine Gruppe von Feldern im Index angewendet werden soll.
| Name | Typ | Beschreibung |
|---|---|---|
| name |
string |
Der Name des Vorschlagsers. |
| searchMode |
Ein Wert, der die Funktionen des Vorschlags angibt. |
|
| sourceFields |
string[] |
Die Liste der Feldnamen, auf die die Vorschlagsfunktion angewendet wird. Jedes Feld muss durchsuchbar sein. |
SuggesterSearchMode
Ein Wert, der die Funktionen des Vorschlags angibt.
| Wert | Beschreibung |
|---|---|
| analyzingInfixMatching |
Stimmt mit aufeinanderfolgenden ganzen Begriffen und Präfixen in einem Feld überein. Für das Feld "Der schnellste Braunfuchs" würden z. B. die Abfragen "schnell" und "schnellste Braue" übereinstimmen. |
SynonymTokenFilter
Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| expand |
boolean |
True |
Ein Wert, der angibt, ob alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) aufeinander abgebildet werden. Wenn true, werden alle Wörter in der Liste der Synonyme (if => Notation wird nicht verwendet) aufeinander abgebildet. Die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich ist gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich, unglaublich, fabelhaft, erstaunlich. Wenn falsch, entspricht die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich incredible, unglaublich, fabulous, amazing => unglaublich. Der Standardwert ist "true". |
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Eingabe für den Abgleich in Groß-/Kleinschreibung gefaltet werden soll. Der Standardwert ist "false". |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| synonyms |
string[] |
Eine Liste von Synonymen in einem von zwei Formaten: 1. unglaublich, unglaublich, fabelhaft => erstaunlich - alle Begriffe auf der linken Seite des => -Symbols werden durch alle Begriffe auf der rechten Seite ersetzt; 2. Unglaublich, unglaublich, fabelhaft, erstaunlich - durch Kommas getrennte Liste gleichwertiger Wörter. Legen Sie die Option "Erweitern" fest, um zu ändern, wie diese Liste interpretiert wird. |
TagScoringFunction
Definiert eine Funktion, die die Punktzahl von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt. |
|
| tag |
Parameterwerte für die Tag-Scoring-Funktion. |
|
| type |
string:
tag |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden. |
TagScoringParameters
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| tagsParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um die Liste der Tags anzugeben, die mit dem Zielfeld verglichen werden sollen. |
TextWeights
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen verbessern sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| weights |
object |
Das Wörterbuch der Gewichtungen pro Feld, um die Bewertung von Dokumenten zu verbessern. Die Schlüssel sind Feldnamen und die Werte sind die Gewichtungen für jedes Feld. |
TokenCharacterKind
Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann.
| Wert | Beschreibung |
|---|---|
| letter |
Bewahrt Buchstaben in Token auf. |
| digit |
Speichert Ziffern in Token. |
| whitespace |
Behält Leerzeichen in Token bei. |
| punctuation |
Behält die Interpunktion in Token bei. |
| symbol |
Behält Symbole in Token bei. |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
TruncateTokenFilter
Kürzt die Begriffe auf eine bestimmte Länge. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| length |
integer (int32) maximum: 300 |
300 |
Die Länge, bei der Begriffe abgeschnitten werden. Der Standardwert und der Höchstwert ist 300. |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
UaxUrlEmailTokenizer
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
UniqueTokenFilter
Filtert Token mit demselben Text wie das vorherige Token heraus. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| onlyOnSamePosition |
boolean |
False |
Ein Wert, der angibt, ob Duplikate nur an derselben Position entfernt werden sollen. Der Standardwert ist "false". |
VectorEncodingFormat
Das Codierungsformat für die Interpretation von Vektorfeldinhalten.
| Wert | Beschreibung |
|---|---|
| packedBit |
Codierungsformat, das Bits darstellt, die in einen breiteren Datentyp gepackt sind. |
VectorSearch
Enthält Konfigurationsoptionen für die Vektorsuche.
| Name | Typ | Beschreibung |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Enthält Konfigurationsoptionen, die für den Algorithmus spezifisch sind, der während der Indizierung oder Abfrage verwendet wird. |
| compressions | VectorSearchCompressionConfiguration[]: |
Enthält Konfigurationsoptionen, die für die Komprimierungsmethode spezifisch sind, die während der Indizierung oder Abfrage verwendet wird. |
| profiles |
Definiert Kombinationen von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
| vectorizers | VectorSearchVectorizer[]: |
Enthält Konfigurationsoptionen zum Vektorisieren von Textvektorabfragen. |
VectorSearchAlgorithmKind
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.
| Wert | Beschreibung |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), eine Art Algorithmus für ungefähre nächste Nachbarn. |
| exhaustiveKnn |
Umfassender KNN-Algorithmus, der eine Brute-Force-Suche durchführt. |
VectorSearchAlgorithmMetric
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde.
| Wert | Beschreibung |
|---|---|
| cosine |
Misst den Winkel zwischen Vektoren, um ihre Ähnlichkeit zu quantifizieren, ohne Berücksichtigung der Größe. Je kleiner der Winkel, desto größer die Ähnlichkeit. |
| euclidean |
Berechnet den geradlinigen Abstand zwischen Vektoren in einem mehrdimensionalen Raum. Je kleiner der Abstand, desto größer die Ähnlichkeit. |
| dotProduct |
Berechnet die Summe der elementweisen Produkte, um die Ausrichtung und die Ähnlichkeit des Betrags zu messen. Je größer und positiver, desto größer die Ähnlichkeit. |
| hamming |
Gilt nur für binäre Datentypen mit Bitpackung. Bestimmt die Unähnlichkeit, indem unterschiedliche Positionen in binären Vektoren gezählt werden. Je weniger Unterschiede, desto größer ist die Ähnlichkeit. |
VectorSearchCompressionKind
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird.
| Wert | Beschreibung |
|---|---|
| scalarQuantization |
Skalare Quantisierung, eine Art von Kompressionsmethode. Bei der skalaren Quantisierung werden die ursprünglichen Vektorwerte auf einen schmaleren Typ komprimiert, indem jede Komponente eines Vektors mit einem reduzierten Satz quantisierter Werte diskretisiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird. |
| binaryQuantization |
Binäre Quantisierung, eine Art Kompressionsmethode. Bei der binären Quantisierung werden die ursprünglichen Vektorwerte auf den engeren binären Typ komprimiert, indem jede Komponente eines Vektors mit Binärwerten diskretisiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird. |
VectorSearchCompressionRescoreStorageMethod
Die Speichermethode für die ursprünglichen Vektoren mit voller Genauigkeit, die für die Neubewertung und interne Indexvorgänge verwendet werden.
| Wert | Beschreibung |
|---|---|
| preserveOriginals |
Mit dieser Option werden die ursprünglichen Vektoren mit voller Genauigkeit beibehalten. Wählen Sie diese Option für maximale Flexibilität und höchste Qualität der komprimierten Suchergebnisse. Dies verbraucht mehr Speicherplatz, ermöglicht aber eine Neubewertung und Überabtastung. |
| discardOriginals |
Mit dieser Option werden die ursprünglichen Vektoren mit voller Genauigkeit verworfen. Wählen Sie diese Option aus, um maximale Speichereinsparungen zu erzielen. Da diese Option keine Neubewertung und Überstichprobenerstellung zulässt, führt dies häufig zu leichten bis mäßigen Qualitätseinbußen. |
VectorSearchCompressionTargetDataType
Der quantisierte Datentyp von komprimierten Vektorwerten.
| Wert | Beschreibung |
|---|---|
| int8 |
VectorSearchProfile
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| algorithm |
string |
Der Name der Konfiguration des Vektorsuchalgorithmus, die den Algorithmus und optionale Parameter angibt. |
| compression |
string |
Der Name der Konfiguration der Komprimierungsmethode, die die Komprimierungsmethode und optionale Parameter angibt. |
| name |
string |
Der Name, der mit diesem bestimmten Vektorsuchprofil verknüpft werden soll. |
| vectorizer |
string |
Der Name der Vektorisierung, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
VectorSearchVectorizerKind
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| azureOpenAI |
Generieren Sie Einbettungen mithilfe einer Azure OpenAI-Ressource zur Abfragezeit. |
| customWebApi |
Generieren Sie Einbettungen mit einem benutzerdefinierten Webendpunkt zur Abfragezeit. |
WebApiParameters
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an.
| Name | Typ | Beschreibung |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. Wenn eine authResourceId angegeben und nicht angegeben wird, wird die systemseitig zugewiesene verwaltete Identität verwendet. Wenn bei Aktualisierungen des Indexers die Identität nicht angegeben ist, bleibt der Wert unverändert. Wenn der Wert auf "none" festgelegt ist, wird der Wert dieser Eigenschaft gelöscht. |
| authResourceId |
string |
Gilt für benutzerdefinierte Endpunkte, die eine Verbindung mit externem Code in einer Azure-Funktion oder einer anderen Anwendung herstellen, die die Transformationen bereitstellt. Bei diesem Wert sollte es sich um die Anwendungs-ID handeln, die für die Funktion oder App erstellt wurde, als sie bei Azure Active Directory registriert wurde. Wenn angegeben, stellt die Vektorisierung eine Verbindung mit der Funktion oder App her, indem sie eine verwaltete ID (entweder system- oder benutzerseitig zugewiesen) des Suchdiensts und das Zugriffstoken der Funktion oder App verwendet, wobei dieser Wert als Ressourcen-ID zum Erstellen des Bereichs des Zugriffstokens verwendet wird. |
| httpHeaders |
object |
Die Header, die zum Ausführen der HTTP-Anforderung erforderlich sind. |
| httpMethod |
string |
Die Methode für die HTTP-Anforderung. |
| timeout |
string (duration) |
Die gewünschte Zeitüberschreitung für die Anforderung. Der Standardwert ist „30 Sekunden“. |
| uri |
string (uri) |
Der URI der Web-API, die den Vektorisierer bereitstellt. |
WebApiVectorizer
Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets.
| Name | Typ | Beschreibung |
|---|---|---|
| customWebApiParameters |
Gibt die Eigenschaften des benutzerdefinierten Vektorisierers an. |
|
| kind |
string:
custom |
Der Name der Art von Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
| name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
WordDelimiterTokenFilter
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch. Dieser Token-Filter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
| catenateAll |
boolean |
False |
Ein Wert, der angibt, ob alle Teilwortteile verkettet werden. Wenn dies z. B. auf true festgelegt ist, wird "Azure-Search-1" zu "AzureSearch1". Der Standardwert ist "false". |
| catenateNumbers |
boolean |
False |
Ein Wert, der angibt, ob maximale Durchläufe von Zahlenteilen verkettet werden. Wenn dies z. B. auf "true" festgelegt ist, wird "1-2" zu "12". Der Standardwert ist "false". |
| catenateWords |
boolean |
False |
Ein Wert, der angibt, ob maximale Durchläufe von Wortteilen verkettet werden. Wenn dies z. B. auf "true" festgelegt ist, wird "Azure-Search" zu "AzureSearch". Der Standardwert ist "false". |
| generateNumberParts |
boolean |
True |
Ein Wert, der angibt, ob Zahlen-Unterwörter generiert werden sollen. Der Standardwert ist "true". |
| generateWordParts |
boolean |
True |
Ein Wert, der angibt, ob Teilwörter generiert werden sollen. Falls gesetzt, werden Teile von Wörtern generiert; z. B. wird "AzureSearch" zu "Azure", "Search". Der Standardwert ist "true". |
| name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. |
|
| preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob die ursprünglichen Wörter beibehalten und der Unterwortliste hinzugefügt werden. Der Standardwert ist "false". |
| protectedWords |
string[] |
Eine Liste von Token, die vor Einschränkungen geschützt werden sollen. |
|
| splitOnCaseChange |
boolean |
True |
Ein Wert, der angibt, ob Wörter bei caseChange aufgeteilt werden sollen. Wenn dies z. B. auf "true" festgelegt ist, wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist "true". |
| splitOnNumerics |
boolean |
True |
Ein Wert, der angibt, ob nach Zahlen geteilt werden soll. Wenn dies z. B. auf true festgelegt ist, wird "Azure1Search" zu "Azure" "1" "Search". Der Standardwert ist "true". |
| stemEnglishPossessive |
boolean |
True |
Ein Wert, der angibt, ob das nachfolgende "'s" für jedes Unterwort entfernt werden soll. Der Standardwert ist "true". |