Freigeben über


Indexes - Create

Erstellt einen neuen Suchindex.

POST {endpoint}/indexes?api-version=2025-09-01

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Die Endpunkt-URL des Suchdiensts.

api-version
query True

string

Client-API-Version.

Anforderungsheader

Name Erforderlich Typ Beschreibung
x-ms-client-request-id

string (uuid)

Die Nachverfolgungs-ID, die mit der Anforderung gesendet wird, um das Debuggen zu unterstützen.

Anforderungstext

Name Erforderlich Typ Beschreibung
fields True

SearchField[]

Die Felder des Indexes.

name True

string

Der Name des Index.

@odata.etag

string

Das ETag des Index.

analyzers LexicalAnalyzer[]:

Die Analysetools für den Index.

charFilters CharFilter[]:

Die Zeichenfilter für den Index.

corsOptions

CorsOptions

Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für den Index.

defaultScoringProfile

string

Der Name des zu verwendenden Bewertungsprofils, wenn in der Abfrage keines angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und in der Abfrage kein Bewertungsprofil angegeben ist, wird die Standardbewertung (tf-idf) verwendet.

description

string

Die Beschreibung des Indexes.

encryptionKey

SearchResourceEncryptionKey

Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Ebene der Verschlüsselung ruhender Daten für Ihre Daten bereitzustellen, wenn Sie die vollständige Gewissheit haben möchten, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleiben sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie Ihren Verschlüsselungsschlüssel rotieren möchten. Ihre Daten bleiben davon unberührt. Die Verschlüsselung mit kundenseitig verwalteten Schlüsseln ist für kostenlose Suchdienste nicht verfügbar und nur für kostenpflichtige Dienste, die am oder nach dem 1. Januar 2019 erstellt wurden.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Die Normalisierer für den Index.

scoringProfiles

ScoringProfile[]

Die Bewertungsprofile für den Index.

semantic

SemanticSettings

Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen.

similarity Similarity:

Die Art des Ähnlichkeitsalgorithmus, der bei der Bewertung und Rangfolge der Dokumente verwendet werden soll, die einer Suchanfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zum Zeitpunkt der Indexerstellung definiert werden und kann nicht an vorhandenen Indizes geändert werden. Wenn null, wird der ClassicSimilarity-Algorithmus verwendet.

suggesters

Suggester[]

Die Vorschläge für den Index.

tokenFilters TokenFilter[]:

Das Token filtert nach dem Index.

tokenizers LexicalTokenizer[]:

Die Tokenizer für den Index.

vectorSearch

VectorSearch

Enthält Konfigurationsoptionen für die Vektorsuche.

Antworten

Name Typ Beschreibung
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Fehlerantwort.

Beispiele

SearchServiceCreateIndex

Beispielanforderung

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Beispiel für eine Antwort

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Definitionen

Name Beschreibung
AsciiFoldingTokenFilter

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Dieser Token-Filter wird mit Apache Lucene implementiert.

AzureActiveDirectoryApplicationCredentials

Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird.

AzureOpenAIEmbeddingSkill

Ermöglicht das Generieren einer Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource.

AzureOpenAIModelName

Der Name des Azure Open AI-Modells, der aufgerufen wird.

AzureOpenAIParameters

Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.

AzureOpenAIVectorizer

Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.

BinaryQuantizationVectorSearchCompressionConfiguration

Enthält Konfigurationsoptionen, die für die binäre Quantisierungskomprimierungsmethode spezifisch sind, die während der Indizierung und Abfrage verwendet wird.

BM25Similarity

Ranking-Funktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der sowohl die Längennormalisierung (gesteuert durch den 'b'-Parameter) als auch die Termfrequenzsättigung (gesteuert durch den 'k1'-Parameter) umfasst.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

CjkBigramTokenFilter

Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

CjkBigramTokenFilterScripts

Skripts, die von CjkBigramTokenFilter ignoriert werden können.

ClassicSimilarity

Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation der TF-IDF führt zu einer statischen Normalisierung der Dokumentlänge sowie zu koordinierenden Faktoren, die Dokumente benachteiligen, die nur teilweise mit den gesuchten Abfragen übereinstimmen.

ClassicTokenizer

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert.

CommonGramTokenFilter

Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

CorsOptions

Definiert Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für einen Index.

CustomAnalyzer

Ermöglicht es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indexierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter für die Änderung von Token verantwortlich, die vom Tokenizer ausgegeben werden.

CustomNormalizer

Ermöglicht das Konfigurieren der Normalisierung für filterbare, sortierbare und facettierbare Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Hierbei handelt es sich um eine benutzerdefinierte Konfiguration, die aus mindestens einem oder mehreren Filtern besteht, die das gespeicherte Token ändern.

DictionaryDecompounderTokenFilter

Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Token-Filter wird mit Apache Lucene implementiert.

DistanceScoringFunction

Definiert eine Funktion, die die Punktzahl basierend auf der Entfernung von einem geografischen Standort erhöht.

DistanceScoringParameters

Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.

EdgeNGramTokenFilter

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.

EdgeNGramTokenFilterSide

Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll.

EdgeNGramTokenFilterV2

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.

EdgeNGramTokenizer

Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.

ElisionTokenFilter

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Dieser Token-Filter wird mit Apache Lucene implementiert.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

ErrorDetail

Das Fehlerdetails.

ErrorResponse

Fehlerantwort

ExhaustiveKnnParameters

Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Enthält Konfigurationsoptionen, die speziell für den umfassenden KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird und eine Brute-Force-Suche über den gesamten Vektorindex durchführt.

FreshnessScoringFunction

Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datums-/Uhrzeitfelds erhöht.

FreshnessScoringParameters

Stellt Parameterwerte für eine Funktion zur Bewertung der Aktualität bereit.

HnswParameters

Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind.

HnswVectorSearchAlgorithmConfiguration

Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.

InputFieldMappingEntry

Zuordnung von Eingabefeldern für einen Skill.

KeepTokenFilter

Ein Tokenfilter, der nur Token mit Text enthält, der in einer angegebenen Liste von Wörtern enthalten ist. Dieser Token-Filter wird mit Apache Lucene implementiert.

KeywordMarkerTokenFilter

Markiert Begriffe als Schlüsselwörter. Dieser Token-Filter wird mit Apache Lucene implementiert.

KeywordTokenizer

Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.

KeywordTokenizerV2

Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.

LengthTokenFilter

Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Token-Filter wird mit Apache Lucene implementiert.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

LimitTokenFilter

Begrenzt die Anzahl der Token während der Indizierung. Dieser Token-Filter wird mit Apache Lucene implementiert.

LuceneStandardAnalyzer

Standardmäßiger Apache Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter.

LuceneStandardTokenizer

Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.

LuceneStandardTokenizerV2

Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.

MagnitudeScoringFunction

Definiert eine Funktion, die die Punktzahl basierend auf der Größe eines numerischen Felds erhöht.

MagnitudeScoringParameters

Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit.

MappingCharFilter

Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Option mappings definiert wurden. Matching ist gierig (das längste Pattern-Matching zu einem bestimmten Zeitpunkt gewinnt). Die Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.

MicrosoftLanguageStemmingTokenizer

Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen.

MicrosoftLanguageTokenizer

Unterteilt Text nach sprachspezifischen Regeln.

MicrosoftStemmingTokenizerLanguage

Listet die Sprachen auf, die vom Microsoft-Tokenizer für die Wortstammerkennung unterstützt werden.

MicrosoftTokenizerLanguage

Listet die Sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden.

NGramTokenFilter

Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.

NGramTokenFilterV2

Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.

NGramTokenizer

Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.

OutputFieldMappingEntry

Ausgabefeldzuordnung für einen Skill.

PathHierarchyTokenizerV2

Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert.

PatternAnalyzer

Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Dieser Analysator wird mit Apache Lucene implementiert.

PatternCaptureTokenFilter

Verwendet Java-Regexes, um mehrere Token auszugeben – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Token-Filter wird mit Apache Lucene implementiert.

PatternReplaceCharFilter

Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.

PatternReplaceTokenFilter

Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Token-Filter wird mit Apache Lucene implementiert.

PatternTokenizer

Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.

PhoneticEncoder

Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.

PhoneticTokenFilter

Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Token-Filter wird mit Apache Lucene implementiert.

PrioritizedFields

Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.

RankingOrder

Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll.

RegexFlags

Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke in der Musteranalyse und im Mustertokenisierer verwendet werden.

RescoringOptions

Enthält die Optionen für die Neubewertung.

ScalarQuantizationParameters

Enthält die Parameter, die für die skalare Quantisierung spezifisch sind.

ScalarQuantizationVectorSearchCompressionConfiguration

Enthält Konfigurationsoptionen, die speziell für die Komprimierungsmethode der skalaren Quantisierung entwickelt wurden, die bei der Indizierung und Abfrage verwendet wird.

ScoringFunctionAggregation

Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.

ScoringFunctionInterpolation

Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird.

ScoringProfile

Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen.

SearchField

Stellt ein Feld in einer Indexdefinition dar, die den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.

SearchFieldDataType

Definiert den Datentyp eines Feldes in einem Suchindex.

SearchIndex

Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.

SearchIndexerDataNoneIdentity

Löscht die Identitätseigenschaft einer Datenquelle.

SearchIndexerDataUserAssignedIdentity

Gibt die Identität an, die von einer Datenquelle verwendet werden soll.

SearchResourceEncryptionKey

Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.

SemanticConfiguration

Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll.

SemanticField

Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.

SemanticSettings

Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen.

ShingleTokenFilter

Erstellt Kombinationen von Token als einzelnes Token. Dieser Token-Filter wird mit Apache Lucene implementiert.

SnowballTokenFilter

Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Dieser Token-Filter wird mit Apache Lucene implementiert.

SnowballTokenFilterLanguage

Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll.

StemmerOverrideTokenFilter

Bietet die Möglichkeit, andere Wortstammfilter mit benutzerdefinierter wörterbuchbasierter Wortstammerkennung zu überschreiben. Alle Begriffe, die im Wörterbuch enthalten sind, werden als Schlüsselwörter markiert, sodass sie nicht mit Stammwörtern in der Kette verknüpft werden. Muss vor allen Stielfiltern platziert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

StemmerTokenFilter

Sprachspezifischer Stemming-Filter. Dieser Token-Filter wird mit Apache Lucene implementiert.

StemmerTokenFilterLanguage

Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll.

StopAnalyzer

Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Dieser Analysator wird mit Apache Lucene implementiert.

StopwordsList

Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an.

StopwordsTokenFilter

Entfernt Stoppwörter aus einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.

Suggester

Definiert, wie die Suggest-API auf eine Gruppe von Feldern im Index angewendet werden soll.

SuggesterSearchMode

Ein Wert, der die Funktionen des Vorschlags angibt.

SynonymTokenFilter

Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.

TagScoringFunction

Definiert eine Funktion, die die Punktzahl von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen.

TagScoringParameters

Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.

TextWeights

Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen verbessern sollen.

TokenCharacterKind

Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

TruncateTokenFilter

Kürzt die Begriffe auf eine bestimmte Länge. Dieser Token-Filter wird mit Apache Lucene implementiert.

UaxUrlEmailTokenizer

Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert.

UniqueTokenFilter

Filtert Token mit demselben Text wie das vorherige Token heraus. Dieser Token-Filter wird mit Apache Lucene implementiert.

VectorEncodingFormat

Das Codierungsformat für die Interpretation von Vektorfeldinhalten.

VectorSearch

Enthält Konfigurationsoptionen für die Vektorsuche.

VectorSearchAlgorithmKind

Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.

VectorSearchAlgorithmMetric

Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde.

VectorSearchCompressionKind

Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird.

VectorSearchCompressionRescoreStorageMethod

Die Speichermethode für die ursprünglichen Vektoren mit voller Genauigkeit, die für die Neubewertung und interne Indexvorgänge verwendet werden.

VectorSearchCompressionTargetDataType

Der quantisierte Datentyp von komprimierten Vektorwerten.

VectorSearchProfile

Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.

VectorSearchVectorizerKind

Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.

WebApiParameters

Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an.

WebApiVectorizer

Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets.

WordDelimiterTokenFilter

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch. Dieser Token-Filter wird mit Apache Lucene implementiert.

AsciiFoldingTokenFilter

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

preserveOriginal

boolean

False

Ein Wert, der angibt, ob das ursprüngliche Token beibehalten wird. Der Standardwert ist "false".

AzureActiveDirectoryApplicationCredentials

Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird.

Name Typ Beschreibung
applicationId

string

Eine AAD-Anwendungs-ID, der die erforderlichen Zugriffsberechtigungen für Azure Key Vault erteilt wurden, die beim Verschlüsseln ruhender Daten verwendet werden soll. Die Anwendungs-ID sollte nicht mit der Objekt-ID für Ihre AAD-Anwendung verwechselt werden.

applicationSecret

string

Der Authentifizierungsschlüssel der angegebenen AAD-Anwendung.

AzureOpenAIEmbeddingSkill

Ermöglicht das Generieren einer Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Ein URI-Fragment, das den Typ des Skills angibt.

apiKey

string

API-Schlüssel der angegebenen Azure OpenAI-Ressource.

authIdentity SearchIndexerDataIdentity:

Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird.

context

string

Stellt die Ebene dar, auf der Vorgänge ausgeführt werden, z. B. der Dokumentstamm oder der Dokumentinhalt (z. B. /document oder /document/content). Der Standardwert ist /document.

deploymentId

string

ID der Bereitstellung des Azure OpenAI-Modells für die angegebene Ressource.

description

string

Die Beschreibung des Skills, die die Eingaben, Ausgaben und die Verwendung des Skills beschreibt.

dimensions

integer (int32)

Die Anzahl der Dimensionen, die die resultierenden Ausgabeeinbettungen aufweisen sollen. Wird nur in text-embedding-3 und höheren Modellen unterstützt.

inputs

InputFieldMappingEntry[]

Bei der Eingabe der Fertigkeiten kann es sich um eine Spalte im Quelldatensatz oder um die Ausgabe einer vorgelagerten Fertigkeit handeln.

modelName

AzureOpenAIModelName

Der Name des Einbettungsmodells, das unter dem angegebenen deploymentId-Pfad bereitgestellt wird.

name

string

Der Name des Skills, der ihn innerhalb des Skillssets eindeutig identifiziert. Ein Skill, für den kein Name definiert ist, erhält einen Standardnamen seines 1-basierten Index im skills-Array mit dem Präfix "#".

outputs

OutputFieldMappingEntry[]

Die Ausgabe eines Skills ist entweder ein Feld in einem Suchindex oder ein Wert, der von einem anderen Skill als Eingabe verwendet werden kann.

resourceUri

string (uri)

Der Ressourcen-URI der Azure OpenAI-Ressource.

AzureOpenAIModelName

Der Name des Azure Open AI-Modells, der aufgerufen wird.

Wert Beschreibung
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.

Name Typ Beschreibung
apiKey

string

API-Schlüssel der angegebenen Azure OpenAI-Ressource.

authIdentity SearchIndexerDataIdentity:

Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird.

deploymentId

string

ID der Bereitstellung des Azure OpenAI-Modells für die angegebene Ressource.

modelName

AzureOpenAIModelName

Der Name des Einbettungsmodells, das unter dem angegebenen deploymentId-Pfad bereitgestellt wird.

resourceUri

string (uri)

Der Ressourcen-URI der Azure OpenAI-Ressource.

AzureOpenAIVectorizer

Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.

Name Typ Beschreibung
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Enthält die Parameter, die für die Vektorisierung der Azure OpenAI-Einbettung spezifisch sind.

kind string:

azureOpenAI

Der Name der Art von Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll.

BinaryQuantizationVectorSearchCompressionConfiguration

Enthält Konfigurationsoptionen, die für die binäre Quantisierungskomprimierungsmethode spezifisch sind, die während der Indizierung und Abfrage verwendet wird.

Name Typ Beschreibung
kind string:

binaryQuantization

Der Name der Art von Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll.

rescoringOptions

RescoringOptions

Enthält die Optionen für die Neubewertung.

truncationDimension

integer (int32)

Die Anzahl der Dimensionen, auf die die Vektoren gekürzt werden sollen. Durch das Abschneiden der Vektoren werden die Größe der Vektoren und die Datenmenge, die während der Suche übertragen werden muss, reduziert. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Abrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, wie z. B. OpenAI text-embedding-3-large (small). Der Standardwert ist null, was bedeutet, dass keine Kürzung vorgenommen wird.

BM25Similarity

Ranking-Funktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der sowohl die Längennormalisierung (gesteuert durch den 'b'-Parameter) als auch die Termfrequenzsättigung (gesteuert durch den 'k1'-Parameter) umfasst.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Diese Eigenschaft steuert, wie sich die Länge eines Dokuments auf die Relevanzbewertung auswirkt. Standardmäßig wird ein Wert von 0,75 verwendet. Ein Wert von 0,0 bedeutet, dass keine Längennormalisierung angewendet wird, während ein Wert von 1,0 bedeutet, dass die Punktzahl vollständig um die Länge des Dokuments normalisiert wird.

k1

number (double)

Diese Eigenschaft steuert die Skalierungsfunktion zwischen der Ausdruckshäufigkeit der einzelnen übereinstimmenden Begriffe und der endgültigen Relevanzbewertung eines Dokument-Abfrage-Paares. Standardmäßig wird der Wert 1,2 verwendet. Ein Wert von 0,0 bedeutet, dass die Punktzahl nicht mit einer Zunahme der Termhäufigkeit skaliert wird.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
html_strip

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

ignoreScripts

CjkBigramTokenFilterScripts[]

Die Skripte, die ignoriert werden sollen.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

outputUnigrams

boolean

False

Ein Wert, der angibt, ob sowohl Unigramme als auch Bigramme (bei true) oder nur Bigramme (bei false) ausgegeben werden sollen. Der Standardwert ist "false".

CjkBigramTokenFilterScripts

Skripts, die von CjkBigramTokenFilter ignoriert werden können.

Wert Beschreibung
han

Ignorieren Sie die Han-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden.

hiragana

Ignorieren Sie die Hiragana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden.

katakana

Ignorieren Sie die Katakana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden.

hangul

Ignorieren Sie die Hangul-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden.

ClassicSimilarity

Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation der TF-IDF führt zu einer statischen Normalisierung der Dokumentlänge sowie zu koordinierenden Faktoren, die Dokumente benachteiligen, die nur teilweise mit den gesuchten Abfragen übereinstimmen.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

CommonGramTokenFilter

Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

commonWords

string[]

Die Menge der gebräuchlichen Wörter.

ignoreCase

boolean

False

Ein Wert, der angibt, ob bei der Übereinstimmung allgemeiner Wörter die Groß-/Kleinschreibung nicht beachtet wird. Der Standardwert ist "false".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

queryMode

boolean

False

Ein Wert, der angibt, ob sich der Tokenfilter im Abfragemodus befindet. Im Abfragemodus generiert der Tokenfilter Bigramme und entfernt dann allgemeine Wörter und einzelne Begriffe, gefolgt von einem allgemeinen Wort. Der Standardwert ist "false".

CorsOptions

Definiert Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für einen Index.

Name Typ Beschreibung
allowedOrigins

string[]

Die Liste der Ursprünge, von denen aus JavaScript-Code Zugriff auf Ihren Index erhält. Kann eine Liste von Hosts in der Form {protocol}://{fully-qualified-___domain-name}[:{port#}] oder ein einzelnes '*' enthalten, um alle Ursprünge zuzulassen (nicht empfohlen).

maxAgeInSeconds

integer (int64)

Die Dauer, für die Browser CORS-Preflight-Antworten zwischenspeichern sollen. Der Standardwert ist 5 Minuten.

CustomAnalyzer

Ermöglicht es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indexierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter für die Änderung von Token verantwortlich, die vom Tokenizer ausgegeben werden.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Ein URI-Fragment, das den Typ des Analysetools angibt.

charFilters

CharFilterName[]

Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er vom Tokenizer verarbeitet wird. Sie können zum Beispiel bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind.

name

string

Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

tokenFilters

TokenFilterName[]

Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern der von einem Tokenizer generierten Token verwendet werden. Sie können z. B. einen Kleinbuchstabenfilter angeben, der alle Zeichen in Kleinbuchstaben konvertiert. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterteilen von Fließtext in eine Sequenz von Token verwendet werden soll, z. B. zum Aufteilen eines Satzes in Wörter.

CustomNormalizer

Ermöglicht das Konfigurieren der Normalisierung für filterbare, sortierbare und facettierbare Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Hierbei handelt es sich um eine benutzerdefinierte Konfiguration, die aus mindestens einem oder mehreren Filtern besteht, die das gespeicherte Token ändern.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Ein URI-Fragment, das den Typ des Normalisierungsprogramms angibt.

charFilters

CharFilterName[]

Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext vor der Verarbeitung verwendet werden. Sie können zum Beispiel bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind.

name

string

Der Name des Normalisierungsprogramms. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt. Er darf nicht auf ".microsoft" oder ".lucene" enden und auch nicht "asciifolding", "standard", "lowercase", "uppercase" oder "elision" heißen.

tokenFilters

TokenFilterName[]

Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern des Eingabetokens verwendet werden. Sie können z. B. einen Kleinbuchstabenfilter angeben, der alle Zeichen in Kleinbuchstaben konvertiert. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind.

DictionaryDecompounderTokenFilter

Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

maxSubwordSize

integer (int32)

maximum: 300
15

Die maximale Größe eines Teilworts. Es werden nur Unterwörter ausgegeben, die kürzer sind. Der Standardwert ist 15. Der Höchstwert beträgt 300.

minSubwordSize

integer (int32)

maximum: 300
2

Die minimale Größe von Unterwörtern. Es werden nur noch längere Unterwörter ausgegeben. Der Standardwert ist 2. Der Höchstwert beträgt 300.

minWordSize

integer (int32)

maximum: 300
5

Die minimale Wortgröße. Es werden nur Wörter verarbeitet, die länger sind. Der Standardwert ist 5. Der Höchstwert beträgt 300.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

onlyLongestMatch

boolean

False

Ein Wert, der angibt, ob der Ausgabe nur das längste übereinstimmende Teilwort hinzugefügt werden soll. Der Standardwert ist "false".

wordList

string[]

Die Liste der Wörter, mit denen abgeglichen werden soll.

DistanceScoringFunction

Definiert eine Funktion, die die Punktzahl basierend auf der Entfernung von einem geografischen Standort erhöht.

Name Typ Beschreibung
boost

number (double)

Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein.

distance

DistanceScoringParameters

Parameterwerte für die Abstandsbewertungsfunktion.

fieldName

string

Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird.

interpolation

ScoringFunctionInterpolation

Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt.

type string:

distance

Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden.

DistanceScoringParameters

Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.

Name Typ Beschreibung
boostingDistance

number (double)

Die Entfernung in Kilometern von der Referenzposition, an der der Boosting-Bereich endet.

referencePointParameter

string

Der Name des Parameters, der in Suchabfragen übergeben wird, um den Referenzspeicherort anzugeben.

EdgeNGramTokenFilter

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

maxGram

integer (int32)

2

Die maximale Länge von N-Gramm. Der Standardwert ist 2.

minGram

integer (int32)

1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

side

EdgeNGramTokenFilterSide

front

Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne".

EdgeNGramTokenFilterSide

Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll.

Wert Beschreibung
front

Gibt an, dass das N-Gramm von der Vorderseite der Eingabe generiert werden soll.

back

Gibt an, dass das N-Gramm von der Rückseite der Eingabe generiert werden soll.

EdgeNGramTokenFilterV2

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

maxGram

integer (int32)

maximum: 300
2

Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300.

minGram

integer (int32)

maximum: 300
1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

side

EdgeNGramTokenFilterSide

front

Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne".

EdgeNGramTokenizer

Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxGram

integer (int32)

maximum: 300
2

Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300.

minGram

integer (int32)

maximum: 300
1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

tokenChars

TokenCharacterKind[]

Zeichenklassen, die in den Token aufbewahrt werden sollen.

ElisionTokenFilter

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

articles

string[]

Die Gruppe der Artikel, die entfernt werden sollen.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

Name Typ Beschreibung
info

object

Die zusätzlichen Informationen.

type

string

Der zusätzliche Informationstyp.

ErrorDetail

Das Fehlerdetails.

Name Typ Beschreibung
additionalInfo

ErrorAdditionalInfo[]

Die zusätzlichen Informationen des Fehlers.

code

string

Der Fehlercode.

details

ErrorDetail[]

Die Fehlerdetails.

message

string

Die Fehlermeldung.

target

string

Das Fehlerziel.

ErrorResponse

Fehlerantwort

Name Typ Beschreibung
error

ErrorDetail

Das Fehlerobjekt.

ExhaustiveKnnParameters

Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind.

Name Typ Beschreibung
metric

VectorSearchAlgorithmMetric

Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Enthält Konfigurationsoptionen, die speziell für den umfassenden KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird und eine Brute-Force-Suche über den gesamten Vektorindex durchführt.

Name Typ Beschreibung
exhaustiveKnnParameters

ExhaustiveKnnParameters

Enthält die Parameter, die für den umfassenden KNN-Algorithmus spezifisch sind.

kind string:

exhaustiveKnn

Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll.

FreshnessScoringFunction

Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datums-/Uhrzeitfelds erhöht.

Name Typ Beschreibung
boost

number (double)

Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein.

fieldName

string

Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird.

freshness

FreshnessScoringParameters

Parameterwerte für die Funktion zur Bewertung der Aktualität.

interpolation

ScoringFunctionInterpolation

Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt.

type string:

freshness

Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden.

FreshnessScoringParameters

Stellt Parameterwerte für eine Funktion zur Bewertung der Aktualität bereit.

Name Typ Beschreibung
boostingDuration

string (duration)

Der Ablaufzeitraum, nach dem das Boosten für ein bestimmtes Dokument gestoppt wird.

HnswParameters

Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind.

Name Typ Standardwert Beschreibung
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Indexzeit verwendet wird. Durch Erhöhen dieses Parameters kann die Indexqualität auf Kosten einer längeren Indizierungszeit verbessert werden. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Suchzeit verwendet wird. Das Erhöhen dieses Parameters kann die Suchergebnisse auf Kosten einer langsameren Suche verbessern. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen.

m

integer (int32)

minimum: 4
maximum: 10
4

Die Anzahl der bidirektionalen Verknüpfungen, die während der Konstruktion für jedes neue Element erstellt werden. Das Erhöhen dieses Parameterwerts kann den Abruf verbessern und die Abrufzeiten für Datasets mit hoher intrinsischer Dimensionalität auf Kosten eines höheren Speicherverbrauchs und einer längeren Indizierungszeit verkürzen.

metric

VectorSearchAlgorithmMetric

Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll.

HnswVectorSearchAlgorithmConfiguration

Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.

Name Typ Beschreibung
hnswParameters

HnswParameters

Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind.

kind string:

hnsw

Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll.

InputFieldMappingEntry

Zuordnung von Eingabefeldern für einen Skill.

Name Typ Beschreibung
inputs

InputFieldMappingEntry[]

Die rekursiven Eingaben, die beim Erstellen eines komplexen Typs verwendet werden.

name

string

Der Name der Eingabe.

source

string

Die Quelle der Eingabe.

sourceContext

string

Der Quellkontext, der zum Auswählen rekursiver Eingaben verwendet wird.

KeepTokenFilter

Ein Tokenfilter, der nur Token mit Text enthält, der in einer angegebenen Liste von Wörtern enthalten ist. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

keepWords

string[]

Die Liste der Wörter, die aufbewahrt werden sollen.

keepWordsCase

boolean

False

Ein Wert, der angibt, ob alle Wörter zuerst klein geschrieben werden sollen. Der Standardwert ist "false".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

KeywordMarkerTokenFilter

Markiert Begriffe als Schlüsselwörter. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

ignoreCase

boolean

False

Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben umgewandelt. Der Standardwert ist "false".

keywords

string[]

Eine Liste von Wörtern, die als Schlüsselwörter markiert werden sollen.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

KeywordTokenizer

Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

bufferSize

integer (int32)

256

Die Größe des Lesepuffers in Bytes. Der Standardwert ist 256.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

KeywordTokenizerV2

Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxTokenLength

integer (int32)

maximum: 300
256

Die maximale Tokenlänge. Der Standardwert ist 256. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

LengthTokenFilter

Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

max

integer (int32)

maximum: 300
300

Die maximale Länge in Zeichen. Der Standardwert und der Höchstwert ist 300.

min

integer (int32)

maximum: 300
0

Die Mindestlänge in Zeichen. Standard ist "0". Der Höchstwert beträgt 300. Muss kleiner als der Wert von max.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
ar.microsoft

Microsoft Analyzer für Arabisch.

ar.lucene

Lucene-Analysator für Arabisch.

hy.lucene

Lucene-Analysator für Armenisch.

bn.microsoft

Microsoft Analyzer für Bangla.

eu.lucene

Lucene-Analysator für Baskisch.

bg.microsoft

Microsoft Analyzer für Bulgarisch.

bg.lucene

Lucene-Analysator für Bulgarisch.

ca.microsoft

Microsoft Analyzer für Katalanisch.

ca.lucene

Lucene-Analysator für Katalanisch.

zh-Hans.microsoft

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hans.lucene

Lucene-Analysator für Chinesisch (vereinfacht).

zh-Hant.microsoft

Microsoft Analyzer für Chinesisch (traditionell).

zh-Hant.lucene

Lucene-Analysator für Chinesisch (traditionell).

hr.microsoft

Microsoft Analyzer für Kroatisch.

cs.microsoft

Microsoft Analyzer für Tschechisch.

cs.lucene

Lucene-Analysator für Tschechisch.

da.microsoft

Microsoft Analyzer für Dänisch.

da.lucene

Lucene-Analysator für Dänisch.

nl.microsoft

Microsoft Analyzer für Niederländisch.

nl.lucene

Lucene-Analysator für Niederländisch.

en.microsoft

Microsoft Analyzer für Englisch.

en.lucene

Lucene-Analysator für Englisch.

et.microsoft

Microsoft Analyzer für Estnisch.

fi.microsoft

Microsoft Analyzer für Finnisch.

fi.lucene

Lucene-Analysator für Finnisch.

fr.microsoft

Microsoft Analyzer für Französisch.

fr.lucene

Lucene-Analysator für Französisch.

gl.lucene

Lucene-Analysator für Galizisch.

de.microsoft

Microsoft Analyzer für Deutsch.

de.lucene

Lucene-Analysator für Deutsch.

el.microsoft

Microsoft Analyzer für Griechisch.

el.lucene

Lucene-Analysator für Griechisch.

gu.microsoft

Microsoft Analyzer für Gujarati.

he.microsoft

Microsoft Analyzer für Hebräisch.

hi.microsoft

Microsoft Analyzer für Hindi.

hi.lucene

Lucene-Analysator für Hindi.

hu.microsoft

Microsoft Analyzer für Ungarisch.

hu.lucene

Lucene-Analysator für Ungarisch.

is.microsoft

Microsoft Analyzer für Isländisch.

id.microsoft

Microsoft Analyzer für Indonesisch (Bahasa).

id.lucene

Lucene-Analysator für Indonesisch.

ga.lucene

Lucene-Analysator für Irisch.

it.microsoft

Microsoft Analyzer für Italienisch.

it.lucene

Lucene-Analysator für Italienisch.

ja.microsoft

Microsoft Analyzer für Japanisch.

ja.lucene

Lucene-Analysator für Japanisch.

kn.microsoft

Microsoft Analyzer für Kannada.

ko.microsoft

Microsoft Analyzer für Koreanisch.

ko.lucene

Lucene-Analysator für Koreanisch.

lv.microsoft

Microsoft Analyzer für Lettisch.

lv.lucene

Lucene-Analysator für Lettisch.

lt.microsoft

Microsoft Analyzer für Litauisch.

ml.microsoft

Microsoft Analyzer für Malayalam.

ms.microsoft

Microsoft Analyzer für Malaiisch (Lateinisch).

mr.microsoft

Microsoft Analyzer für Marathi.

nb.microsoft

Microsoft analyzer für Norwegisch (Bokmål).

no.lucene

Lucene-Analysator für Norwegian.

fa.lucene

Lucene-Analysator für Persisch.

pl.microsoft

Microsoft Analyzer für Polnisch.

pl.lucene

Lucene-Analysator für Polnisch.

pt-BR.microsoft

Microsoft Analyzer für Portugiesisch (Brasilien).

pt-BR.lucene

Lucene-Analysator für Portugiesisch (Brasilien).

pt-PT.microsoft

Microsoft Analyzer für Portugiesisch (Portugal).

pt-PT.lucene

Lucene-Analysator für Portugiesisch (Portugal).

pa.microsoft

Microsoft Analyzer für Punjabi.

ro.microsoft

Microsoft Analyzer für Rumänisch.

ro.lucene

Lucene-Analysator für Rumänisch.

ru.microsoft

Microsoft Analyzer für Russisch.

ru.lucene

Lucene-Analysator für Russisch.

sr-cyrillic.microsoft

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

Microsoft Analyzer für Serbisch (Lateinisch).

sk.microsoft

Microsoft Analyzer für Slowakisch.

sl.microsoft

Microsoft Analyzer für Slowenisch.

es.microsoft

Microsoft Analyzer für Spanisch.

es.lucene

Lucene-Analysator für Spanisch.

sv.microsoft

Microsoft Analyzer für Schwedisch.

sv.lucene

Lucene-Analysator für Schwedisch.

ta.microsoft

Microsoft Analyzer für Tamil.

te.microsoft

Microsoft Analyzer für Telugu.

th.microsoft

Microsoft Analyzer für Thai.

th.lucene

Lucene-Analysator für Thai.

tr.microsoft

Microsoft Analyzer für Türkisch.

tr.lucene

Lucene-Analysator für Türkisch.

uk.microsoft

Microsoft Analyzer für Ukrainisch.

ur.microsoft

Microsoft Analyzer für Urdu.

vi.microsoft

Microsoft Analyzer für Vietnamesisch.

standard.lucene

Standardmäßiger Lucene-Analysator.

standardasciifolding.lucene

Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
classic

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Teilt Text in Nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Unterteilt Text nach sprachspezifischen Regeln.

microsoft_language_stemming_tokenizer

Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen.

nGram

Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standard-Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Teilt den Text durch Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Begrenzt die Anzahl der Token während der Indizierung. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

consumeAllTokens

boolean

False

Ein Wert, der angibt, ob alle Token aus der Eingabe auch dann verbraucht werden müssen, wenn maxTokenCount erreicht ist. Der Standardwert ist "false".

maxTokenCount

integer (int32)

1

Die maximale Anzahl der zu produzierenden Token. Der Standardwert ist 1.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

LuceneStandardAnalyzer

Standardmäßiger Apache Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Ein URI-Fragment, das den Typ des Analysetools angibt.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen.

name

string

Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

stopwords

string[]

Eine Liste von Stoppwörtern.

LuceneStandardTokenizer

Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxTokenLength

integer (int32)

255

Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

LuceneStandardTokenizerV2

Bricht den Text gemäß den Unicode-Textsegmentierungsregeln um. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

MagnitudeScoringFunction

Definiert eine Funktion, die die Punktzahl basierend auf der Größe eines numerischen Felds erhöht.

Name Typ Beschreibung
boost

number (double)

Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein.

fieldName

string

Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird.

interpolation

ScoringFunctionInterpolation

Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt.

magnitude

MagnitudeScoringParameters

Parameterwerte für die Funktion zur Bewertung des Betrags.

type string:

magnitude

Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden.

MagnitudeScoringParameters

Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit.

Name Typ Beschreibung
boostingRangeEnd

number (double)

Der Feldwert, bei dem das Boosten endet.

boostingRangeStart

number (double)

Der Feldwert, bei dem das Boosten gestartet wird.

constantBoostBeyondRange

boolean

Ein Wert, der angibt, ob eine konstante Verstärkung für Feldwerte angewendet werden soll, die über den Endwert des Bereichs hinausgehen. Der Standardwert ist false.

MappingCharFilter

Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Option mappings definiert wurden. Matching ist gierig (das längste Pattern-Matching zu einem bestimmten Zeitpunkt gewinnt). Die Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Ein URI-Fragment, das den Typ des char-Filters angibt.

mappings

string[]

Eine Liste von Zuordnungen im folgenden Format: "a=>b" (alle Vorkommen des Zeichens "a" werden durch das Zeichen "b" ersetzt).

name

string

Der Name des char-Filters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

MicrosoftLanguageStemmingTokenizer

Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

isSearchTokenizer

boolean

False

Ein Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie diesen Wert auf true fest, wenn er als Such-Tokenizer verwendet wird, und auf false, wenn er als Indizierungs-Tokenizer verwendet wird. Der Standardwert ist "false".

language

MicrosoftStemmingTokenizerLanguage

Die zu verwendende Sprache. Die Standardeinstellung ist Englisch.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der festgelegten maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

MicrosoftLanguageTokenizer

Unterteilt Text nach sprachspezifischen Regeln.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

isSearchTokenizer

boolean

False

Ein Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie diesen Wert auf true fest, wenn er als Such-Tokenizer verwendet wird, und auf false, wenn er als Indizierungs-Tokenizer verwendet wird. Der Standardwert ist "false".

language

MicrosoftTokenizerLanguage

Die zu verwendende Sprache. Die Standardeinstellung ist Englisch.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der festgelegten maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

MicrosoftStemmingTokenizerLanguage

Listet die Sprachen auf, die vom Microsoft-Tokenizer für die Wortstammerkennung unterstützt werden.

Wert Beschreibung
arabic

Wählt den Microsoft-Wortstamm-Tokenizer für Arabisch aus.

bangla

Wählt den Microsoft-Stemming-Tokenizer für Bangla aus.

bulgarian

Wählt den Microsoft-Stemming-Tokenizer für Bulgarisch aus.

catalan

Wählt den Microsoft-Stemming-Tokenizer für Katalanisch aus.

croatian

Wählt den Microsoft-Stemming-Tokenizer für Kroatisch aus.

czech

Wählt den Microsoft-Stemming-Tokenizer für Tschechisch aus.

danish

Wählt den Microsoft-Stemming-Tokenizer für Dänisch aus.

dutch

Wählt den Microsoft-Stemming-Tokenizer für Niederländisch aus.

english

Wählt den Microsoft-Wortstamm-Tokenizer für Englisch aus.

estonian

Wählt den Microsoft-Stemming-Tokenizer für Estnisch aus.

finnish

Wählt den Microsoft-Stemming-Tokenizer für Finnisch aus.

french

Wählt den Microsoft-Stemming-Tokenizer für Französisch aus.

german

Wählt den Microsoft-Stemming-Tokenizer für Deutsch aus.

greek

Wählt den Microsoft-Stemming-Tokenizer für Griechisch aus.

gujarati

Wählt den Microsoft-Stemming-Tokenizer für Gujarati aus.

hebrew

Wählt den Microsoft-Stemming-Tokenizer für Hebräisch aus.

hindi

Wählt den Microsoft-Stemming-Tokenizer für Hindi aus.

hungarian

Wählt den Microsoft-Stemming-Tokenizer für Ungarisch aus.

icelandic

Wählt den Microsoft-Stemming-Tokenizer für Isländisch aus.

indonesian

Wählt den Microsoft-Stemming-Tokenizer für Indonesisch aus.

italian

Wählt den Microsoft-Stemming-Tokenizer für Italienisch aus.

kannada

Wählt den Microsoft-Stemming-Tokenizer für Kannada aus.

latvian

Wählt den Microsoft-Stemming-Tokenizer für Lettisch aus.

lithuanian

Wählt den Microsoft-Stemming-Tokenizer für Litauisch aus.

malay

Wählt den Microsoft-Stemming-Tokenizer für Malaiisch aus.

malayalam

Wählt den Microsoft-Stemming-Tokenizer für Malayalam aus.

marathi

Wählt den Microsoft-Stemming-Tokenizer für Marathi aus.

norwegianBokmaal

Wählt den Microsoft-Stemming-Tokenizer für Norwegisch (Bokmål) aus.

polish

Wählt den Microsoft-Stemming-Tokenizer für Polnisch aus.

portuguese

Wählt den Microsoft-Stemming-Tokenizer für Portugiesisch aus.

portugueseBrazilian

Wählt den Microsoft-Stemming-Tokenizer für Portugiesisch (Brasilien) aus.

punjabi

Wählt den Microsoft-Stemming-Tokenizer für Punjabi aus.

romanian

Wählt den Microsoft-Stemming-Tokenizer für Rumänisch aus.

russian

Wählt den Microsoft-Stemming-Tokenizer für Russisch aus.

serbianCyrillic

Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Kyrillisch) aus.

serbianLatin

Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Lateinisch) aus.

slovak

Wählt den Microsoft-Stemming-Tokenizer für Slowakisch aus.

slovenian

Wählt den Microsoft-Stemming-Tokenizer für Slowenisch aus.

spanish

Wählt den Microsoft-Stemming-Tokenizer für Spanisch aus.

swedish

Wählt den Microsoft-Stemming-Tokenizer für Schwedisch aus.

tamil

Wählt den Microsoft-Stemming-Tokenizer für Tamil aus.

telugu

Wählt den Microsoft-Stemming-Tokenizer für Telugu aus.

turkish

Wählt den Microsoft-Stemming-Tokenizer für Türkisch aus.

ukrainian

Wählt den Microsoft-Stemming-Tokenizer für Ukrainisch aus.

urdu

Wählt den Microsoft-Wortstamm-Tokenizer für Urdu aus.

MicrosoftTokenizerLanguage

Listet die Sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden.

Wert Beschreibung
bangla

Wählt den Microsoft-Tokenizer für Bangla aus.

bulgarian

Wählt den Microsoft-Tokenizer für Bulgarisch aus.

catalan

Wählt den Microsoft-Tokenizer für Katalanisch aus.

chineseSimplified

Wählt den Microsoft-Tokenizer für Chinesisch (vereinfacht) aus.

chineseTraditional

Wählt den Microsoft-Tokenizer für Chinesisch (traditionell) aus.

croatian

Wählt den Microsoft-Tokenizer für Kroatisch aus.

czech

Wählt den Microsoft-Tokenizer für Tschechisch aus.

danish

Wählt den Microsoft-Tokenizer für Dänisch aus.

dutch

Wählt den Microsoft-Tokenizer für Niederländisch aus.

english

Wählt den Microsoft-Tokenizer für Englisch aus.

french

Wählt den Microsoft-Tokenizer für Französisch aus.

german

Wählt den Microsoft-Tokenizer für Deutsch aus.

greek

Wählt den Microsoft-Tokenizer für Griechisch aus.

gujarati

Wählt den Microsoft-Tokenizer für Gujarati aus.

hindi

Wählt den Microsoft-Tokenizer für Hindi aus.

icelandic

Wählt den Microsoft-Tokenizer für Isländisch aus.

indonesian

Wählt den Microsoft-Tokenizer für Indonesisch aus.

italian

Wählt den Microsoft-Tokenizer für Italienisch aus.

japanese

Wählt den Microsoft-Tokenizer für Japanisch aus.

kannada

Wählt den Microsoft-Tokenizer für Kannada aus.

korean

Wählt den Microsoft-Tokenizer für Koreanisch aus.

malay

Wählt den Microsoft-Tokenizer für Malaiisch aus.

malayalam

Wählt den Microsoft-Tokenizer für Malayalam aus.

marathi

Wählt den Microsoft-Tokenizer für Marathi aus.

norwegianBokmaal

Wählt den Microsoft-Tokenizer für Norwegisch (Bokmål) aus.

polish

Wählt den Microsoft-Tokenizer für Polnisch aus.

portuguese

Wählt den Microsoft-Tokenizer für Portugiesisch aus.

portugueseBrazilian

Wählt den Microsoft-Tokenizer für Portugiesisch (Brasilien) aus.

punjabi

Wählt den Microsoft-Tokenizer für Punjabi aus.

romanian

Wählt den Microsoft-Tokenizer für Rumänisch aus.

russian

Wählt den Microsoft-Tokenizer für Russisch aus.

serbianCyrillic

Wählt den Microsoft-Tokenizer für Serbisch (Kyrillisch) aus.

serbianLatin

Wählt den Microsoft-Tokenizer für Serbisch (Lateinisch) aus.

slovenian

Wählt den Microsoft-Tokenizer für Slowenisch aus.

spanish

Wählt den Microsoft-Tokenizer für Spanisch aus.

swedish

Wählt den Microsoft-Tokenizer für Schwedisch aus.

tamil

Wählt den Microsoft-Tokenizer für Tamil aus.

telugu

Wählt den Microsoft-Tokenizer für Telugu aus.

thai

Wählt den Microsoft-Tokenizer für Thai aus.

ukrainian

Wählt den Microsoft-Tokenizer für Ukrainisch aus.

urdu

Wählt den Microsoft-Tokenizer für Urdu aus.

vietnamese

Wählt den Microsoft-Tokenizer für Vietnamesisch aus.

NGramTokenFilter

Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

maxGram

integer (int32)

2

Die maximale Länge von N-Gramm. Der Standardwert ist 2.

minGram

integer (int32)

1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

NGramTokenFilterV2

Generiert N-Gramm der angegebenen Größe(n). Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

maxGram

integer (int32)

maximum: 300
2

Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300.

minGram

integer (int32)

maximum: 300
1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

NGramTokenizer

Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxGram

integer (int32)

maximum: 300
2

Die maximale Länge von N-Gramm. Der Standardwert ist 2. Der Höchstwert beträgt 300.

minGram

integer (int32)

maximum: 300
1

Die minimale N-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert beträgt 300. Muss kleiner als der Wert von maxGram sein.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

tokenChars

TokenCharacterKind[]

Zeichenklassen, die in den Token aufbewahrt werden sollen.

OutputFieldMappingEntry

Ausgabefeldzuordnung für einen Skill.

Name Typ Beschreibung
name

string

Der Name der Ausgabe, der durch den Skill definiert wird.

targetName

string

Der Zielname der Ausgabe. Es ist optional und standardmäßig name.

PathHierarchyTokenizerV2

Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Ein URI-Fragment, das den Typ des Tokenizers angibt.

delimiter

string (char)

/

Das zu verwendende Trennzeichen. Der Standardwert ist "/".

maxTokenLength

integer (int32)

maximum: 300
300

Die maximale Tokenlänge. Der Standardwert und der Höchstwert ist 300.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

replacement

string (char)

/

Ein Wert, der, wenn er festgelegt ist, das Trennzeichen ersetzt. Der Standardwert ist "/".

reverse

boolean

False

Ein Wert, der angibt, ob Token in umgekehrter Reihenfolge generiert werden sollen. Der Standardwert ist "false".

skip

integer (int32)

0

Die Anzahl der anfänglichen Token, die übersprungen werden sollen. Standard ist "0".

PatternAnalyzer

Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Dieser Analysator wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Ein URI-Fragment, das den Typ des Analysetools angibt.

flags

RegexFlags

Flags für reguläre Ausdrücke.

lowercase

boolean

True

Ein Wert, der angibt, ob Begriffe in Kleinbuchstaben geschrieben werden sollen. Der Standardwert ist "true".

name

string

Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

pattern

string

\W+

Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt.

stopwords

string[]

Eine Liste von Stoppwörtern.

PatternCaptureTokenFilter

Verwendet Java-Regexes, um mehrere Token auszugeben – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

patterns

string[]

Eine Liste von Mustern, die mit jedem Token abgeglichen werden sollen.

preserveOriginal

boolean

True

Ein Wert, der angibt, ob das ursprüngliche Token zurückgegeben werden soll, auch wenn eines der Muster übereinstimmt. Der Standardwert ist "true".

PatternReplaceCharFilter

Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Ein URI-Fragment, das den Typ des char-Filters angibt.

name

string

Der Name des char-Filters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

pattern

string

Ein Muster für reguläre Ausdrücke.

replacement

string

Der Ersetzungstext.

PatternReplaceTokenFilter

Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um Zeichen zu identifizieren, die ersetzt werden sollen. Bei gegebenem Eingabetext "aa bb aa bb", Muster "(aa)\s+(bb)" und Ersetzung "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

pattern

string

Ein Muster für reguläre Ausdrücke.

replacement

string

Der Ersetzungstext.

PatternTokenizer

Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

flags

RegexFlags

Flags für reguläre Ausdrücke.

group

integer (int32)

-1

Die nullbasierte Ordinalzahl der übereinstimmenden Gruppe im Muster für reguläre Ausdrücke, die in Token extrahiert werden sollen. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe in Token aufzuteilen, unabhängig von übereinstimmenden Gruppen. Der Standardwert ist -1.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

pattern

string

\W+

Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt.

PhoneticEncoder

Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.

Wert Beschreibung
metaphone

Codiert ein Token in einen Metaphone-Wert.

doubleMetaphone

Codiert ein Token in einen doppelten Metaphonwert.

soundex

Codiert ein Token in einen Soundex-Wert.

refinedSoundex

Codiert ein Token in einen verfeinerten Soundex-Wert.

caverphone1

Codiert ein Token in einen Caverphone 1.0-Wert.

caverphone2

Codiert ein Token in einen Caverphone 2.0-Wert.

cologne

Codiert ein Token in einen Kölner Phonetischen Wert.

nysiis

Codiert ein Token in einen NYSIIS-Wert.

koelnerPhonetik

Codiert ein Token mit dem Kölner Phonetik-Algorithmus.

haasePhonetik

Codiert ein Token mit der Haase-Verfeinerung des Kölner Phonetik-Algorithmus.

beiderMorse

Codiert ein Token in einen Beider-Morse Wert.

PhoneticTokenFilter

Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

encoder

PhoneticEncoder

metaphone

Der zu verwendende phonetische Encoder. Der Standardwert ist "Metaphone".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

replace

boolean

True

Ein Wert, der angibt, ob codierte Token die ursprünglichen Token ersetzen sollen. Bei false werden codierte Token als Synonyme hinzugefügt. Der Standardwert ist "true".

PrioritizedFields

Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.

Name Typ Beschreibung
prioritizedContentFields

SemanticField[]

Definiert die Inhaltsfelder, die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder Text in natürlicher Sprache enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist.

prioritizedKeywordsFields

SemanticField[]

Definiert die Schlüsselwortfelder, die für die semantische Rangfolge, Bildunterschriften, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder eine Liste von Schlüsselwörtern enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist.

titleField

SemanticField

Definiert das Titelfeld, das für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden soll. Wenn Sie kein Titelfeld in Ihrem Index haben, lassen Sie dieses Feld leer.

RankingOrder

Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll.

Wert Beschreibung
BoostedRerankerScore

Legt die Sortierreihenfolge als BoostedRerankerScore fest

RerankerScore

Legt die Sortierreihenfolge als ReRankerScore fest

RegexFlags

Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke in der Musteranalyse und im Mustertokenisierer verwendet werden.

Wert Beschreibung
CANON_EQ

Ermöglicht die kanonische Äquivalenz.

CASE_INSENSITIVE

Ermöglicht den Abgleich ohne Berücksichtigung der Groß-/Kleinschreibung.

COMMENTS

Lässt Leerzeichen und Kommentare im Muster zu.

DOTALL

Aktiviert den dotall-Modus.

LITERAL

Aktiviert die literale Analyse des Musters.

MULTILINE

Aktiviert den mehrzeiligen Modus.

UNICODE_CASE

Ermöglicht das Unicode-fähige Falten von Groß- und Kleinschreibung.

UNIX_LINES

Aktiviert den Unix-Zeilenmodus.

RescoringOptions

Enthält die Optionen für die Neubewertung.

Name Typ Standardwert Beschreibung
defaultOversampling

number (double)

Standardmäßiger Oversampling-Faktor. Beim Oversampling wird eine größere Anzahl potenzieller Dokumente abgerufen, um den Auflösungsverlust aufgrund der Quantisierung auszugleichen. Dadurch wird die Anzahl der Ergebnisse erhöht, die auf Vektoren mit voller Genauigkeit neu bewertet werden. Der Mindestwert ist 1, d.h. kein Oversampling (1x). Dieser Parameter kann nur gesetzt werden, wenn 'enableRescoring' true ist. Höhere Werte verbessern den Abruf auf Kosten der Latenz.

enableRescoring

boolean

True

Wenn diese Option auf true festgelegt ist, werden die Ähnlichkeitsbewertungen nach der ersten Suche nach den komprimierten Vektoren mit den Vektoren mit voller Genauigkeit neu berechnet. Dies verbessert den Abruf auf Kosten der Latenz.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Steuert die Speichermethode für Originalvektoren. Diese Einstellung ist unveränderlich.

ScalarQuantizationParameters

Enthält die Parameter, die für die skalare Quantisierung spezifisch sind.

Name Typ Beschreibung
quantizedDataType

VectorSearchCompressionTargetDataType

Der quantisierte Datentyp von komprimierten Vektorwerten.

ScalarQuantizationVectorSearchCompressionConfiguration

Enthält Konfigurationsoptionen, die speziell für die Komprimierungsmethode der skalaren Quantisierung entwickelt wurden, die bei der Indizierung und Abfrage verwendet wird.

Name Typ Beschreibung
kind string:

scalarQuantization

Der Name der Art von Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll.

rescoringOptions

RescoringOptions

Enthält die Optionen für die Neubewertung.

scalarQuantizationParameters

ScalarQuantizationParameters

Enthält die Parameter, die für die skalare Quantisierung spezifisch sind.

truncationDimension

integer (int32)

Die Anzahl der Dimensionen, auf die die Vektoren gekürzt werden sollen. Durch das Abschneiden der Vektoren werden die Größe der Vektoren und die Datenmenge, die während der Suche übertragen werden muss, reduziert. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Abrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, wie z. B. OpenAI text-embedding-3-large (small). Der Standardwert ist null, was bedeutet, dass keine Kürzung vorgenommen wird.

ScoringFunctionAggregation

Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.

Wert Beschreibung
sum

Steigern Sie die Punktzahl um die Summe aller Ergebnisse der Bewertungsfunktion.

average

Erhöhen Sie die Punktzahl um den Durchschnitt aller Ergebnisse der Bewertungsfunktion.

minimum

Erhöhen Sie die Punktzahl um das Minimum aller Ergebnisse der Bewertungsfunktion.

maximum

Steigern Sie die Punktzahl um das Maximum aller Ergebnisse der Bewertungsfunktion.

firstMatching

Steigern Sie die Punktzahl mit der ersten anwendbaren Bewertungsfunktion im Bewertungsprofil.

ScoringFunctionInterpolation

Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird.

Wert Beschreibung
linear

Erhöht die Punktzahl um einen linear abnehmenden Betrag. Dies ist die Standardinterpolation für Bewertungsfunktionen.

constant

Erhöht die Punktzahl um einen konstanten Faktor.

quadratic

Erhöht die Punktzahl um einen Betrag, der quadratisch abnimmt. Die Boosts nehmen bei höheren Punktzahlen langsam ab und bei sinkenden Punktzahlen schneller. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig.

logarithmic

Erhöht die Punktzahl um einen Betrag, der logarithmisch abnimmt. Boosts nehmen bei höheren Punktzahlen schnell ab und langsamer, wenn die Punktzahl sinkt. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig.

ScoringProfile

Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen.

Name Typ Beschreibung
functionAggregation

ScoringFunctionAggregation

Ein Wert, der angibt, wie die Ergebnisse der einzelnen Bewertungsfunktionen kombiniert werden sollen. Der Standardwert ist "Summe". Wird ignoriert, wenn keine Bewertungsfunktionen vorhanden sind.

functions ScoringFunction[]:

Die Sammlung von Funktionen, die die Bewertung von Dokumenten beeinflussen.

name

string

Der Name des Bewertungsprofils.

text

TextWeights

Parameter, die die Bewertung basierend auf Textübereinstimmungen in bestimmten Indexfeldern verbessern.

SearchField

Stellt ein Feld in einer Indexdefinition dar, die den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analysetools, das für das Feld verwendet werden soll. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden und kann nicht zusammen mit searchAnalyzer oder indexAnalyzer festgelegt werden. Sobald der Analysator ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Die Dimensionalität des Vektorfeldes.

facetable

boolean

Ein Wert, der angibt, ob das Feld in Facettenabfragen referenziert werden soll. Wird in der Regel in Anzeigen von Suchergebnissen verwendet, die eine nach Kategorie sortierte Trefferanzahl beinhalten (z. B. werden bei der Suche nach Digitalkameras Treffer nach Marke, Megapixel, Preis usw. angezeigt). Diese Eigenschaft muss für komplexe Felder null sein. Felder vom Typ "Edm.GeographyPoint" oder "Collection(Edm.GeographyPoint)" können nicht facettiert werden. Der Standardwert ist true für alle anderen einfachen Felder.

fields

SearchField[]

Eine Liste von Unterfeldern, wenn es sich um ein Feld vom Typ Edm.ComplexType oder Collection(Edm.ComplexType) handelt. Muss für einfache Felder null oder leer sein.

filterable

boolean

Ein Wert, der angibt, ob in $filter Abfragen auf das Feld verwiesen werden soll. Filterable unterscheidet sich von Searchable in der Art und Weise, wie Zeichenfolgen behandelt werden. Felder vom Typ Edm.String oder Collection(Edm.String), die gefiltert werden können, werden nicht durch Wörter getrennt, sodass Vergleiche nur für exakte Übereinstimmungen gelten. Wenn Sie beispielsweise ein solches Feld f auf "sonniger Tag" setzen, findet $filter=f eq 'sonnig' keine Übereinstimmungen, aber $filter=f eq 'sonniger Tag' schon. Diese Eigenschaft muss für komplexe Felder null sein. Der Standardwert ist true für einfache Felder und null für komplexe Felder.

indexAnalyzer

LexicalAnalyzerName

Der Name des Analysetools, das zum Zeitpunkt der Indizierung für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit searchAnalyzer festgelegt werden und kann nicht zusammen mit der Analyzer-Option festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie eine Sprachanalyse benötigen. Sobald der Analysator ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein.

key

boolean

Ein Wert, der angibt, ob das Feld Dokumente im Index eindeutig identifiziert. Es muss genau ein Feld der obersten Ebene in jedem Index als Schlüsselfeld ausgewählt werden, und es muss vom Typ Edm.String sein. Schlüsselfelder können verwendet werden, um Dokumente direkt nachzuschlagen und bestimmte Dokumente zu aktualisieren oder zu löschen. Der Standardwert ist false für einfache Felder und null für komplexe Felder.

name

string

Der Name des Felds, der innerhalb der fields-Auflistung des Indexes oder übergeordneten Felds eindeutig sein muss.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der für das Feld verwendet werden soll. Diese Option kann nur für Felder verwendet werden, für die filterbar, sortierbar oder facettierbar aktiviert ist. Sobald der Normalisierer ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein.

retrievable

boolean

Ein Wert, der angibt, ob das Feld in einem Suchergebnis zurückgegeben werden kann. Sie können diese Option deaktivieren, wenn Sie ein Feld (z. B. margin) als Filter-, Sortier- oder Bewertungsmechanismus verwenden möchten, das Feld jedoch nicht für den Endbenutzer sichtbar sein soll. Diese Eigenschaft muss für Schlüsselfelder true und für komplexe Felder null sein. Diese Eigenschaft kann für vorhandene Felder geändert werden. Das Aktivieren dieser Eigenschaft führt nicht zu einer Erhöhung der Anforderungen an den Indexspeicher. Der Standardwert ist true für einfache Felder, false für Vektorfelder und null für komplexe Felder.

searchAnalyzer

LexicalAnalyzerName

Der Name des Analysetools, der zur Suchzeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit indexAnalyzer festgelegt werden und kann nicht zusammen mit der Option analyzer festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie eine Sprachanalyse benötigen. Dieser Analyzer kann für ein vorhandenes Feld aktualisiert werden. Muss für komplexe Felder null sein.

searchable

boolean

Ein Wert, der angibt, ob das Feld im Volltext durchsucht werden kann. Das bedeutet, dass es während der Indizierung einer Analyse unterzogen wird, wie z. B. einer Worttrennung. Wenn Sie ein durchsuchbares Feld auf einen Wert wie "sonniger Tag" setzen, wird es intern in die einzelnen Token "sonnig" und "tag" aufgeteilt. Dies ermöglicht die Volltextsuche nach diesen Begriffen. Felder vom Typ Edm.String oder Collection(Edm.String) können standardmäßig durchsucht werden. Diese Eigenschaft muss für einfache Felder anderer Datentypen, die keine Zeichenfolgen sind, false und für komplexe Felder null sein. Hinweis: Durchsuchbare Felder belegen zusätzlichen Speicherplatz in Ihrem Index, um zusätzliche tokenisierte Versionen des Feldwerts für die Volltextsuche aufzunehmen. Wenn Sie Platz in Ihrem Index sparen möchten und kein Feld in die Suche einbezogen werden müssen, legen Sie searchable auf false fest.

sortable

boolean

Ein Wert, der angibt, ob das Feld in $orderby Ausdrücken referenziert werden soll. Standardmäßig sortiert die Suchmaschine die Ergebnisse nach Punktzahl, aber in vielen Fällen möchten Benutzer nach Feldern in den Dokumenten sortieren. Ein einfaches Feld kann nur sortiert werden, wenn es einwertig ist (es hat einen einzelnen Wert im Bereich des übergeordneten Dokuments). Einfache Sammlungsfelder können nicht sortiert werden, da sie mehrwertig sind. Einfache Unterfelder komplexer Auflistungen sind ebenfalls mehrwertig und können daher nicht sortierbar sein. Dies gilt unabhängig davon, ob es sich um ein unmittelbares übergeordnetes Feld oder ein Vorgängerfeld handelt, das die komplexe Auflistung ist. Komplexe Felder können nicht sortierbar sein, und die sortable-Eigenschaft muss für solche Felder null sein. Der Standardwert für sortierbare Felder ist true, für einfache Felder mit einem einzigen Wert, false für einfache Felder mit mehreren Werten und null für komplexe Felder.

stored

boolean

Ein unveränderlicher Wert, der angibt, ob das Feld separat auf dem Datenträger gespeichert wird, um in einem Suchergebnis zurückgegeben zu werden. Sie können diese Option deaktivieren, wenn Sie nicht vorhaben, den Feldinhalt in einer Suchantwort zurückzugeben, um Speicherplatz zu sparen. Dies kann nur während der Indexerstellung und nur für Vektorfelder eingestellt werden. Diese Eigenschaft kann für vorhandene Felder nicht geändert oder für neue Felder auf false gesetzt werden. Wenn diese Eigenschaft auf false gesetzt ist, muss auch die Eigenschaft 'retrievable' auf false gesetzt werden. Diese Eigenschaft muss für Schlüsselfelder, für neue Felder und für Nicht-Vektorfelder true oder nicht festgelegt sein, und sie muss für komplexe Felder null sein. Durch das Deaktivieren dieser Eigenschaft werden die Anforderungen an den Indexspeicher reduziert. Der Standardwert ist true für Vektorfelder.

synonymMaps

string[]

Eine Liste der Namen der Synonymzuordnungen, die diesem Feld zugeordnet werden sollen. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Derzeit wird nur eine Synonymzuordnung pro Feld unterstützt. Durch das Zuweisen einer Synonymzuordnung zu einem Feld wird sichergestellt, dass Abfragebegriffe für dieses Feld zum Abfragezeitpunkt mithilfe der Regeln in der Synonymzuordnung erweitert werden. Dieses Attribut kann für vorhandene Felder geändert werden. Muss null oder eine leere Auflistung für komplexe Felder sein.

type

SearchFieldDataType

Der Datentyp des Felds.

vectorEncoding

VectorEncodingFormat

Das Codierungsformat zum Interpretieren des Feldinhalts.

vectorSearchProfile

string

Der Name des Vektorsuchprofils, der den Algorithmus und den Vektorisierer angibt, die beim Durchsuchen des Vektorfelds verwendet werden sollen.

SearchFieldDataType

Definiert den Datentyp eines Feldes in einem Suchindex.

Wert Beschreibung
Edm.String

Gibt an, dass ein Feld eine Zeichenfolge enthält.

Edm.Int32

Gibt an, dass ein Feld eine 32-Bit-Ganzzahl mit Vorzeichen enthält.

Edm.Int64

Gibt an, dass ein Feld eine 64-Bit-Ganzzahl mit Vorzeichen enthält.

Edm.Double

Gibt an, dass ein Feld eine IEEE-Gleitkommazahl mit doppelter Genauigkeit enthält.

Edm.Boolean

Gibt an, dass ein Feld einen booleschen Wert (true oder false) enthält.

Edm.DateTimeOffset

Gibt an, dass ein Feld einen Datums-/Uhrzeitwert enthält, einschließlich Zeitzoneninformationen.

Edm.GeographyPoint

Gibt an, dass ein Feld einen geografischen Standort in Bezug auf Längen- und Breitengrad enthält.

Edm.ComplexType

Gibt an, dass ein Feld ein oder mehrere komplexe Objekte enthält, die wiederum Unterfelder anderer Typen haben.

Edm.Single

Gibt an, dass ein Feld eine Gleitkommazahl mit einfacher Genauigkeit enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Single) verwendet wird.

Edm.Half

Gibt an, dass ein Feld eine Gleitkommazahl mit halber Genauigkeit enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Half) verwendet wird.

Edm.Int16

Gibt an, dass ein Feld eine 16-Bit-Ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Int16) verwendet wird.

Edm.SByte

Gibt an, dass ein Feld eine 8-Bit-Ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.SByte) verwendet wird.

Edm.Byte

Gibt an, dass ein Feld eine 8-Bit-Ganzzahl ohne Vorzeichen enthält. Dies ist nur gültig, wenn es mit Collection(Edm.Byte) verwendet wird.

SearchIndex

Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.

Name Typ Beschreibung
@odata.etag

string

Das ETag des Index.

analyzers LexicalAnalyzer[]:

Die Analysetools für den Index.

charFilters CharFilter[]:

Die Zeichenfilter für den Index.

corsOptions

CorsOptions

Optionen zum Steuern von Cross-Origin Resource Sharing (CORS) für den Index.

defaultScoringProfile

string

Der Name des zu verwendenden Bewertungsprofils, wenn in der Abfrage keines angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und in der Abfrage kein Bewertungsprofil angegeben ist, wird die Standardbewertung (tf-idf) verwendet.

description

string

Die Beschreibung des Indexes.

encryptionKey

SearchResourceEncryptionKey

Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Ebene der Verschlüsselung ruhender Daten für Ihre Daten bereitzustellen, wenn Sie die vollständige Gewissheit haben möchten, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleiben sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie Ihren Verschlüsselungsschlüssel rotieren möchten. Ihre Daten bleiben davon unberührt. Die Verschlüsselung mit kundenseitig verwalteten Schlüsseln ist für kostenlose Suchdienste nicht verfügbar und nur für kostenpflichtige Dienste, die am oder nach dem 1. Januar 2019 erstellt wurden.

fields

SearchField[]

Die Felder des Indexes.

name

string

Der Name des Index.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Die Normalisierer für den Index.

scoringProfiles

ScoringProfile[]

Die Bewertungsprofile für den Index.

semantic

SemanticSettings

Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen.

similarity Similarity:

Die Art des Ähnlichkeitsalgorithmus, der bei der Bewertung und Rangfolge der Dokumente verwendet werden soll, die einer Suchanfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zum Zeitpunkt der Indexerstellung definiert werden und kann nicht an vorhandenen Indizes geändert werden. Wenn null, wird der ClassicSimilarity-Algorithmus verwendet.

suggesters

Suggester[]

Die Vorschläge für den Index.

tokenFilters TokenFilter[]:

Das Token filtert nach dem Index.

tokenizers LexicalTokenizer[]:

Die Tokenizer für den Index.

vectorSearch

VectorSearch

Enthält Konfigurationsoptionen für die Vektorsuche.

SearchIndexerDataNoneIdentity

Löscht die Identitätseigenschaft einer Datenquelle.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Ein URI-Fragment, das den Typ der Identität angibt.

SearchIndexerDataUserAssignedIdentity

Gibt die Identität an, die von einer Datenquelle verwendet werden soll.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Ein URI-Fragment, das den Typ der Identität angibt.

userAssignedIdentity

string

Die vollqualifizierte Azure-Ressourcen-ID einer benutzerseitig zugewiesenen verwalteten Identität, in der Regel im Format "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", die dem Suchdienst hätte zugewiesen werden sollen.

SearchResourceEncryptionKey

Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.

Name Typ Beschreibung
accessCredentials

AzureActiveDirectoryApplicationCredentials

Optionale Azure Active Directory-Anmeldeinformationen, die für den Zugriff auf Ihren Azure Key Vault verwendet werden. Nicht erforderlich, wenn stattdessen eine verwaltete Identität verwendet wird.

keyVaultKeyName

string

Der Name Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln ruhender Daten verwendet werden soll.

keyVaultKeyVersion

string

Die Version Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln ruhender Daten verwendet werden soll.

keyVaultUri

string

Der URI Ihres Azure Key Vault-Postfachs, der auch als DNS-Name bezeichnet wird und den Schlüssel enthält, der zum Verschlüsseln ruhender Daten verwendet werden soll. Ein Beispiel-URI könnte sein https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll.

Name Typ Beschreibung
name

string

Der Name der semantischen Konfiguration.

prioritizedFields

PrioritizedFields

Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Mindestens eine der drei Untereigenschaften (titleField, prioritizedKeywordsFields und prioritizedContentFields) muss festgelegt werden.

rankingOrder

RankingOrder

Gibt den Bewertungstyp an, der für die Sortierreihenfolge der Suchergebnisse verwendet werden soll.

SemanticField

Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.

Name Typ Beschreibung
fieldName

string

SemanticSettings

Definiert Parameter für einen Suchindex, die die semantischen Fähigkeiten beeinflussen.

Name Typ Beschreibung
configurations

SemanticConfiguration[]

Die semantischen Konfigurationen für den Index.

defaultConfiguration

string

Ermöglicht es Ihnen, den Namen einer standardmäßigen semantischen Konfiguration in Ihrem Index festzulegen, sodass es optional ist, ihn jedes Mal als Abfrageparameter zu übergeben.

ShingleTokenFilter

Erstellt Kombinationen von Token als einzelnes Token. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

filterToken

string

_

Die Zeichenfolge, die für jede Position eingefügt werden soll, an der kein Token vorhanden ist. Der Standardwert ist ein Unterstrich ("_").

maxShingleSize

integer (int32)

minimum: 2
2

Die maximale Schindelgröße. Der Standard- und Mindestwert ist 2.

minShingleSize

integer (int32)

minimum: 2
2

Die minimale Schindelgröße. Der Standard- und Mindestwert ist 2. Muss kleiner als der Wert von maxShingleSize sein.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

outputUnigrams

boolean

True

Ein Wert, der angibt, ob der Ausgabestream sowohl die Eingabetoken (Unigramme) als auch die Gürtelrose enthält. Der Standardwert ist "true".

outputUnigramsIfNoShingles

boolean

False

Ein Wert, der angibt, ob Unigramme für die Zeiten ausgegeben werden sollen, in denen keine Schindeln verfügbar sind. Diese Eigenschaft hat Vorrang, wenn outputUnigrams auf false festgelegt ist. Der Standardwert ist "false".

tokenSeparator

string

Die Zeichenfolge, die verwendet werden soll, wenn benachbarte Token zu einer Schindel verbunden werden. Der Standardwert ist ein einzelnes Leerzeichen (" ").

SnowballTokenFilter

Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

language

SnowballTokenFilterLanguage

Die zu verwendende Sprache.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

SnowballTokenFilterLanguage

Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll.

Wert Beschreibung
armenian

Wählt den Lucene Snowball-Stemming-Tokenizer für Armenisch aus.

basque

Wählt den Lucene Snowball-Stemming-Tokenizer für Baskisch aus.

catalan

Wählt den Lucene Snowball-Stemming-Tokenizer für Katalanisch aus.

danish

Wählt den Lucene Snowball-Stemming-Tokenizer für Dänisch aus.

dutch

Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus.

english

Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus.

finnish

Wählt den Lucene Snowball-Stemming-Tokenizer für Finnisch aus.

french

Wählt den Lucene Snowball-Stemming-Tokenizer für Französisch aus.

german

Wählt den Lucene Snowball-Stemming-Tokenizer für Deutsch aus.

german2

Wählt den Lucene Snowball-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet.

hungarian

Wählt den Lucene Snowball-Stemming-Tokenizer für Ungarisch aus.

italian

Wählt den Lucene Snowball-Stemming-Tokenizer für Italienisch aus.

kp

Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet.

lovins

Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet.

norwegian

Wählt den Lucene Snowball-Stemming-Tokenizer für Norwegisch aus.

porter

Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Porter-Stemming-Algorithmus verwendet.

portuguese

Wählt den Lucene Snowball-Stemming-Tokenizer für Portugiesisch aus.

romanian

Wählt den Lucene Snowball-Stemming-Tokenizer für Rumänisch aus.

russian

Wählt den Lucene Snowball-Stemming-Tokenizer für Russisch aus.

spanish

Wählt den Lucene Snowball-Stemming-Tokenizer für Spanisch aus.

swedish

Wählt den Lucene Snowball-Stemming-Tokenizer für Schwedisch aus.

turkish

Wählt den Lucene Snowball-Stemming-Tokenizer für Türkisch aus.

StemmerOverrideTokenFilter

Bietet die Möglichkeit, andere Wortstammfilter mit benutzerdefinierter wörterbuchbasierter Wortstammerkennung zu überschreiben. Alle Begriffe, die im Wörterbuch enthalten sind, werden als Schlüsselwörter markiert, sodass sie nicht mit Stammwörtern in der Kette verknüpft werden. Muss vor allen Stielfiltern platziert werden. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

rules

string[]

Eine Liste von Wortstammregeln im folgenden Format: "Wort => Stamm", z. B.: "ran => run".

StemmerTokenFilter

Sprachspezifischer Stemming-Filter. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

language

StemmerTokenFilterLanguage

Die zu verwendende Sprache.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

StemmerTokenFilterLanguage

Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll.

Wert Beschreibung
arabic

Wählt den Lucene-Stemming-Tokenizer für Arabisch aus.

armenian

Wählt den Lucene-Stemming-Tokenizer für Armenisch aus.

basque

Wählt den Lucene-Stemming-Tokenizer für Baskisch aus.

brazilian

Wählt den Lucene-Stemming-Tokenizer für Portugiesisch (Brasilien) aus.

bulgarian

Wählt den Lucene-Stemming-Tokenizer für Bulgarisch aus.

catalan

Wählt den Lucene-Stemming-Tokenizer für Katalanisch aus.

czech

Wählt den Lucene-Stemming-Tokenizer für Tschechisch aus.

danish

Wählt den Lucene-Stemming-Tokenizer für Dänisch aus.

dutch

Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus.

dutchKp

Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet.

english

Wählt den Lucene-Stemming-Tokenizer für Englisch aus.

lightEnglish

Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der leichte Wortstammerkennung ausführt.

minimalEnglish

Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der nur minimale Wortstammerkennung ausführt.

possessiveEnglish

Wählt den Lucene-Stammtokenizer für Englisch aus, der nachfolgende Possessivwörter aus Wörtern entfernt.

porter2

Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Porter2-Stemming-Algorithmus verwendet.

lovins

Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet.

finnish

Wählt den Lucene-Stemming-Tokenizer für Finnisch aus.

lightFinnish

Wählt den Lucene-Stemming-Tokenizer für Finnisch aus, der Light-Stemming ausführt.

french

Wählt den Lucene-Stemming-Tokenizer für Französisch aus.

lightFrench

Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der Light-Stemming ausführt.

minimalFrench

Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der nur minimale Wortstammerkennung ausführt.

galician

Wählt den Lucene-Stemming-Tokenizer für Galizisch aus.

minimalGalician

Wählt den Lucene-Stemming-Tokenizer für Galicisch aus, der nur minimales Stemming ausführt.

german

Wählt den Lucene-Stemming-Tokenizer für Deutsch aus.

german2

Wählt den Lucene-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet.

lightGerman

Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der Light-Stemming ausführt.

minimalGerman

Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der nur minimales Stemming ausführt.

greek

Wählt den Lucene-Stemming-Tokenizer für Griechisch aus.

hindi

Wählt den Lucene-Stemming-Tokenizer für Hindi aus.

hungarian

Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus.

lightHungarian

Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus, der Light-Stemming ausführt.

indonesian

Wählt den Lucene-Stemming-Tokenizer für Indonesisch aus.

irish

Wählt den Lucene-Stemming-Tokenizer für Irisch aus.

italian

Wählt den Lucene-Stemming-Tokenizer für Italienisch aus.

lightItalian

Wählt den Lucene-Stemming-Tokenizer für Italienisch aus, der leichte Wortstammerkennung ausführt.

sorani

Wählt den Lucene-Stemming-Tokenizer für Sorani aus.

latvian

Wählt den Lucene-Stemming-Tokenizer für Lettisch aus.

norwegian

Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus.

lightNorwegian

Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der Light-Stemming ausführt.

minimalNorwegian

Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der nur minimales Stemming ausführt.

lightNynorsk

Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der leichte Wortstammerkennung ausführt.

minimalNynorsk

Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der nur minimale Wortstammerkennung ausführt.

portuguese

Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus.

lightPortuguese

Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der leichte Wortstammerkennung ausführt.

minimalPortuguese

Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der nur minimale Wortstammerkennung ausführt.

portugueseRslp

Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der den RSLP-Stemming-Algorithmus verwendet.

romanian

Wählt den Lucene-Stemming-Tokenizer für Rumänisch aus.

russian

Wählt den Lucene-Stemming-Tokenizer für Russisch aus.

lightRussian

Wählt den Lucene-Stemming-Tokenizer für Russisch aus, der Light-Stemming ausführt.

spanish

Wählt den Lucene-Stemming-Tokenizer für Spanisch aus.

lightSpanish

Wählt den Lucene-Stemming-Tokenizer für Spanisch aus, der leichte Wortstammerkennung ausführt.

swedish

Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus.

lightSwedish

Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus, der leichte Wortstammerkennung ausführt.

turkish

Wählt den Lucene-Stemming-Tokenizer für Türkisch aus.

StopAnalyzer

Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Dieser Analysator wird mit Apache Lucene implementiert.

Name Typ Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Ein URI-Fragment, das den Typ des Analysetools angibt.

name

string

Der Name des Analyzers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

stopwords

string[]

Eine Liste von Stoppwörtern.

StopwordsList

Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an.

Wert Beschreibung
arabic

Wählt die Stoppwortliste für Arabisch aus.

armenian

Wählt die Stoppwortliste für Armenisch aus.

basque

Wählt die Stoppwortliste für Baskisch aus.

brazilian

Wählt die Stoppwortliste für Portugiesisch (Brasilien) aus.

bulgarian

Wählt die Stoppwortliste für Bulgarisch aus.

catalan

Wählt die Stoppwortliste für Katalanisch aus.

czech

Wählt die Stoppwortliste für Tschechisch aus.

danish

Wählt die Stoppwortliste für Dänisch aus.

dutch

Wählt die Stoppwortliste für Niederländisch aus.

english

Wählt die Stoppwortliste für Englisch aus.

finnish

Wählt die Stoppwortliste für Finnisch aus.

french

Wählt die Stoppwortliste für Französisch aus.

galician

Wählt die Stoppwortliste für Galizisch aus.

german

Wählt die Stoppwortliste für Deutsch aus.

greek

Wählt die Stoppwortliste für Griechisch aus.

hindi

Wählt die Stoppwortliste für Hindi aus.

hungarian

Wählt die Stoppwortliste für Ungarisch aus.

indonesian

Wählt die Stoppwortliste für Indonesisch aus.

irish

Wählt die Stoppwortliste für Irisch aus.

italian

Wählt die Stoppwortliste für Italienisch aus.

latvian

Wählt die Stoppwortliste für Lettisch aus.

norwegian

Wählt die Stoppwortliste für Norwegisch aus.

persian

Wählt die Stoppwortliste für Persisch aus.

portuguese

Wählt die Stoppwortliste für Portugiesisch aus.

romanian

Wählt die Stoppwortliste für Rumänisch aus.

russian

Wählt die Stoppwortliste für Russisch aus.

sorani

Wählt die Stoppwortliste für Sorani aus.

spanish

Wählt die Stoppwortliste für Spanisch aus.

swedish

Wählt die Stoppwortliste für Schwedisch aus.

thai

Wählt die Stoppwortliste für Thai aus.

turkish

Wählt die Stoppwortliste für Türkisch aus.

StopwordsTokenFilter

Entfernt Stoppwörter aus einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

ignoreCase

boolean

False

Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben umgewandelt. Der Standardwert ist "false".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

removeTrailing

boolean

True

Ein Wert, der angibt, ob der letzte Suchbegriff ignoriert werden soll, wenn es sich um ein Stoppwort handelt. Der Standardwert ist "true".

stopwords

string[]

Die Liste der Stoppwörter. Diese Eigenschaft und die Eigenschaft Stoppwortliste können nicht beide festgelegt werden.

stopwordsList

StopwordsList

english

Eine vordefinierte Liste von Stoppwörtern, die verwendet werden sollen. Diese Eigenschaft und die stopwords-Eigenschaft können nicht beide festgelegt werden. Der Standardwert ist Englisch.

Suggester

Definiert, wie die Suggest-API auf eine Gruppe von Feldern im Index angewendet werden soll.

Name Typ Beschreibung
name

string

Der Name des Vorschlagsers.

searchMode

SuggesterSearchMode

Ein Wert, der die Funktionen des Vorschlags angibt.

sourceFields

string[]

Die Liste der Feldnamen, auf die die Vorschlagsfunktion angewendet wird. Jedes Feld muss durchsuchbar sein.

SuggesterSearchMode

Ein Wert, der die Funktionen des Vorschlags angibt.

Wert Beschreibung
analyzingInfixMatching

Stimmt mit aufeinanderfolgenden ganzen Begriffen und Präfixen in einem Feld überein. Für das Feld "Der schnellste Braunfuchs" würden z. B. die Abfragen "schnell" und "schnellste Braue" übereinstimmen.

SynonymTokenFilter

Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

expand

boolean

True

Ein Wert, der angibt, ob alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) aufeinander abgebildet werden. Wenn true, werden alle Wörter in der Liste der Synonyme (if => Notation wird nicht verwendet) aufeinander abgebildet. Die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich ist gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich, unglaublich, fabelhaft, erstaunlich. Wenn falsch, entspricht die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich incredible, unglaublich, fabulous, amazing => unglaublich. Der Standardwert ist "true".

ignoreCase

boolean

False

Ein Wert, der angibt, ob die Eingabe für den Abgleich in Groß-/Kleinschreibung gefaltet werden soll. Der Standardwert ist "false".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

synonyms

string[]

Eine Liste von Synonymen in einem von zwei Formaten: 1. unglaublich, unglaublich, fabelhaft => erstaunlich - alle Begriffe auf der linken Seite des => -Symbols werden durch alle Begriffe auf der rechten Seite ersetzt; 2. Unglaublich, unglaublich, fabelhaft, erstaunlich - durch Kommas getrennte Liste gleichwertiger Wörter. Legen Sie die Option "Erweitern" fest, um zu ändern, wie diese Liste interpretiert wird.

TagScoringFunction

Definiert eine Funktion, die die Punktzahl von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen.

Name Typ Beschreibung
boost

number (double)

Ein Multiplikator für die Rohpunktzahl. Muss eine positive Zahl ungleich 1,0 sein.

fieldName

string

Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird.

interpolation

ScoringFunctionInterpolation

Ein Wert, der angibt, wie die Verstärkung über die Dokumentbewertungen hinweg interpoliert wird. ist standardmäßig auf "Linear" eingestellt.

tag

TagScoringParameters

Parameterwerte für die Tag-Scoring-Funktion.

type string:

tag

Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Entfernung und Tag. Der Funktionstyp muss in Kleinbuchstaben geschrieben werden.

TagScoringParameters

Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.

Name Typ Beschreibung
tagsParameter

string

Der Name des Parameters, der in Suchabfragen übergeben wird, um die Liste der Tags anzugeben, die mit dem Zielfeld verglichen werden sollen.

TextWeights

Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen verbessern sollen.

Name Typ Beschreibung
weights

object

Das Wörterbuch der Gewichtungen pro Feld, um die Bewertung von Dokumenten zu verbessern. Die Schlüssel sind Feldnamen und die Werte sind die Gewichtungen für jedes Feld.

TokenCharacterKind

Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann.

Wert Beschreibung
letter

Bewahrt Buchstaben in Token auf.

digit

Speichert Ziffern in Token.

whitespace

Behält Leerzeichen in Token bei.

punctuation

Behält die Interpunktion in Token bei.

symbol

Behält Symbole in Token bei.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
arabic_normalization

Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalisiert CJK-Breitenunterschiede. Faltet ASCII-Varianten in voller Breite in das entsprechende lateinische Basis-Varianten und Katakana-Varianten mit halber Breite in das entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Entfernt englische Possessivformen und Punkte aus Akronymen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalisiert deutsche Zeichen gemäß der Heuristik des German2-Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalisiert Text in Hindi, um einige Unterschiede in der Rechtschreibung zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Ein leistungsstarker kstem-Filter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Begrenzt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generiert N-Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Verwendet den Porter-Stemming-Algorithmus, um den Tokenstream zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer

reverse

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normalisiert die Verwendung der austauschbaren skandinavischen Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Faltet die skandinavischen Schriftzeichen åÅäæÄÆ-a> und öÖøØ-o>. Es diskriminiert auch die Verwendung von Doppelvokalen aa, ae, ao, oe und oo, wobei nur der erste übrig bleibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Sprachspezifischer Stemming-Filter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Kürzt führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Kürzt die Begriffe auf eine bestimmte Länge. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtert Token mit demselben Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalisiert Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch.

TruncateTokenFilter

Kürzt die Begriffe auf eine bestimmte Länge. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

length

integer (int32)

maximum: 300
300

Die Länge, bei der Begriffe abgeschnitten werden. Der Standardwert und der Höchstwert ist 300.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

UaxUrlEmailTokenizer

Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Ein URI-Fragment, das den Typ des Tokenizers angibt.

maxTokenLength

integer (int32)

maximum: 300
255

Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen.

name

string

Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

UniqueTokenFilter

Filtert Token mit demselben Text wie das vorherige Token heraus. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

onlyOnSamePosition

boolean

False

Ein Wert, der angibt, ob Duplikate nur an derselben Position entfernt werden sollen. Der Standardwert ist "false".

VectorEncodingFormat

Das Codierungsformat für die Interpretation von Vektorfeldinhalten.

Wert Beschreibung
packedBit

Codierungsformat, das Bits darstellt, die in einen breiteren Datentyp gepackt sind.

VectorSearch

Enthält Konfigurationsoptionen für die Vektorsuche.

Name Typ Beschreibung
algorithms VectorSearchAlgorithmConfiguration[]:

Enthält Konfigurationsoptionen, die für den Algorithmus spezifisch sind, der während der Indizierung oder Abfrage verwendet wird.

compressions VectorSearchCompressionConfiguration[]:

Enthält Konfigurationsoptionen, die für die Komprimierungsmethode spezifisch sind, die während der Indizierung oder Abfrage verwendet wird.

profiles

VectorSearchProfile[]

Definiert Kombinationen von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.

vectorizers VectorSearchVectorizer[]:

Enthält Konfigurationsoptionen zum Vektorisieren von Textvektorabfragen.

VectorSearchAlgorithmKind

Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.

Wert Beschreibung
hnsw

HNSW (Hierarchical Navigable Small World), eine Art Algorithmus für ungefähre nächste Nachbarn.

exhaustiveKnn

Umfassender KNN-Algorithmus, der eine Brute-Force-Suche durchführt.

VectorSearchAlgorithmMetric

Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde.

Wert Beschreibung
cosine

Misst den Winkel zwischen Vektoren, um ihre Ähnlichkeit zu quantifizieren, ohne Berücksichtigung der Größe. Je kleiner der Winkel, desto größer die Ähnlichkeit.

euclidean

Berechnet den geradlinigen Abstand zwischen Vektoren in einem mehrdimensionalen Raum. Je kleiner der Abstand, desto größer die Ähnlichkeit.

dotProduct

Berechnet die Summe der elementweisen Produkte, um die Ausrichtung und die Ähnlichkeit des Betrags zu messen. Je größer und positiver, desto größer die Ähnlichkeit.

hamming

Gilt nur für binäre Datentypen mit Bitpackung. Bestimmt die Unähnlichkeit, indem unterschiedliche Positionen in binären Vektoren gezählt werden. Je weniger Unterschiede, desto größer ist die Ähnlichkeit.

VectorSearchCompressionKind

Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird.

Wert Beschreibung
scalarQuantization

Skalare Quantisierung, eine Art von Kompressionsmethode. Bei der skalaren Quantisierung werden die ursprünglichen Vektorwerte auf einen schmaleren Typ komprimiert, indem jede Komponente eines Vektors mit einem reduzierten Satz quantisierter Werte diskretisiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird.

binaryQuantization

Binäre Quantisierung, eine Art Kompressionsmethode. Bei der binären Quantisierung werden die ursprünglichen Vektorwerte auf den engeren binären Typ komprimiert, indem jede Komponente eines Vektors mit Binärwerten diskretisiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird.

VectorSearchCompressionRescoreStorageMethod

Die Speichermethode für die ursprünglichen Vektoren mit voller Genauigkeit, die für die Neubewertung und interne Indexvorgänge verwendet werden.

Wert Beschreibung
preserveOriginals

Mit dieser Option werden die ursprünglichen Vektoren mit voller Genauigkeit beibehalten. Wählen Sie diese Option für maximale Flexibilität und höchste Qualität der komprimierten Suchergebnisse. Dies verbraucht mehr Speicherplatz, ermöglicht aber eine Neubewertung und Überabtastung.

discardOriginals

Mit dieser Option werden die ursprünglichen Vektoren mit voller Genauigkeit verworfen. Wählen Sie diese Option aus, um maximale Speichereinsparungen zu erzielen. Da diese Option keine Neubewertung und Überstichprobenerstellung zulässt, führt dies häufig zu leichten bis mäßigen Qualitätseinbußen.

VectorSearchCompressionTargetDataType

Der quantisierte Datentyp von komprimierten Vektorwerten.

Wert Beschreibung
int8

VectorSearchProfile

Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.

Name Typ Beschreibung
algorithm

string

Der Name der Konfiguration des Vektorsuchalgorithmus, die den Algorithmus und optionale Parameter angibt.

compression

string

Der Name der Konfiguration der Komprimierungsmethode, die die Komprimierungsmethode und optionale Parameter angibt.

name

string

Der Name, der mit diesem bestimmten Vektorsuchprofil verknüpft werden soll.

vectorizer

string

Der Name der Vektorisierung, die für die Verwendung mit der Vektorsuche konfiguriert wird.

VectorSearchVectorizerKind

Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.

Wert Beschreibung
azureOpenAI

Generieren Sie Einbettungen mithilfe einer Azure OpenAI-Ressource zur Abfragezeit.

customWebApi

Generieren Sie Einbettungen mit einem benutzerdefinierten Webendpunkt zur Abfragezeit.

WebApiParameters

Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an.

Name Typ Beschreibung
authIdentity SearchIndexerDataIdentity:

Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. Wenn eine authResourceId angegeben und nicht angegeben wird, wird die systemseitig zugewiesene verwaltete Identität verwendet. Wenn bei Aktualisierungen des Indexers die Identität nicht angegeben ist, bleibt der Wert unverändert. Wenn der Wert auf "none" festgelegt ist, wird der Wert dieser Eigenschaft gelöscht.

authResourceId

string

Gilt für benutzerdefinierte Endpunkte, die eine Verbindung mit externem Code in einer Azure-Funktion oder einer anderen Anwendung herstellen, die die Transformationen bereitstellt. Bei diesem Wert sollte es sich um die Anwendungs-ID handeln, die für die Funktion oder App erstellt wurde, als sie bei Azure Active Directory registriert wurde. Wenn angegeben, stellt die Vektorisierung eine Verbindung mit der Funktion oder App her, indem sie eine verwaltete ID (entweder system- oder benutzerseitig zugewiesen) des Suchdiensts und das Zugriffstoken der Funktion oder App verwendet, wobei dieser Wert als Ressourcen-ID zum Erstellen des Bereichs des Zugriffstokens verwendet wird.

httpHeaders

object

Die Header, die zum Ausführen der HTTP-Anforderung erforderlich sind.

httpMethod

string

Die Methode für die HTTP-Anforderung.

timeout

string (duration)

Die gewünschte Zeitüberschreitung für die Anforderung. Der Standardwert ist „30 Sekunden“.

uri

string (uri)

Der URI der Web-API, die den Vektorisierer bereitstellt.

WebApiVectorizer

Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets.

Name Typ Beschreibung
customWebApiParameters

WebApiParameters

Gibt die Eigenschaften des benutzerdefinierten Vektorisierers an.

kind string:

customWebApi

Der Name der Art von Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird.

name

string

Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll.

WordDelimiterTokenFilter

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch. Dieser Token-Filter wird mit Apache Lucene implementiert.

Name Typ Standardwert Beschreibung
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Ein URI-Fragment, das den Typ des Tokenfilters angibt.

catenateAll

boolean

False

Ein Wert, der angibt, ob alle Teilwortteile verkettet werden. Wenn dies z. B. auf true festgelegt ist, wird "Azure-Search-1" zu "AzureSearch1". Der Standardwert ist "false".

catenateNumbers

boolean

False

Ein Wert, der angibt, ob maximale Durchläufe von Zahlenteilen verkettet werden. Wenn dies z. B. auf "true" festgelegt ist, wird "1-2" zu "12". Der Standardwert ist "false".

catenateWords

boolean

False

Ein Wert, der angibt, ob maximale Durchläufe von Wortteilen verkettet werden. Wenn dies z. B. auf "true" festgelegt ist, wird "Azure-Search" zu "AzureSearch". Der Standardwert ist "false".

generateNumberParts

boolean

True

Ein Wert, der angibt, ob Zahlen-Unterwörter generiert werden sollen. Der Standardwert ist "true".

generateWordParts

boolean

True

Ein Wert, der angibt, ob Teilwörter generiert werden sollen. Falls gesetzt, werden Teile von Wörtern generiert; z. B. wird "AzureSearch" zu "Azure", "Search". Der Standardwert ist "true".

name

string

Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche oder Unterstriche enthalten, darf nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen begrenzt.

preserveOriginal

boolean

False

Ein Wert, der angibt, ob die ursprünglichen Wörter beibehalten und der Unterwortliste hinzugefügt werden. Der Standardwert ist "false".

protectedWords

string[]

Eine Liste von Token, die vor Einschränkungen geschützt werden sollen.

splitOnCaseChange

boolean

True

Ein Wert, der angibt, ob Wörter bei caseChange aufgeteilt werden sollen. Wenn dies z. B. auf "true" festgelegt ist, wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist "true".

splitOnNumerics

boolean

True

Ein Wert, der angibt, ob nach Zahlen geteilt werden soll. Wenn dies z. B. auf true festgelegt ist, wird "Azure1Search" zu "Azure" "1" "Search". Der Standardwert ist "true".

stemEnglishPossessive

boolean

True

Ein Wert, der angibt, ob das nachfolgende "'s" für jedes Unterwort entfernt werden soll. Der Standardwert ist "true".