Indexes - Analyze
Zeigt, wie ein Analysetool Text in Token aufteilt.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
URI-Parameter
| Name | In | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
|
index
|
path | True |
string |
Der Name des Indexes, für den ein Analysetool getestet werden soll. |
|
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Die Nachverfolgungs-ID, die mit der Anforderung gesendet wird, um das Debuggen zu unterstützen. |
Anforderungstext
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| text | True |
string |
Der Text, der in Token unterteilt werden soll. |
| analyzer |
Der Name des Analysetools, das zum Umbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus. |
||
| charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird. |
||
| normalizer |
Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll. |
||
| tokenFilters |
Eine optionale Liste von Tokenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird. |
||
| tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen ein Analysetool angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus. |
Antworten
| Name | Typ | Beschreibung |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceIndexAnalyze
Beispielanforderung
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
Beispiel für eine Antwort
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definitionen
| Name | Beschreibung |
|---|---|
|
Analyzed |
Informationen zu einem Token, das von einem Analysetool zurückgegeben wird. |
|
Analyze |
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Textes in Token verwendet werden. |
|
Analyze |
Das Ergebnis des Testens eines Analysetools für Text. |
|
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
|
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
|
Error |
Das Fehlerdetails. |
|
Error |
Fehlerantwort |
|
Lexical |
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
|
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
AnalyzedTokenInfo
Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.
| Name | Typ | Beschreibung |
|---|---|---|
| endOffset |
integer (int32) |
Der Index des letzten Zeichens des Tokens im Eingabetext. |
| position |
integer (int32) |
Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat die Position 0, das nächste die Position 1 usw. Je nach verwendetem Analysator können einige Token die gleiche Position einnehmen, z. B. wenn sie Synonyme voneinander sind. |
| startOffset |
integer (int32) |
Der Index des ersten Zeichens des Tokens im Eingabetext. |
| token |
string |
Das Token, das vom Analysetool zurückgegeben wird. |
AnalyzeRequest
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Textes in Token verwendet werden.
| Name | Typ | Beschreibung |
|---|---|---|
| analyzer |
Der Name des Analysetools, das zum Umbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus. |
|
| charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird. |
|
| normalizer |
Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll. |
|
| text |
string |
Der Text, der in Token unterteilt werden soll. |
| tokenFilters |
Eine optionale Liste von Tokenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird. |
|
| tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen ein Analysetool angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus. |
AnalyzeResult
Das Ergebnis des Testens eines Analysetools für Text.
| Name | Typ | Beschreibung |
|---|---|---|
| tokens |
Die Liste der Token, die von dem in der Anforderung angegebenen Analysetool zurückgegeben werden. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| html_strip |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
| Name | Typ | Beschreibung |
|---|---|---|
| info |
object |
Die zusätzlichen Informationen. |
| type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
| Name | Typ | Beschreibung |
|---|---|---|
| additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
| code |
string |
Der Fehlercode. |
| details |
Die Fehlerdetails. |
|
| message |
string |
Die Fehlermeldung. |
| target |
string |
Das Fehlerziel. |
ErrorResponse
Fehlerantwort
| Name | Typ | Beschreibung |
|---|---|---|
| error |
Das Fehlerobjekt. |
LexicalAnalyzerName
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| ar.microsoft |
Microsoft Analyzer für Arabisch. |
| ar.lucene |
Lucene-Analysator für Arabisch. |
| hy.lucene |
Lucene-Analysator für Armenisch. |
| bn.microsoft |
Microsoft Analyzer für Bangla. |
| eu.lucene |
Lucene-Analysator für Baskisch. |
| bg.microsoft |
Microsoft Analyzer für Bulgarisch. |
| bg.lucene |
Lucene-Analysator für Bulgarisch. |
| ca.microsoft |
Microsoft Analyzer für Katalanisch. |
| ca.lucene |
Lucene-Analysator für Katalanisch. |
| zh-Hans.microsoft |
Microsoft Analyzer für Chinesisch (vereinfacht). |
| zh-Hans.lucene |
Lucene-Analysator für Chinesisch (vereinfacht). |
| zh-Hant.microsoft |
Microsoft Analyzer für Chinesisch (traditionell). |
| zh-Hant.lucene |
Lucene-Analysator für Chinesisch (traditionell). |
| hr.microsoft |
Microsoft Analyzer für Kroatisch. |
| cs.microsoft |
Microsoft Analyzer für Tschechisch. |
| cs.lucene |
Lucene-Analysator für Tschechisch. |
| da.microsoft |
Microsoft Analyzer für Dänisch. |
| da.lucene |
Lucene-Analysator für Dänisch. |
| nl.microsoft |
Microsoft Analyzer für Niederländisch. |
| nl.lucene |
Lucene-Analysator für Niederländisch. |
| en.microsoft |
Microsoft Analyzer für Englisch. |
| en.lucene |
Lucene-Analysator für Englisch. |
| et.microsoft |
Microsoft Analyzer für Estnisch. |
| fi.microsoft |
Microsoft Analyzer für Finnisch. |
| fi.lucene |
Lucene-Analysator für Finnisch. |
| fr.microsoft |
Microsoft Analyzer für Französisch. |
| fr.lucene |
Lucene-Analysator für Französisch. |
| gl.lucene |
Lucene-Analysator für Galizisch. |
| de.microsoft |
Microsoft Analyzer für Deutsch. |
| de.lucene |
Lucene-Analysator für Deutsch. |
| el.microsoft |
Microsoft Analyzer für Griechisch. |
| el.lucene |
Lucene-Analysator für Griechisch. |
| gu.microsoft |
Microsoft Analyzer für Gujarati. |
| he.microsoft |
Microsoft Analyzer für Hebräisch. |
| hi.microsoft |
Microsoft Analyzer für Hindi. |
| hi.lucene |
Lucene-Analysator für Hindi. |
| hu.microsoft |
Microsoft Analyzer für Ungarisch. |
| hu.lucene |
Lucene-Analysator für Ungarisch. |
| is.microsoft |
Microsoft Analyzer für Isländisch. |
| id.microsoft |
Microsoft Analyzer für Indonesisch (Bahasa). |
| id.lucene |
Lucene-Analysator für Indonesisch. |
| ga.lucene |
Lucene-Analysator für Irisch. |
| it.microsoft |
Microsoft Analyzer für Italienisch. |
| it.lucene |
Lucene-Analysator für Italienisch. |
| ja.microsoft |
Microsoft Analyzer für Japanisch. |
| ja.lucene |
Lucene-Analysator für Japanisch. |
| kn.microsoft |
Microsoft Analyzer für Kannada. |
| ko.microsoft |
Microsoft Analyzer für Koreanisch. |
| ko.lucene |
Lucene-Analysator für Koreanisch. |
| lv.microsoft |
Microsoft Analyzer für Lettisch. |
| lv.lucene |
Lucene-Analysator für Lettisch. |
| lt.microsoft |
Microsoft Analyzer für Litauisch. |
| ml.microsoft |
Microsoft Analyzer für Malayalam. |
| ms.microsoft |
Microsoft Analyzer für Malaiisch (Lateinisch). |
| mr.microsoft |
Microsoft Analyzer für Marathi. |
| nb.microsoft |
Microsoft analyzer für Norwegisch (Bokmål). |
| no.lucene |
Lucene-Analysator für Norwegian. |
| fa.lucene |
Lucene-Analysator für Persisch. |
| pl.microsoft |
Microsoft Analyzer für Polnisch. |
| pl.lucene |
Lucene-Analysator für Polnisch. |
| pt-BR.microsoft |
Microsoft Analyzer für Portugiesisch (Brasilien). |
| pt-BR.lucene |
Lucene-Analysator für Portugiesisch (Brasilien). |
| pt-PT.microsoft |
Microsoft Analyzer für Portugiesisch (Portugal). |
| pt-PT.lucene |
Lucene-Analysator für Portugiesisch (Portugal). |
| pa.microsoft |
Microsoft Analyzer für Punjabi. |
| ro.microsoft |
Microsoft Analyzer für Rumänisch. |
| ro.lucene |
Lucene-Analysator für Rumänisch. |
| ru.microsoft |
Microsoft Analyzer für Russisch. |
| ru.lucene |
Lucene-Analysator für Russisch. |
| sr-cyrillic.microsoft |
Microsoft Analyzer für Serbisch (Kyrillisch). |
| sr-latin.microsoft |
Microsoft Analyzer für Serbisch (Lateinisch). |
| sk.microsoft |
Microsoft Analyzer für Slowakisch. |
| sl.microsoft |
Microsoft Analyzer für Slowenisch. |
| es.microsoft |
Microsoft Analyzer für Spanisch. |
| es.lucene |
Lucene-Analysator für Spanisch. |
| sv.microsoft |
Microsoft Analyzer für Schwedisch. |
| sv.lucene |
Lucene-Analysator für Schwedisch. |
| ta.microsoft |
Microsoft Analyzer für Tamil. |
| te.microsoft |
Microsoft Analyzer für Telugu. |
| th.microsoft |
Microsoft Analyzer für Thai. |
| th.lucene |
Lucene-Analysator für Thai. |
| tr.microsoft |
Microsoft Analyzer für Türkisch. |
| tr.lucene |
Lucene-Analysator für Türkisch. |
| uk.microsoft |
Microsoft Analyzer für Ukrainisch. |
| ur.microsoft |
Microsoft Analyzer für Urdu. |
| vi.microsoft |
Microsoft Analyzer für Vietnamesisch. |
| standard.lucene |
Standardmäßiger Lucene-Analysator. |
| standardasciifolding.lucene |
Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| asciifolding |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.