Freigeben über


Indexes - Analyze

Zeigt, wie ein Analysetool Text in Token aufteilt.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Die Endpunkt-URL des Suchdiensts.

indexName
path True

string

Der Name des Indexes, für den ein Analysetool getestet werden soll.

api-version
query True

string

Client-API-Version.

Anforderungsheader

Name Erforderlich Typ Beschreibung
x-ms-client-request-id

string (uuid)

Die Nachverfolgungs-ID, die mit der Anforderung gesendet wird, um das Debuggen zu unterstützen.

Anforderungstext

Name Erforderlich Typ Beschreibung
text True

string

Der Text, der in Token unterteilt werden soll.

analyzer

LexicalAnalyzerName

Der Name des Analysetools, das zum Umbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste von Tokenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen ein Analysetool angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus.

Antworten

Name Typ Beschreibung
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Fehlerantwort.

Beispiele

SearchServiceIndexAnalyze

Beispielanforderung

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Beispiel für eine Antwort

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitionen

Name Beschreibung
AnalyzedTokenInfo

Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Textes in Token verwendet werden.

AnalyzeResult

Das Ergebnis des Testens eines Analysetools für Text.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

ErrorDetail

Das Fehlerdetails.

ErrorResponse

Fehlerantwort

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

AnalyzedTokenInfo

Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.

Name Typ Beschreibung
endOffset

integer (int32)

Der Index des letzten Zeichens des Tokens im Eingabetext.

position

integer (int32)

Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat die Position 0, das nächste die Position 1 usw. Je nach verwendetem Analysator können einige Token die gleiche Position einnehmen, z. B. wenn sie Synonyme voneinander sind.

startOffset

integer (int32)

Der Index des ersten Zeichens des Tokens im Eingabetext.

token

string

Das Token, das vom Analysetool zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Textes in Token verwendet werden.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analysetools, das zum Umbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll.

text

string

Der Text, der in Token unterteilt werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste von Tokenfiltern, die beim Umbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur gesetzt werden, wenn der Parameter tokenizer verwendet wird.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Textes verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen ein Analysetool angeben. Die Parameter tokenizer und analyzer schließen sich gegenseitig aus.

AnalyzeResult

Das Ergebnis des Testens eines Analysetools für Text.

Name Typ Beschreibung
tokens

AnalyzedTokenInfo[]

Die Liste der Token, die von dem in der Anforderung angegebenen Analysetool zurückgegeben werden.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
html_strip

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

Name Typ Beschreibung
info

object

Die zusätzlichen Informationen.

type

string

Der zusätzliche Informationstyp.

ErrorDetail

Das Fehlerdetails.

Name Typ Beschreibung
additionalInfo

ErrorAdditionalInfo[]

Die zusätzlichen Informationen des Fehlers.

code

string

Der Fehlercode.

details

ErrorDetail[]

Die Fehlerdetails.

message

string

Die Fehlermeldung.

target

string

Das Fehlerziel.

ErrorResponse

Fehlerantwort

Name Typ Beschreibung
error

ErrorDetail

Das Fehlerobjekt.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
ar.microsoft

Microsoft Analyzer für Arabisch.

ar.lucene

Lucene-Analysator für Arabisch.

hy.lucene

Lucene-Analysator für Armenisch.

bn.microsoft

Microsoft Analyzer für Bangla.

eu.lucene

Lucene-Analysator für Baskisch.

bg.microsoft

Microsoft Analyzer für Bulgarisch.

bg.lucene

Lucene-Analysator für Bulgarisch.

ca.microsoft

Microsoft Analyzer für Katalanisch.

ca.lucene

Lucene-Analysator für Katalanisch.

zh-Hans.microsoft

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hans.lucene

Lucene-Analysator für Chinesisch (vereinfacht).

zh-Hant.microsoft

Microsoft Analyzer für Chinesisch (traditionell).

zh-Hant.lucene

Lucene-Analysator für Chinesisch (traditionell).

hr.microsoft

Microsoft Analyzer für Kroatisch.

cs.microsoft

Microsoft Analyzer für Tschechisch.

cs.lucene

Lucene-Analysator für Tschechisch.

da.microsoft

Microsoft Analyzer für Dänisch.

da.lucene

Lucene-Analysator für Dänisch.

nl.microsoft

Microsoft Analyzer für Niederländisch.

nl.lucene

Lucene-Analysator für Niederländisch.

en.microsoft

Microsoft Analyzer für Englisch.

en.lucene

Lucene-Analysator für Englisch.

et.microsoft

Microsoft Analyzer für Estnisch.

fi.microsoft

Microsoft Analyzer für Finnisch.

fi.lucene

Lucene-Analysator für Finnisch.

fr.microsoft

Microsoft Analyzer für Französisch.

fr.lucene

Lucene-Analysator für Französisch.

gl.lucene

Lucene-Analysator für Galizisch.

de.microsoft

Microsoft Analyzer für Deutsch.

de.lucene

Lucene-Analysator für Deutsch.

el.microsoft

Microsoft Analyzer für Griechisch.

el.lucene

Lucene-Analysator für Griechisch.

gu.microsoft

Microsoft Analyzer für Gujarati.

he.microsoft

Microsoft Analyzer für Hebräisch.

hi.microsoft

Microsoft Analyzer für Hindi.

hi.lucene

Lucene-Analysator für Hindi.

hu.microsoft

Microsoft Analyzer für Ungarisch.

hu.lucene

Lucene-Analysator für Ungarisch.

is.microsoft

Microsoft Analyzer für Isländisch.

id.microsoft

Microsoft Analyzer für Indonesisch (Bahasa).

id.lucene

Lucene-Analysator für Indonesisch.

ga.lucene

Lucene-Analysator für Irisch.

it.microsoft

Microsoft Analyzer für Italienisch.

it.lucene

Lucene-Analysator für Italienisch.

ja.microsoft

Microsoft Analyzer für Japanisch.

ja.lucene

Lucene-Analysator für Japanisch.

kn.microsoft

Microsoft Analyzer für Kannada.

ko.microsoft

Microsoft Analyzer für Koreanisch.

ko.lucene

Lucene-Analysator für Koreanisch.

lv.microsoft

Microsoft Analyzer für Lettisch.

lv.lucene

Lucene-Analysator für Lettisch.

lt.microsoft

Microsoft Analyzer für Litauisch.

ml.microsoft

Microsoft Analyzer für Malayalam.

ms.microsoft

Microsoft Analyzer für Malaiisch (Lateinisch).

mr.microsoft

Microsoft Analyzer für Marathi.

nb.microsoft

Microsoft analyzer für Norwegisch (Bokmål).

no.lucene

Lucene-Analysator für Norwegian.

fa.lucene

Lucene-Analysator für Persisch.

pl.microsoft

Microsoft Analyzer für Polnisch.

pl.lucene

Lucene-Analysator für Polnisch.

pt-BR.microsoft

Microsoft Analyzer für Portugiesisch (Brasilien).

pt-BR.lucene

Lucene-Analysator für Portugiesisch (Brasilien).

pt-PT.microsoft

Microsoft Analyzer für Portugiesisch (Portugal).

pt-PT.lucene

Lucene-Analysator für Portugiesisch (Portugal).

pa.microsoft

Microsoft Analyzer für Punjabi.

ro.microsoft

Microsoft Analyzer für Rumänisch.

ro.lucene

Lucene-Analysator für Rumänisch.

ru.microsoft

Microsoft Analyzer für Russisch.

ru.lucene

Lucene-Analysator für Russisch.

sr-cyrillic.microsoft

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

Microsoft Analyzer für Serbisch (Lateinisch).

sk.microsoft

Microsoft Analyzer für Slowakisch.

sl.microsoft

Microsoft Analyzer für Slowenisch.

es.microsoft

Microsoft Analyzer für Spanisch.

es.lucene

Lucene-Analysator für Spanisch.

sv.microsoft

Microsoft Analyzer für Schwedisch.

sv.lucene

Lucene-Analysator für Schwedisch.

ta.microsoft

Microsoft Analyzer für Tamil.

te.microsoft

Microsoft Analyzer für Telugu.

th.microsoft

Microsoft Analyzer für Thai.

th.lucene

Lucene-Analysator für Thai.

tr.microsoft

Microsoft Analyzer für Türkisch.

tr.lucene

Lucene-Analysator für Türkisch.

uk.microsoft

Microsoft Analyzer für Ukrainisch.

ur.microsoft

Microsoft Analyzer für Urdu.

vi.microsoft

Microsoft Analyzer für Vietnamesisch.

standard.lucene

Standardmäßiger Lucene-Analysator.

standardasciifolding.lucene

Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Trennt Text flexibel in Begriffe über ein Muster für reguläre Ausdrücke. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Teilt Text in Nicht-Buchstaben; Wendet die Filter für Kleinbuchstaben und Stoppwort-Token an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
classic

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten europäischsprachigen Dokumente geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenisiert die Eingabe von einer Kante in N-Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Teilt Text in Nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Unterteilt Text in Nicht-Buchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Unterteilt Text nach sprachspezifischen Regeln.

microsoft_language_stemming_tokenizer

Unterteilt den Text nach sprachspezifischen Regeln und reduziert Wörter auf ihre Grundformen.

nGram

Tokenisiert die Eingabe in N-Gramme der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer, der den Regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standard-Lucene-Analysator; Bestehend aus dem Standard-Tokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Teilt den Text durch Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
arabic_normalization

Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") enthalten sind, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Bildet Bigramme von CJK-Begriffen, die aus dem Standard-Tokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalisiert CJK-Breitenunterschiede. Faltet ASCII-Varianten in voller Breite in das entsprechende lateinische Basis-Varianten und Katakana-Varianten mit halber Breite in das entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Entfernt englische Possessivformen und Punkte aus Akronymen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Erstellen Sie Bigramme für häufig vorkommende Begriffe während der Indizierung. Auch einzelne Begriffe werden weiterhin indiziert, wobei Bigramme überlagert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generiert N-Gramme der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Entfernt Auslassungen. Zum Beispiel wird "l'avion" (das Flugzeug) in "avion" (Flugzeug) umgewandelt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalisiert deutsche Zeichen gemäß der Heuristik des German2-Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalisiert Text in Hindi, um einige Unterschiede in der Rechtschreibung zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Ein leistungsstarker kstem-Filter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Begrenzt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generiert N-Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Verwendet den Porter-Stemming-Algorithmus, um den Tokenstream zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer

reverse

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normalisiert die Verwendung der austauschbaren skandinavischen Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Faltet die skandinavischen Schriftzeichen åÅäæÄÆ-a> und öÖøØ-o>. Es diskriminiert auch die Verwendung von Doppelvokalen aa, ae, ao, oe und oo, wobei nur der erste übrig bleibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Ein Filter, der Wörter mithilfe einer von Snowball generierten Wortstammerkennung trennt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Sprachspezifischer Stemming-Filter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Kürzt führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Kürzt die Begriffe auf eine bestimmte Länge. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtert Token mit demselben Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalisiert Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen durch.