Freigeben über


Verständnis von Einbettungen in Azure OpenAI und Azure AI Foundry-Modellen

Bei einer Einbettung handelt es sich um ein spezielles Format der Datendarstellung, das Machine Learning-Modelle und -Algorithmen problemlos verwenden können. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen. Einbettungen unterstützen die Vektorähnlichkeitssuche in Abrufsystemen wie Azure KI-Suche (empfohlen) und in Azure-Datenbanken wie Azure Cosmos DB for MongoDB V-Kern, Azure SQL-Datenbank und Azure Database for PostgreSQL – Flexibler Server.

Einbetten von Modellen

Einbettungen vereinfachen maschinelles Lernen bei umfangreichen Eingaben, die Wörter darstellen, indem die semantischen Ähnlichkeiten in einem Vektorraum erfasst werden. Daher können Sie Einbettungen verwenden, um zu bestimmen, ob zwei Textblöcke semantisch verwandt oder ähnlich sind, und einen Score zur Bewertung der Ähnlichkeit bereitstellen.

Kosinusähnlichkeit

Azure OpenAI-Einbettungen basieren oft auf Kosinusähnlichkeit, um die Ähnlichkeit zwischen Dokumenten und einer Abfrage zu berechnen.

Aus mathematischer Sicht misst die Kosinusähnlichkeit den Kosinus des Winkels zwischen zwei Vektoren, die in einem mehrdimensionalen Raum projiziert werden. Diese Messung ist von Vorteil, denn wenn zwei Dokumente aufgrund der Größe einen großen Euklidischen Abstand voneinander aufweisen, können sie dennoch einen kleineren Winkel und somit eine höhere Kosinusähnlichkeit aufweisen. Weitere Informationen zu Kosinusähnlichkeitsgleichungen finden Sie unter Kosinusähnlichkeit.

Eine alternative Methode zum Identifizieren ähnlicher Dokumente besteht darin, die Anzahl identischer Wörter zwischen Dokumenten zu zählen. Dieser Ansatz ist nicht skalierbar, da eine Erweiterung der Dokumentgröße wahrscheinlich zu einer größeren Anzahl häufiger Wörter führt, die auch bei unterschiedlichen Themen erkannt werden. Aus diesem Grund kann die Kosinusähnlichkeit eine effektivere Alternative darstellen.

Nächste Schritte