Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Bei einer Einbettung handelt es sich um ein spezielles Format der Datendarstellung, das Machine Learning-Modelle und -Algorithmen problemlos verwenden können. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen. Einbettungen unterstützen die Vektorähnlichkeitssuche in Abrufsystemen wie Azure KI-Suche (empfohlen) und in Azure-Datenbanken wie Azure Cosmos DB for MongoDB V-Kern, Azure SQL-Datenbank und Azure Database for PostgreSQL – Flexibler Server.
Einbetten von Modellen
Einbettungen vereinfachen maschinelles Lernen bei umfangreichen Eingaben, die Wörter darstellen, indem die semantischen Ähnlichkeiten in einem Vektorraum erfasst werden. Daher können Sie Einbettungen verwenden, um zu bestimmen, ob zwei Textblöcke semantisch verwandt oder ähnlich sind, und einen Score zur Bewertung der Ähnlichkeit bereitstellen.
Kosinusähnlichkeit
Azure OpenAI-Einbettungen basieren oft auf Kosinusähnlichkeit, um die Ähnlichkeit zwischen Dokumenten und einer Abfrage zu berechnen.
Aus mathematischer Sicht misst die Kosinusähnlichkeit den Kosinus des Winkels zwischen zwei Vektoren, die in einem mehrdimensionalen Raum projiziert werden. Diese Messung ist von Vorteil, denn wenn zwei Dokumente aufgrund der Größe einen großen Euklidischen Abstand voneinander aufweisen, können sie dennoch einen kleineren Winkel und somit eine höhere Kosinusähnlichkeit aufweisen. Weitere Informationen zu Kosinusähnlichkeitsgleichungen finden Sie unter Kosinusähnlichkeit.
Eine alternative Methode zum Identifizieren ähnlicher Dokumente besteht darin, die Anzahl identischer Wörter zwischen Dokumenten zu zählen. Dieser Ansatz ist nicht skalierbar, da eine Erweiterung der Dokumentgröße wahrscheinlich zu einer größeren Anzahl häufiger Wörter führt, die auch bei unterschiedlichen Themen erkannt werden. Aus diesem Grund kann die Kosinusähnlichkeit eine effektivere Alternative darstellen.
Nächste Schritte
- Weitere Informationen zur Verwendung von Azure OpenAI und Einbettungen für die Dokumentsuche finden Sie in unserem Tutorial zum Einbetten.
- Speichern Sie Ihre Einbettungen und führen Sie die Vektorsuche (Ähnlichkeit) mit Azure Cosmos DB für MongoDB vCore, Azure Cosmos DB für NoSQL , Azure SQL-Datenbank oder Azure-Datenbank für PostgreSQL – Flexible Server durch.
- Verwenden eines Eventhouse in Echtzeitintelligenz in Microsoft Fabric als eine Vektordatenbank.
- Verwenden Sie die Funktion series_cosine_similarity für die Ähnlichkeitssuche.