Freigeben über


Multimodale Suche in Azure AI Search

Die multimodale Suche bezieht sich auf die Möglichkeit, Informationen über mehrere Inhaltstypen hinweg aufzunehmen, zu verstehen und abzurufen, einschließlich Text, Bilder, Video und Audio. In Azure AI Search unterstützt die multimodale Suche nativ die Aufnahme von Dokumenten, die Text und Bilder enthalten, und das Abrufen ihrer Inhalte, sodass Sie Suchvorgänge durchführen können, die beide Modalitäten kombinieren.

Das Erstellen einer robusten multimodalen Pipeline umfasst in der Regel Folgendes:

  1. Extrahieren von Inlinebildern und Seitentext aus Dokumenten.

  2. Beschreiben von Bildern in natürlicher Sprache.

  3. Einbetten von Text und Bildern in einen freigegebenen Vektorbereich.

  4. Speichern der Bilder für die spätere Verwendung als Anmerkungen.

Die multimodale Suche erfordert auch die Beibehaltung der Reihenfolge der Informationen, wie sie in den Dokumenten angezeigt wird, und das Ausführen von Hybridabfragen , die Volltextsuche mit Vektorsuche und semantischer Rangfolge kombinieren.

In der Praxis kann eine Anwendung, die die multimodale Suche verwendet, Fragen wie "Was ist der Prozess, um ein HR-Formular genehmigt zu haben?" beantworten, auch wenn die einzige autoritative Beschreibung des Prozesses in einem eingebetteten Diagramm in einer PDF-Datei gespeichert ist.

Die multimodale Suche erfordert traditionell separate Systeme für die Text- und Bildverarbeitung, die häufig benutzerdefinierten Code und Konfigurationen auf niedriger Ebene von Entwicklern erfordern. Die Aufrechterhaltung dieser Systeme führt zu höheren Kosten, Komplexität und Aufwand.

Azure AI Search behebt diese Herausforderungen, indem Bilder in dieselbe Abrufpipeline wie Text integriert werden. Mit einer einzigen multimodalen Pipeline können Sie das Einrichten und Entsperren von Informationen vereinfachen, die sich in Diagrammen, Screenshots, Infografiken, gescannten Formularen und anderen komplexen Visuellen befinden.

Multimodale Suche ist ideal für Retrieval-Augmented Generation (RAG)-Anwendungsfälle. Durch die Interpretation der strukturellen Logik von Bildern verringert die multimodale Suche die Wahrscheinlichkeit, dass Ihre RAG-Anwendung oder Ihr KI-Agent wichtige visuelle Details übersieht. Außerdem erhalten Ihre Benutzer detaillierte Antworten, die unabhängig von der Modalität der Quelle auf ihre ursprünglichen Quellen zurückverfolgt werden können.

Wie funktioniert die multimodale Suche?

Um die Erstellung einer multimodalen Pipeline zu vereinfachen, bietet Azure AI Search den Assistenten zum Importieren von Daten (neu) im Azure-Portal an. Der Assistent hilft Ihnen, eine Datenquelle zu konfigurieren, Extraktions- und Anreicherungseinstellungen zu definieren und einen multimodalen Index zu generieren, der Text, eingebettete Bildverweise und Vektoreinbettungen enthält. Weitere Informationen finden Sie in der Schnellstartanleitung: Multimodale Suche im Azure-Portal.

Der Assistent führt die folgenden Schritte aus, um eine multimodale Pipeline zu erstellen:

  1. Inhalt extrahieren: Wählen Sie aus der Dokumentenextraktionsfunktion, der Dokumentlayout-Funktion oder der Azure Content Understanding-Funktion, um Seitentext, Inlinebilder und strukturelle Metadaten zu erhalten. Jede Fähigkeit bietet unterschiedliche Funktionen für metadatenextraktion, Tabellenverarbeitung und Dateiformatunterstützung. Ausführliche Vergleiche finden Sie unter "Optionen für die multimodale Inhaltsextraktion".

  2. Blocktext: Die Text-Split-Fähigkeit teilt den extrahierten Text in handhabbare Blöcke zur Verwendung in der verbleibenden Pipeline, wie etwa der Einbettungs-Fähigkeit.

  3. Generieren von Bildbeschreibungen: Die GenAI Prompt-Fähigkeit verbalisiert Bilder und erzeugt präzise Natursprachbeschreibungen für die Textsuche und Einbettung mit einem großen Sprachmodell (LLM).

  4. Einbettungen generieren: Die Einbettungskompetenz erstellt Vektordarstellungen von Text und Bildern, wodurch Ähnlichkeit und Hybridabruf ermöglicht werden. Sie können Azure OpenAI-, Microsoft Foundry- oder Azure Vision-Einbettungsmodelle nativ aufrufen.

    Alternativ können Sie die Bildverbalisierung überspringen und den extrahierten Text und Bilder direkt an ein multimodales Einbettungsmodell durch die AML-Fähigkeit oder azure Vision multimodale Einbettungskompetenz übergeben. Weitere Informationen finden Sie unter "Optionen für das einbetten von multimodalen Inhalten".

  5. Extrahierte Bilder speichern: Der Wissensspeicher enthält extrahierte Bilder, die direkt an Clientanwendungen zurückgegeben werden können. Wenn Sie den Assistenten verwenden, wird die Position eines Bilds direkt im multimodalen Index gespeichert und ermöglicht einen bequemen Abruf zur Abfragezeit.

Tip

Um die multimodale Suche in Aktion zu sehen, schließen Sie Ihren vom Assistenten erstellten Index in die multimodale RAG-Beispielanwendung ein. Das Beispiel veranschaulicht, wie eine RAG-Anwendung einen multimodalen Index verwendet und sowohl Textzitate als auch zugehörige Bildausschnitte in der Antwort rendert. Das Beispiel zeigt auch den codebasierten Prozess der Erfassung und Indizierung von Daten.

Optionen für die multimodale Inhaltsextraktion

Eine multimodale Pipeline beginnt damit, jedes Quelldokument in Textabschnitte, Inline-Bilder und zugehörige Metadaten zu zerlegen. Für diesen Schritt bietet Azure AI Search drei integrierte Fähigkeiten:

Characteristic Dokumentextraktionskompetenz Fähigkeit im Bereich des Dokumentlayouts Azure Content Understanding-Skill
Metadatenextraktion von Textpositionen (Seiten und begrenzende Polygone) No Yes Yes
Extraktion von Standort-Metadaten der Bilder (Seiten und begrenzende Polygone) Yes Yes Yes
Tabellenextraktion und -erhaltung No No Ja (einschließlich seitenübergreifender Tabellen)
Seitenübergreifende semantische Einheiten Nicht anwendbar Nur eine Seite Ja (überschreitet Seitengrenzen)
Speicherortmetadatenextraktion basierend auf dem Dateityp Nur PDF-Dateien. Mehrere unterstützte Dateitypen gemäß dem Layoutmodell der Azure Document Intelligence in Foundry Tools. Mehrere unterstützte Dateitypen, einschließlich PDF, DOCX, XLSX und PPTX.
Abrechnung für die Datenextraktion Die Bildextraktion wird gemäß den Preisen für Azure AI Search in Rechnung gestellt. Abgerechnet gemäß Dokumentlayout-Preisen. Abgerechnet gemäß Azure Content Understanding-Preisen.
Integrierte Segmentierung Nein (Textaufteilungsfunktion verwenden) Ja (basierend auf Absatzgrenzen) Ja (Bildung semantischer Blöcke)
Empfohlene Szenarien Schnelle Prototyperstellung oder Produktionspipelinen, bei denen die genaue Position oder detaillierte Layoutinformationen nicht erforderlich sind. RAG-Pipelines und Agent-Workflows, die präzise Seitenzahlen, Seitenhighlights oder Diagrammüberlagerungen in Client-Apps benötigen. Erweiterte Dokumentanalyse, die eine seitenübergreifende Tabellenextraktion, semantische Blöcke oder eine konsistente Behandlung in Dokumentformaten erfordert (PDF, DOCX, XLSX, PPTX).

Optionen für das Einbetten von multimodalen Inhalten

In Azure AI Search kann das Abrufen von Wissen aus Bildern zwei ergänzende Pfade folgen: Bildverbalisierung oder direkte Einbettungen. Wenn Sie die Unterschiede verstehen, können Sie Kosten, Latenz und Qualität mit den Anforderungen Ihrer Anwendung abstimmen.

Bildverbalisierung gefolgt von Texteinbettungen

Bei dieser Methode ruft die GenAI Prompt-Fähigkeit während der Aufnahme ein LLM auf, um eine prägnante Beschreibung jedes extrahierten Bildes in natürlicher Sprache zu erstellen, z. B. „Fünfstufiger HR-Workflow, der mit der Genehmigung der vorgesetzten Person beginnt.“ Die Beschreibung wird als Text gespeichert und neben dem umgebenden Dokumenttext eingebettet, den Sie dann vektorisieren können, indem Sie Einbettungsmodelle für Azure OpenAI, Microsoft Foundry oder Azure Vision aufrufen.

Da das Bild jetzt in der Sprache ausgedrückt wird, kann Azure AI Search:

  • Interpretieren sie die Beziehungen und Entitäten, die in einem Diagramm angezeigt werden.

  • Stellen Sie vorgefertigte Beschriftungen bereit, die ein LLM in einer Antwort zitieren kann.

  • Gibt relevante Codeausschnitte für RAG-Anwendungen oder KI-Agent-Szenarien mit geerdeten Daten zurück.

Die hinzugefügte semantische Tiefe beinhaltet einen LLM-Aufruf für jedes Bild und eine geringfügige Zunahme der Indizierungszeit.

Direkte multimodale Einbettungen

Eine zweite Option besteht darin, die von dokumenten extrahierten Bilder und Text an ein multimodales Einbettungsmodell zu übergeben, das Vektordarstellungen im selben Vektorraum erzeugt. Die Konfiguration ist einfach, und zur Indizierungszeit ist kein LLM erforderlich. Direkte Einbettungen eignen sich gut für visuelle Ähnlichkeiten und "find-me-something-that-looks-like-this"-Szenarien.

Da die Darstellung rein mathematisch ist, vermittelt sie nicht, warum zwei Bilder miteinander verknüpft sind, und es bietet keinen bereiten LLM-Kontext für Zitate oder detaillierte Erläuterungen.

Kombinieren beider Ansätze

Viele Lösungen benötigen beide Codierungspfade. Diagramme, Flussdiagramme und andere erklärungsreiche visuelle Elemente werden verbalisiert, sodass semantische Informationen zur Verfügung stehen für die Einbindung von RAG- und KI-Agenten. Screenshots, Produktfotos oder Grafiken werden direkt für eine effiziente Ähnlichkeitssuche eingebettet. Sie können Ihre Azure AI Search-Index- und Indexer-Skillsetpipeline anpassen, damit sie die beiden Vektorgruppen speichern und nebeneinander abrufen kann.

Optionen zum Abfragen von multimodalen Inhalten

Wenn Ihre multimodale Pipeline von der GenAI Prompt-Fähigkeit unterstützt wird, können Sie Hybridabfragen sowohl über Nur-Text- als auch verbalisierte Bilder in Ihrem Suchindex ausführen. Sie können auch Filter verwenden, um die Suchergebnisse auf bestimmte Inhaltstypen einzugrenzen, z. B. nur Text oder nur Bilder.

Obwohl die GenAI Prompt-Fähigkeit Text-zu-Vektor-Abfragen über die Hybridsuche unterstützt, unterstützt sie keine Bild-zu-Vektor-Abfragen. Nur die multimodalen Einbettungsmodelle stellen die Vektorisierer bereit, die Bilder zur Abfragezeit in Vektoren konvertieren.

Um Bilder als Abfrageeingaben für Ihren multimodalen Index zu verwenden, müssen Sie die AML-Fähigkeit oder die Azure Vision multimodale Einbettungsfähigkeiten mit einem entsprechenden Vektorizer verwenden. Weitere Informationen finden Sie unter Konfigurieren eines Vektorizers in einem Suchindex.

Lernprogramme und Beispiele

Um Ihnen bei den ersten Schritten mit der multimodalen Suche in Azure AI Search zu helfen, finden Sie hier eine Sammlung von Inhalten, die veranschaulicht, wie sie mit Azure-Funktionen multimodale Indizes erstellen und optimieren.

Content Description
Schnellstart: Multimodale Suche im Azure-Portal Erstellen und testen Sie einen multimodalen Index im Azure-Portal mithilfe des Assistenten und des Such-Explorers.
Lernprogramm: Verbalisieren von Bildern mithilfe von generativen KI Extrahieren Sie Text und Bilder, verbalisieren Sie Diagramme, und betten Sie die resultierenden Beschreibungen und Text in einen durchsuchbaren Index ein.
Lernprogramm: Vektorisieren von Bildern und Text Verwenden Sie ein Vision-Text-Modell, um Sowohl Text als auch Bilder direkt einzubetten, wodurch die Suche nach visueller Ähnlichkeit über gescannte PDF-Dateien ermöglicht wird.
Lernprogramm: Verbalisieren von Bildern aus einem strukturierten Dokumentlayout Wenden Sie Layout-bewusstes Fragmentieren und Verbalisieren von Diagrammen an, erfassen Sie Positionsmetadaten und speichern Sie ausgeschnittene Bilder für präzise Zitate und Seitenmarkierungen.
Lernprogramm: Vektorisieren aus einem strukturierten Dokumentlayout Kombinieren Sie layoutfähige Blöcke mit einheitlichen Einbettungen für die Hybridsemantik- und Stichwortsuche, die genaue Trefferpositionen zurückgibt.
Beispiel-App: Multimodales RAG GitHub-Repository Eine End-to-End-, codefertige RAG-Anwendung mit multimodalen Funktionen, die sowohl Textausschnitte als auch Bildanmerkungen darstellen. Ideal für das Starten von Enterprise-Copiloten.