Freigeben über


Kognitive Fähigkeiten der Dokumentextraktion

Die Dokumentextraktionsfähigkeit extrahiert Inhalte aus einer Datei innerhalb der Anreicherungspipeline. Standardmäßig ist die Inhaltsextraktion oder der Abruf in die Indexerpipeline integriert. Mithilfe der Dokumentextraktionsfähigkeit können Sie jedoch steuern, wie Parameter festgelegt werden und wie extrahierte Inhalte in der Anreicherungsstruktur benannt werden.

Für die Vektor- und multimodale Suche ist die Dokumentextraktion in Kombination mit der Fähigkeit "Textteilung " erschwinglicher als andere Datenabschnittsansätze. Die folgenden Lernprogramme veranschaulichen die Fähigkeitsnutzung für verschiedene Szenarien:

Note

Diese Fähigkeit ist nicht an Azure AI-Dienste gebunden und hat keine Schlüsselanforderung für Azure AI-Dienste.

Mit dieser Fähigkeit werden Text und Bilder extrahiert. Die Textextraktion ist frei. Die Bildextraktion kann von Azure AI Search abgerechnet werden. Bei einem kostenlosen Suchdienst werden die Kosten von 20 Transaktionen pro Indexer pro Tag aufgefangen, sodass Sie Schnellstarts, Lernprogramme und kleine Projekte kostenlos abschließen können. Für einfache und höhere Ebenen kann die Bildextraktion abgerechnet werden.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Unterstützte Dokumentformate

DocumentExtractionSkill kann Text aus den folgenden Dokumentformaten extrahieren:

Skillparameter

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.

Inputs Zulässige Werte Description
parsingMode default
text
json
Wird für default die Dokumentextraktion aus Dateien festgelegt, die nicht reinen Text oder JSON-Code sind. Verwenden Sie für Quelldateien, die Markierungen enthalten (z. B. PDF-, HTML-, RTF- und Microsoft Office-Dateien), den Standard, um nur den Text zu extrahieren, abzüglich aller Markupsprache oder Tags. Wenn parsingMode sie nicht explizit definiert ist, wird sie auf default.

Legen Sie fest, text ob Quelldateien TXT sind. Dieser Analysemodus verbessert die Leistung von Nur-Text-Dateien. Wenn Dateien Markup enthalten, behält dieser Modus die Tags in der endgültigen Ausgabe bei.

Legen Sie fest, json dass strukturierte Inhalte aus JSON-Dateien extrahiert werden sollen.
dataToExtract contentAndMetadata
allMetadata
Legen Sie diese Eigenschaft fest, contentAndMetadata um alle Metadaten und Textinhalte aus jeder Datei zu extrahieren. Wenn dataToExtract sie nicht explizit definiert ist, wird sie auf contentAndMetadata.

Legen Sie fest allMetadata , dass nur die Metadateneigenschaften für den Inhaltstyp extrahiert werden sollen (z. B. Metadaten, die nur für .png Dateien eindeutig sind).
configuration Siehe unten. Ein Wörterbuch mit optionalen Parametern, die die Ausführung der Dokumentextraktion anpassen. In der folgenden Tabelle finden Sie Beschreibungen der unterstützten Konfigurationseigenschaften.
Konfigurationsparameter Zulässige Werte Description
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Legen Sie fest, dass none eingebettete Bilder oder Bilddateien im Dataset ignoriert werden sollen, oder wenn die Quelldaten keine Bilddateien enthalten. Dies ist die Standardeinstellung.

Für OCR und Bildanalyse muss generateNormalizedImages die Fähigkeit eine Reihe normalisierter Bilder als Teil des Dokumentrisses erstellen. Diese Aktion erfordert, dass parsingMode sie auf und default auf diese festgelegt dataToExtractcontentAndMetadata ist. Ein normalisiertes Bild bezieht sich auf eine zusätzliche Verarbeitung, die zu einer einheitlichen Bildausgabe, größe und gedreht wird, um ein konsistentes Rendering zu fördern, wenn Sie Bilder in visuelle Suchergebnisse einschließen (z. B. Fotos in gleicher Größe in einem Diagrammsteuerelement, wie in der JFK-Demo zu sehen). Diese Informationen werden für jedes Bild generiert, wenn Sie diese Option verwenden.

Wenn Sie diese generateNormalizedImagePerPageEinstellung festlegen, werden PDF-Dateien anders behandelt, anstatt eingebettete Bilder zu extrahieren, wird jede Seite als Bild gerendert und entsprechend normalisiert. Nicht-PDF-Dateitypen werden wie generateNormalizedImages festgelegt behandelt.
normalizedImageMaxWidth Eine ganze Zahl zwischen 50-10000 Die maximale Breite (in Pixel) für normalisierte Bilder generiert. Der Standardwert ist „2000“.
normalizedImageMaxHeight Eine ganze Zahl zwischen 50-10000 Die maximale Höhe (in Pixel) für normalisierte Bilder generiert. Der Standardwert ist „2000“.

Note

Der Standardwert von 2.000 Pixeln für die maximale Breite und Höhe der normalisierten Bilder basiert auf der maximal unterstützten Größe der OCR-Qualifikation und der Bildanalysequalifikation. Die OCR-Qualifikation unterstützt eine maximale Breite und Höhe von 4.200 für nicht englische Sprachen und 10.000 für Englisch. Wenn Sie die maximalen Grenzwerte erhöhen, können bei größeren Images je nach Skillsetdefinition und Sprache der Dokumente Fehler bei der Verarbeitung auftreten.

Skilleingaben

Eingabename Description
file_data Die Datei, aus der Inhalt extrahiert werden soll.

Die Eingabe „file_data“ muss ein Objekt sein, das wie folgt definiert wurde:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativ kann es wie folgt definiert werden:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Das Dateiverweisobjekt kann auf drei Arten generiert werden:

  • Festlegen des allowSkillsetToReadFileData Parameters in der Indexerdefinition auf "true". Dadurch wird ein Pfad /document/file_data erstellt, der ein Objekt ist, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Dieser Parameter gilt nur für Dateien im BLOB-Speicher.

  • Festlegen des imageAction Parameters in der Indexerdefinition auf einen anderen Wert als none. Dadurch wird eine Reihe von Bildern erstellt, die der erforderlichen Konvention für eingaben in diese Fähigkeit folgen, wenn sie einzeln übergeben werden (d /document/normalized_images/*. s. ).

  • Mit einer benutzerdefinierten Fähigkeit wird ein JSON-Objekt zurückgegeben, das GENAU wie oben definiert ist. Der $type Parameter muss auf genau file festgelegt werden, und der data Parameter muss die base64-codierten Bytearraydaten des Dateiinhalts sein, oder der url Parameter muss eine korrekt formatierte URL sein, die zugriff auf das Herunterladen der Datei an diesem Speicherort hat.

Skillausgaben

Ausgabename Description
content Der Textinhalt des Dokuments.
normalized_images Wenn der imageAction Wert auf einen anderen Wert festgelegt ist als none, enthält das neue normalized_images Feld ein Array von Bildern. Weitere Informationen zum Ausgabeformat finden Sie unter Extrahieren von Text und Informationen aus Bildern .

Beispieldefinition

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Beispieleingabe

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Siehe auch