Freigeben über


Informationen zur optischen Zeichenerkennung in Microsoft Purview

Das Scannen der optischen Zeichenerkennung (Optical Character Recognition, OCR) ermöglicht Microsoft Purview das Scannen von Bildern auf vertrauliche Informationen. DIE OCR-Überprüfung ist ein optionales Feature und muss auf Mandantenebene aktiviert werden. Nach der Aktivierung wählen Sie die Speicherorte aus, an denen Sie Bilder überprüfen möchten. Die Bildüberprüfung ist für Exchange-, SharePoint-, OneDrive-, Teams-, Windows- und macOS-Geräte verfügbar. Nachdem die OCR-Einstellungen konfiguriert wurden, werden Ihre vorhandenen Richtlinien für die Verhinderung von Datenverlust (Data Loss Prevention, DLP), Datensatzverwaltung und Insider-Risikomanagement (IRM) auf Bilder und textbasierte Inhalte angewendet. Angenommen, Sie haben den Inhalt der DLP-Bedingung konfiguriert, der vertrauliche Informationen enthält und einen Datenklassifizierer wie den Vertraulichen Kreditkarteninformationstyp ( Credit Card Sensitive Information Type, SIT) eingeschlossen hat. In diesem Fall sucht Microsoft Purview an allen ausgewählten Stellen nach Guthaben Karte Zahlen in Text und Bildern.

Der Ablauf auf einen Blick

Phase Anforderungen
Erstellen eines Azure-Abonnements bei Bedarf Wenn Ihr organization noch nicht über ein Azure-Abonnement mit nutzungsbasierter Bezahlung für Ihren Mandanten verfügt, muss Ihr globaler Administrator zunächst ein Azure-Konto erstellen.
Schätzen Ihrer OCR-Scangebühren Verwenden Sie die OCR-Kostenschätzung , um die erwarteten Gebühren für Ihre spezifischen Anwendungsfälle zu schätzen.
Richten Sie die nutzungsbasierte Abrechnung ein, um OCR zu aktivieren. Ihr globaler oder SharePoint-Administrator muss die Anweisungen unter Einrichten Microsoft Syntex Abrechnung in Azure befolgen, um ein Abonnement für OCR hinzuzufügen.
Konfigurieren von OCR-Scaneinstellungen Der Complianceadministrator für Ihre organization konfiguriert die OCR-Einstellungen für Ihren Mandanten.

Voraussetzungen

Um die OCR-Überprüfung verwenden zu können, muss der globale Administrator Ihres organization überprüfen, ob ein Azure-Abonnement mit nutzungsbasierter Bezahlung vorhanden ist. Andernfalls muss dies entsprechend den Anweisungen unter Erstellen Ihrer anfänglichen Azure-Abonnements eingerichtet werden.

Konfigurieren der Abrechnung

Wenn Sie OCR aktivieren, können alle Typen vertraulicher Informationen und trainierbaren Klassifizierer Zeichen erkennen, die sich in Bildern befinden.

Da es sich um ein optionales Feature handelt, muss Ihr globaler Administrator die abrechnungsbasierte Bezahlung einrichten, um OCR zu aktivieren. Informationen zum Hinzufügen eines Abonnements für OCR finden Sie in den Anweisungen unter Einrichten Microsoft Syntex Abrechnung in Azure.

Hinweis

Nachdem Abrechnungsinformationen in Microsoft Syntex eingegeben wurden, kann Ihr Complianceadministrator OCR in Microsoft Purview konfigurieren, ohne dass zusätzliche Setup- oder Lizenzierungsanforderungen erforderlich sind.

Preisinformationen zur nutzungsbasierten Bezahlung für OCR finden Sie auf der Seite Einrichten Microsoft Syntex Abrechnung in Azure.

Schätzen Ihrer OCR-Scangebühren

Die Gebühr für die Verwendung von OCR beträgt 1,00 USD für alle 1.000 gescannten Elemente. Jedes gescannte Bild zählt als eine Transaktion. Dies bedeutet, dass eigenständige Bilder (JPEG, JPG, PNG, BMP oder TIFF) jeweils als einzelne Transaktion zählen. Dies bedeutet auch, dass jede Seite in einer PDF-Datei separat abgerechnet wird. Wenn eine PDF-Datei beispielsweise 10 Seiten enthält, zählt eine OCR-Überprüfung der PDF-Datei als 10 separate Scans. Informationen zur Verwendung der OCR-Kostenschätzung finden Sie unter Schätzen Ihrer OCR-Kosten.

Hinweis

Um Ihre OCR-Kosten zu reduzieren, verfügen wir über folgende Zwischenspeicherungsmechanismen: Kleine Bilder, z. B. Logos und Signaturen, die per E-Mail über Microsoft Exchange gesendet werden, werden nur einmal pro eindeutigem Bild für alle Benutzer des Mandanten für ein verschobenes Zeitfenster von fünf Tagen in Rechnung gestellt. Für Endpunkt wird der Cache 30 Tage lang verwaltet. Die Zwischenspeicherung erfolgt lokal für jedes Endppoint-Gerät, und es werden nur Klassifizierer, die auf dem Bild und bildhash identifiziert sind, gespeichert. Kundendaten werden nicht gespeichert. Es gibt keinen Zwischenspeicherungsmechanismus für eigenständige Images in SharePoint und Onedrive. In eingebetteten Dateitypen werden Bilder jedoch nicht erneut gescannt, wenn nur Text aktualisiert wird.

Mehrere Parameter, einschließlich Bildstromhash und Bildgröße, werden überprüft, um festzustellen, ob der Cache verwendet werden kann oder nicht. Wenn ein Parameter nicht übereinstimmt, wird das Image erneut ocred.

Darüber hinaus kann jedes gescannte Bild ohne zusätzliche Kosten in einer beliebigen Anzahl von Richtlinien für die Verhinderung von Datenverlust, Insider-Risikomanagement, automatische Bezeichnung und Datensatzverwaltung verwendet werden.

Wichtig

Informationen zu den Adobe-Anforderungen für die Verwendung von Microsoft Purview Data Loss Prevention (DLP)-Features mit PDF-Dateien finden Sie in diesem Artikel von Adobe: Microsoft Purview Information Protection Support in Acrobat.

Konfigurieren Ihrer OCR-Einstellungen

  1. Melden Sie sich beim Microsoft Purview-Portal an.
  2. Wählen Sie Einstellungen aus.
  3. Wählen Sie Optische Zeichenerkennung (OCR) aus, um Ihre OCR-Konfigurationseinstellungen einzugeben.
  4. Wählen Sie die Speicherorte aus, an denen Sie Bilder überprüfen möchten.
  5. Wählen Sie die Gruppen aus, die von OCR-Überprüfungen eingeschlossen oder ausgeschlossen werden sollen.
  6. Wählen Sie Fertig aus.

Unterstützte Standorte und Lösungen sind in der folgenden Tabelle aufgeführt.

Berechtigungen

Das Konto, das Sie zum Erstellen und Bereitstellen von Richtlinien verwenden, muss Mitglied einer dieser Rollengruppen sein.

  • Compliance-Administrator
  • Compliancedatenadministrator
  • Globaler Administrator
  • Informationsschutz
  • Information Protection-Administrator

Hinweis

Unterstützte Standorte und Lösungen

Location Unterstützte Lösungen
Exchange Verhinderung von Datenverlust

Informationsschutz: Richtlinien für automatische Bezeichnungen

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
SharePoint-Websites Verhinderung von Datenverlust

Insider-Risikomanagement2

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
OneDrive-Konten Verhinderung von Datenverlust

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
Teams-Chat- und Teams-Kanalnachrichten Verhinderung von Datenverlust

Insider-Risikomanagement2
Geräte Verhinderung von Datenverlust

Insider-Risikomanagement2

1 Unterstützt Schlüsselwörter und Typen vertraulicher Informationen.
2 Berücksichtigt vertrauliche Informationstypen und trainierbare Klassifizierer, die in Bildern für die Risikobewertung vorhanden sind.


Unterstützte Dateitypen

Diese Funktion unterstützt das Scannen von Bildern in den folgenden Dateitypen mit den angegebenen Anforderungen:

Speicherorte Unterstützte Dateitypen
Exchange JPEG, JPG, PNG, BMP, TIFF und PDFs (gescannt). Eingebettete Bilder in DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z und Hybrid-PDFs (mit durchsuchbarem Text und Bildern) mit einem Grenzwert von 20 eingebetteten Bildern, die pro Datei gescannt werden.
SharePoint und OneDrive BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, GAUSSFEHLER, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDFs (gescannt und hybrid mit durchsuchbarem Text und Bildern) Eingebettete Bilder in DOCX, PPTX, XLSX
Teams-, Windows- und macOS-Endpunkt JPEG, JPG, PNG, BMP, TIFF und PDF (nur Bild)

Bildanforderungen

Dateigrößen: Bilddateien dürfen für Exchange und Teams nicht größer als 20 MB sein. Für SharePoint-, OneDrive- und Windows- und macOS-Endpunkte beträgt die maximale Bilddateigröße 50 MB.

Bildauflösung: Die Bildauflösung muss mindestens 50 x 50 Pixel und nicht größer als 16.000 x 16.000 px sein.

Wichtig

  • Nur Bilder, die nach der Aktivierung von OCR hochgeladen wurden, werden gescannt.
  • OCR extrahiert nur die ersten 2 Millionen Zeichen des Texts.
  • Standardmäßig unterliegen eingehende E-Mails (E-Mails von Benutzern außerhalb des organization), interne E-Mails (innerhalb der Benutzer des organization freigegebene E-Mails) und ausgehende E-Mails (E-Mails, die an Benutzer außerhalb des organization gesendet werden) der OCR-Überprüfung. Um eingehende E-Mails von der OCR-Überprüfung auszuschließen, ändern Sie die OCR-Einstellungen vom Standardbereich Alle Absendergruppen in die Spezifischen Absendergruppen , und geben Sie die internen Gruppen an, die VON OCR überprüft werden sollen. Um OCR-Überprüfungen nur auf E-Mails zu beschränken, die nur außerhalb des organization gesendet werden, wählen Sie die Option unter Erweiterte Einstellung (nur Exchange) aus. Nachdem Sie dieses Kontrollkästchen aktiviert haben, werden weder eingehende E-Mails noch interne Kommunikationen ocReded. Informationen zum Ändern der Konfigurationen finden Sie unter Konfigurieren Ihrer OCR-Einstellungen.
  • Richtlinientipps zur Verhinderung von Datenverlust werden für Bilder in Exchange nicht unterstützt.
  • Wenn Sie einen Pfad in den Endpunkteinstellungen zur Verhinderung von Datenverlust ausschließen, überprüft OCR keine Bilder in diesen Ordnern.
  • Wenn OCR für Windows- und macOS-Geräte aktiviert ist, beginnen die Geräte, Nachrichten zur Überprüfung an die Cloud zu senden. Das Standardbandbreitenlimit beträgt 1.024 MB daten pro Gerät und Tag. OCR beendet das Scannen von Bildern, sobald dieses tagesaktuelle Limit erreicht ist. Wenn Sie mit dem Scannen von Bildern fortfahren möchten, können Sie die Bandbreitengrenze erhöhen.
  • Für Das Endpunktgerät muss sichergestellt werden, dass netzwerkeinstellungen die OCR nicht behindern, und es sollte ein Wildcard vorhanden sein, der blob.core.windows.net Endpunkte zulässt.
  • Für Exchange werden eingebettete Bilder in DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z und Hybrid-PDF-Dateien (mit durchsuchbarem Text und Bildern) mit einem Grenzwert von 20 eingebetteten Bildern unterstützt, die pro Datei gescannt werden.

Unterstützte Sprachen

OCR-Überprüfung unterstützt mehr als 150 Sprachen.

Zusammenfassung

Siehe auch