Freigeben über


Erste Schritte mit trainierbaren Klassifizierern

Ein trainierbarer Microsoft Purview-Klassifizierer ist ein Tool, das Sie trainieren können, um verschiedene Arten von Inhalten zu erkennen, indem Sie ihm Beispiele zur Auswertung geben. Nach dem Training können Sie es verwenden, um Elemente für die Anwendung von Office-Vertraulichkeitsbezeichnungen, Kommunikationskonformitätsrichtlinien und Aufbewahrungsbezeichnungsrichtlinien zu identifizieren.

Die Implementierung eines benutzerdefinierten trainierbaren Klassifizierers erfordert zwei Schritte:

  1. Stellen Sie zwei Gruppen von Beispieldaten bereit (von Menschen ausgewählt).
    1. Ein Satz, der nur Elemente enthält, die in die Kategorie gehören.
    2. Ein Satz, der nur Elemente enthält, die nicht in die Kategorie gehören.
  2. Testen Sie die Fähigkeit des Klassifizierers, Übereinstimmungen zu erkennen.

In diesem Artikel wird erläutert, wie Sie einen benutzerdefinierten Klassifizierer erstellen und testen.

Weitere Informationen zu den verschiedenen Typen von Klassifizierern finden Sie unter Informationen zu trainierbaren Klassifizierern.

Wichtig

Microsoft Purview Communication Compliance unterstützt nur die Verwendung der von Microsoft bereitgestellten trainierbaren Klassifizierer. Benutzerdefinierte trainierbare Klassifizierer werden nicht unterstützt.

Voraussetzungen

Lizenzierung

Informationen zur Lizenzierung finden Sie unter

Berechtigungen

Um Klassifizierer in den folgenden Szenarien verwenden zu können, benötigen Sie die folgenden Berechtigungen:

Szenario Erforderliche Rollenberechtigungen
Richtlinie für Aufbewahrungsbezeichnungen Datensatzverwaltung
Aufbewahrungsverwaltung
Richtlinie für Vertraulichkeitsbezeichnungen Sicherheitsadministrator
Complianceadministrator
Compliancedatenadministrator
Kommunikationskonformitätsrichtlinie Insider-Risikomanagementadministrator
Aufsichtsüberprüfungsadministrator

Wichtig

Standardmäßig kann nur der Benutzer, der einen benutzerdefinierten Klassifizierer erstellt, diesen trainieren und vorhersagen, die von diesem Klassifizierer getroffen wurden.

Vorbereitung auf einen benutzerdefinierten trainierbaren Klassifizierer

Bevor Sie einen benutzerdefinierten trainierbaren Klassifizierer erstellen, ist es hilfreich zu verstehen, worum es geht.

Allgemeiner Workflow

Weitere Informationen zum Gesamtworkflow zum Erstellen benutzerdefinierter trainierbarer Klassifizierer finden Sie im Prozessablauf zum Erstellen benutzerdefinierter trainierbarer Klassifizierer.

Seeding-Inhalte

Um sicherzustellen, dass Ihr trainierbarer Klassifizierer unabhängig und genau identifizieren kann, dass ein Element zu einer bestimmten Inhaltskategorie gehört, müssen Sie es mit vielen Beispielen des Inhaltstyps in der Kategorie präsentieren. Diese Zufuhr von Proben an den trainierbaren Klassifizierer wird als Seeding bezeichnet. Ein Mensch muss den Ausgangsinhalt auswählen, und dieser Inhalt muss zwei Datensätze enthalten: Ein Satz enthält nur Elemente, die den Inhalt stark darstellen, für den der Klassifizierer bestimmt ist (positive Stichproben), und ein zweiter Satz enthält Elemente, die eindeutig nicht gehören (negative Stichproben).

Sie benötigen mindestens 50 positive Proben (bis zu 500) und mindestens 150 negative Proben (bis zu 1.500), um einen Klassifizierer zu trainieren. Je mehr Beispiele Sie bereitstellen, desto genauer sind die Vorhersagen, die der Klassifizierer trifft. Der trainierbare Klassifizierer verarbeitet bis zu den 2.000 zuletzt erstellten Stichproben (nach dateierstellbarem Datums-/Zeitstempel).

Tipp

Um optimale Ergebnisse zu erzielen, verfügen Sie über mindestens 200 Elemente in Ihrem Testbeispielsatz, der mindestens 50 positive Und mindestens 150 negative Beispiele enthält.

Erstellen eines trainierbaren Klassifizierers

In der Vorschau: Der folgende Prozess automatisiert das Testen trainierbarer Klassifizierer und verkürzt den Erstellungsworkflow von 12 Tagen auf zwei Tage. In einigen Fällen kann der Prozess nur wenige Stunden dauern.

  1. Sammeln Sie zwischen 50 und 500 Ausgangsinhaltselemente, die die Daten stark darstellen, die der Klassifizierer positiv als in der Kategorie identifizieren soll. Eine Liste der unterstützten Dateitypen finden Sie unter Standarddurchforstung von Dateinamenerweiterungen und analysierten Dateitypen in SharePoint Server.

  2. Sammeln Sie einen zweiten Satz von Seedinhalten (von 150 bis 1.500 Elementen), der Daten darstellt, die nicht in die Kategorie gehören.

  3. Platzieren Sie den positiven und negativen Startinhalt in separaten SharePoint-Ordnern. Jeder Ordner muss dediziert sein, um nur den Startinhalt zu speichern. Notieren Sie sich die Website, Bibliothek und Ordner-URL für jede Gruppe.

    Tipp

    Wenn Sie eine neue SharePoint-Website und einen neuen Ordner für Ihre Seeddaten erstellen, warten Sie mindestens eine Stunde, bis dieser Speicherort indiziert wird, bevor Sie den trainierbaren Klassifizierer erstellen, der diese Seeddaten verwendet.

  4. Melden Sie sich beim Microsoft Purview-Portal entweder mit der Rolle "Complianceadministrator" oder "Sicherheitsadministrator" an, und navigieren Sie zuDatenklassifizierungsklassifizierer> zur Verhinderung von> Datenverlust.

Wichtig

Das konto, das Sie verwenden, muss Zugriff auf die Seedinhaltsordner in SharePoint haben.

  1. Wählen Sie die Registerkarte Trainierbare Klassifizierer aus .

  2. Wählen Sie Trainierbare Klassifizierung erstellen aus.

  3. Fügen Sie die Quelle Ihrer positiven Beispiele hinzu: Wählen Sie die SharePoint-Website, Bibliothek und Ordner-URL für den Startinhalt aus, den der Klassifizierer erkennen soll, und wählen Sie dann Weiter aus.

  4. Fügen Sie die Quelle ihrer negativen Beispiele hinzu: Wählen Sie die Url der SharePoint-Website, -Bibliothek und des Ordners für den Startinhalt aus, den der Klassifizierer ignorieren soll, und wählen Sie dann Weiter aus.

  5. Überprüfen Sie die Einstellungen, und wählen Sie Trainierbare Klassifizierung erstellen aus.

  6. Innerhalb von maximal 24 Stunden verarbeitet der trainierbare Klassifizierer die Startdaten und erstellt ein Vorhersagemodell. Der Status des Klassifizierers ist In Arbeit, während die Seedingdaten verarbeitet werden. Wenn der Klassifizierer die Verarbeitung der Startdaten abgeschlossen hat, ist die status Änderungen an Training abgeschlossen, und die Elemente wurden getestet.

  7. Wenn das Training abgeschlossen ist und Elemente (automatisch) getestet werden, veröffentlichen Sie den Klassifizierer, indem Sie zur Verwendung Veröffentlichen auswählen.

Nachdem Sie Ihren Klassifizierer veröffentlicht haben, ist er als Bedingung in office auto-labeling with sensitivity labels, autoapply retention label label based on a condition und in Communication compliance verfügbar.

Testen Der Klassifizierung

Nachdem der trainierbare Klassifizierer genügend positive und negative Stichproben verarbeitet hat, um ein Vorhersagemodell zu erstellen, testen Sie die von ihr getroffenen Vorhersagen. Wenn Sie den Klassifizierer testen, überprüfen Sie, ob seine Vorhersagen richtig sind. Nachdem der Klassifizierer alle Daten verarbeitet hat, können Sie die Ergebnisse durchlaufen, um zu überprüfen, ob jede Vorhersage richtig, falsch oder unsicher ist. Microsoft verwendet dieses Feedback aggregiert, um das Vorhersagemodell zu verbessern.

Siehe auch