Testen der Erkennungsqualität eines Custom Speech-Modells

2025-07-31

Sie können die Erkennungsqualität eines benutzerdefinierten Sprachmodells überprüfen. Sie können hochgeladene Audiodaten wiedergeben und bestimmen, ob das angegebene Erkennungsergebnis korrekt ist. Nachdem ein Test erfolgreich erstellt wurde, können Sie sehen, wie ein Modell das Audiodataset transkribiert, oder die Ergebnisse von zwei Modellen direkt miteinander vergleichen.

Parallele Modelltests sind nützlich, um zu überprüfen, welches Spracherkennungsmodell für eine Anwendung am besten geeignet ist. Informationen zu einem objektiven Maß der Genauigkeit, für die eine Transkription der Dataseteingabe erforderlich ist, finden Sie unter Quantitatives Testen des Modells.

Wichtig

Beim Testen führt das System eine Transkription durch. Dies sollten Sie nicht vergessen, da die Preise pro Serviceangebot und Abonnementebene variieren. Aktuelle Informationen finden Sie immer auf der offiziellen Seite „Azure KI Services – Preise“.

Erstellen eines Tests

Nachdem Sie Schulungs- und Testdatensätze hochgeladen haben, können Sie einen Test erstellen.

Führen Sie die folgenden Schritte aus, um Ihr fein abgestimmtes benutzerdefiniertes Sprachmodell zu testen:

Melden Sie sich beim Azure AI Foundry-Portal an.
Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.
Wählen Sie die benutzerdefinierte Sprachoptimierungsaufgabe (nach Modellname) aus, die Sie gestartet haben, wie im Artikel zum Starten der benutzerdefinierten Sprachoptimierung beschrieben.
Wählen Sie "Testmodelle>+ Test erstellen" aus.
Wählen Sie im Assistenten Neuen Test erstellen den Testtyp aus. Wählen Sie für einen Qualitätstest die Option " Qualität prüfen" (nur Audiodaten) aus. Wählen Sie dann Weiter aus.
Wählen Sie die Daten aus, die Sie für das Testen verwenden möchten. Wählen Sie dann Weiter aus.
Wählen Sie bis zu zwei Modelle aus, um die Genauigkeit auszuwerten und zu vergleichen. In diesem Beispiel wählen wir das Modell aus, das wir trainiert haben, und das Basismodell. Wählen Sie dann Weiter aus.
Geben Sie einen Namen und eine Beschreibung für den Test ein. Wählen Sie dann Weiter aus.
Überprüfen Sie die Einstellungen, und wählen Sie Test erstellen aus. Sie gelangen zurück zur Seite Testmodelle. Der Status der Daten ist Wird verarbeitet.

Gehen Sie wie folgt vor, um einen Test zu erstellen:

Melden Sie sich in Speech Studio an.
Navigieren Sie zu Speech Studio>Custom Speech und wählen Sie Ihren Projektnamen in der Liste aus.
Wählen Sie Testmodelle>Neuen Test erstellen aus.
Wählen Sie Qualität überprüfen (reine Audiodaten)>Weiter aus.
Wählen Sie ein Audiodataset aus, das Sie zum Testen verwenden möchten, und wählen Sie dann Weiter aus. Wenn keine Datasets verfügbar sind, brechen Sie das Setup ab, und wechseln Sie dann zum Menü Speech-Datasets, um Datasets hochzuladen.
Wählen Sie ein oder zwei Modelle aus, um die Genauigkeit auszuwerten und zu vergleichen.
Geben Sie den Testnamen und eine Beschreibung ein, und wählen Sie dann Weiter aus.
Überprüfen Sie Ihre Einstellungen, und wählen Sie anschließend Speichern und schließen aus.

Bevor Sie fortfahren, stellen Sie sicher, dass die Speech CLI installiert und konfiguriert ist.

Zum Erstellen eines Tests verwenden Sie den Befehl spx csr evaluation create. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:

Legen Sie die project Eigenschaft auf die ID eines vorhandenen Projekts fest. Die project Eigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Azure AI Foundry-Portal verwalten können. Um die Projekt-ID abzurufen, siehe Projekt-ID für die REST-API-Dokumentation abrufen.
Legen Sie die erforderliche model1 Eigenschaft auf die ID eines Modells fest, das Sie testen möchten.
Legen Sie die erforderliche model2 Eigenschaft auf die ID eines anderen Modells fest, das Sie testen möchten. Wenn Sie nicht zwei Modelle vergleichen möchten, verwenden Sie das gleiche Modell sowohl für model1 als auch für model2.
Legen Sie die erforderliche dataset Eigenschaft auf die ID eines Datasets fest, das Sie für den Test verwenden möchten.
Legen Sie die language Eigenschaft fest, andernfalls legt die Speech CLI standardmäßig "en-US" fest. Dieser Parameter sollte das Gebietsschema des Datasetinhalts sein. Das Gebietsschema kann später nicht mehr geändert werden. Die Speech CLI-Eigenschaft language entspricht der locale Eigenschaft in der JSON-Anforderung und -Antwort.
Legen Sie die erforderliche name-Eigenschaft fest. Dieser Parameter ist der Name, der im Azure AI Foundry-Portal angezeigt wird. Die Speech CLI-Eigenschaft name entspricht der displayName Eigenschaft in der JSON-Anforderung und -Antwort.

Hier sehen Sie einen Beispielbefehl der Speech-Befehlszeilenschnittstelle, der einen Test erstellt:

spx csr evaluation create --api-version v3.2 --project aaaabbbb-0000-cccc-1111-dddd2222eeee --dataset bbbbcccc-1111-dddd-2222-eeee3333ffff --model1 ccccdddd-2222-eeee-3333-ffff4444aaaa --model2 ccccdddd-2222-eeee-3333-ffff4444aaaa --name "My Inspection" --description "My Inspection Description"

Wichtig

Sie müssen --api-version v3.2 festlegen. Die Speech CLI verwendet die REST-API, unterstützt aber noch keine Versionen später als v3.2.

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": -1.0,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1,
    "wordErrorRate2": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1
  },
  "lastActionDateTime": "2024-07-14T21:21:39Z",
  "status": "NotStarted",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

Die oberste self-Eigenschaft im Antworttext ist der URI der Auswertung. Verwenden Sie diesen URI, um Details zum Projekt und Testergebnisse abzurufen. Sie verwenden diesen URI außerdem, um die Auswertung zu aktualisieren oder zu löschen.

Führen Sie den folgenden Befehl aus, um Hilfe der Speech-Befehlszeilenschnittstelle zu Auswertungen anzuzeigen:

spx help csr evaluation

Verwenden Sie zum Erstellen eines Tests den Vorgang Evaluations_Create der Spracherkennung-REST-API. Erstellen Sie den Anforderungstext wie folgt:

Legen Sie die project Eigenschaft auf die ID eines vorhandenen Projekts fest. Die project Eigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Azure AI Foundry-Portal verwalten können. Sie finden die Informationen zur Projekt-ID in der Dokumentation Projekt-ID für die REST-API abrufen.
Legen Sie die erforderliche model1-Eigenschaft auf den URI eines Modells fest, das Sie testen möchten.
Legen Sie die erforderliche model2-Eigenschaft auf den URI eines anderen Modells fest, das Sie testen möchten. Wenn Sie nicht zwei Modelle vergleichen möchten, verwenden Sie das gleiche Modell sowohl für model1 als auch für model2.
Legen Sie den erforderlichen dataset-Parameter auf die ID eines Datasets fest, das Sie für den Test verwenden möchten.
Legen Sie die erforderliche locale-Eigenschaft fest. Diese Eigenschaft sollte das Gebietsschema des Datasetinhalts sein. Das Gebietsschema kann später nicht mehr geändert werden.
Legen Sie die erforderliche displayName-Eigenschaft fest. Diese Eigenschaft ist der Name, der im Azure AI Foundry-Portal angezeigt wird.

Erstellen Sie eine HTTP POST-Anforderung, und verwenden Sie dabei den URI, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourSpeechResoureKey durch Ihren Speech-Ressourcenschlüssel, ersetzen Sie YourServiceRegion durch die Region der Speech-Ressource, und legen Sie die Anforderungstexteigenschaften wie zuvor beschrieben fest.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "displayName": "My Inspection",
  "description": "My Inspection Description",
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": -1.0,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1,
    "wordErrorRate2": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1
  },
  "lastActionDateTime": "2024-07-14T21:21:39Z",
  "status": "NotStarted",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

Die oberste self-Eigenschaft im Antworttext ist der URI der Auswertung. Verwenden Sie diesen URI, um Details zum Projekt und die Testergebnisse der Auswertung abzurufen. Sie verwenden diesen URI außerdem, um die Auswertung zu aktualisieren oder zu löschen.

Abrufen von Testergebnissen

Sie sollten die Testergebnisse abrufen und die Audiodatensätze im Vergleich mit den Transkriptionsergebnissen für jedes Modell überprüfen.

Wenn der Teststatus Erfolgreich ist, können Sie die Ergebnisse anzeigen. Wählen Sie den Test aus, um die Ergebnisse anzuzeigen.

Führen Sie die folgenden Schritte aus, um Testergebnisse abzurufen:

Melden Sie sich in Speech Studio an.
Wählen Sie Custom Speech> Ihr Projektname >Modelle testen aus.
Wählen Sie den Link anhand des Testnamens aus.
Nach dem Abschluss des Tests, was durch die Festlegung des Status auf Erfolgreich angezeigt wird, sollten Sie Ergebnisse sehen, die für jedes getestete Modell die WER-Anzahl enthalten.

Auf dieser Seite sind alle Äußerungen in Ihrem Dataset und die Erkennungsergebnisse neben der Transkription aus dem übermittelten Dataset aufgelistet. Sie können zwischen verschiedenen Fehlertypen umschalten, darunter Einfügung, Löschung und Ersetzung. Durch Anhören der Audiodaten und Vergleich mit den Erkennungsergebnissen in den einzelnen Spalten können Sie entscheiden, welches Modell Ihre Anforderungen erfüllt und ermitteln, wo weiteres Training und Verbesserungen erforderlich sind.

Bevor Sie fortfahren, stellen Sie sicher, dass die Speech CLI installiert und konfiguriert ist.

Verwenden Sie den Befehl spx csr evaluation status, um Testergebnisse abzurufen. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:

Legen Sie die erforderliche evaluation Eigenschaft auf die ID der Auswertung fest, für die Sie Testergebnisse abrufen möchten.

Hier sehen Sie einen Beispielbefehl der Speech-Befehlszeilenschnittstelle, der Testergebnisse abruft:

spx csr evaluation status --api-version v3.2 --evaluation ddddeeee-3333-ffff-4444-aaaa5555bbbb

Wichtig

Sie müssen --api-version v3.2 festlegen. Die Speech CLI verwendet die REST-API, unterstützt aber noch keine Versionen später als v3.2.

Die Modelle, Audiodatasets, Transkriptionen und weiteren Details werden im Antworttext zurückgegeben.

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": 0.028900000000000002,
    "sentenceErrorRate1": 0.667,
    "tokenErrorRate1": 0.12119999999999999,
    "sentenceCount1": 3,
    "wordCount1": 173,
    "correctWordCount1": 170,
    "wordSubstitutionCount1": 2,
    "wordDeletionCount1": 1,
    "wordInsertionCount1": 2,
    "tokenCount1": 165,
    "correctTokenCount1": 145,
    "tokenSubstitutionCount1": 10,
    "tokenDeletionCount1": 1,
    "tokenInsertionCount1": 9,
    "tokenErrors1": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    },
    "wordErrorRate2": 0.028900000000000002,
    "sentenceErrorRate2": 0.667,
    "tokenErrorRate2": 0.12119999999999999,
    "sentenceCount2": 3,
    "wordCount2": 173,
    "correctWordCount2": 170,
    "wordSubstitutionCount2": 2,
    "wordDeletionCount2": 1,
    "wordInsertionCount2": 2,
    "tokenCount2": 165,
    "correctTokenCount2": 145,
    "tokenSubstitutionCount2": 10,
    "tokenDeletionCount2": 1,
    "tokenInsertionCount2": 9,
    "tokenErrors2": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    }
  },
  "lastActionDateTime": "2024-07-14T21:22:45Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

Führen Sie den folgenden Befehl aus, um Hilfe der Speech-Befehlszeilenschnittstelle zu Auswertungen anzuzeigen:

spx help csr evaluation

Zum Abrufen von Testergebnissen beginnen Sie mit dem Vorgang Evaluations_Get der Spracherkennung-REST-API.

Erstellen Sie eine HTTP GET-Anforderung mithilfe des URI, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourEvaluationId durch Ihre Auswertungs-ID, YourSpeechResoureKey durch den Schlüssel Ihrer Speech-Ressource und YourServiceRegion durch die Region Ihrer Speech-Ressource.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey"

Die Modelle, Audiodatasets, Transkriptionen und weiteren Details werden im Antworttext zurückgegeben.

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": 0.028900000000000002,
    "sentenceErrorRate1": 0.667,
    "tokenErrorRate1": 0.12119999999999999,
    "sentenceCount1": 3,
    "wordCount1": 173,
    "correctWordCount1": 170,
    "wordSubstitutionCount1": 2,
    "wordDeletionCount1": 1,
    "wordInsertionCount1": 2,
    "tokenCount1": 165,
    "correctTokenCount1": 145,
    "tokenSubstitutionCount1": 10,
    "tokenDeletionCount1": 1,
    "tokenInsertionCount1": 9,
    "tokenErrors1": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    },
    "wordErrorRate2": 0.028900000000000002,
    "sentenceErrorRate2": 0.667,
    "tokenErrorRate2": 0.12119999999999999,
    "sentenceCount2": 3,
    "wordCount2": 173,
    "correctWordCount2": 170,
    "wordSubstitutionCount2": 2,
    "wordDeletionCount2": 1,
    "wordInsertionCount2": 2,
    "tokenCount2": 165,
    "correctTokenCount2": 145,
    "tokenSubstitutionCount2": 10,
    "tokenDeletionCount2": 1,
    "tokenInsertionCount2": 9,
    "tokenErrors2": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    }
  },
  "lastActionDateTime": "2024-07-14T21:22:45Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

Vergleichen der Transkription mit Audio

Sie können die Transkriptionsausgabe für jedes getestete Modell anhand des Audioeingabedatasets untersuchen. Wenn Sie zwei Modelle in den Test eingeschlossen haben, können Sie ihre Transkriptionsqualität nebeneinander vergleichen.

So überprüfen Sie die Qualität der Transkriptionen:

Melden Sie sich in Speech Studio an.
Wählen Sie Custom Speech> Ihr Projektname >Modelle testen aus.
Wählen Sie den Link anhand des Testnamens aus.
Geben Sie eine Audiodatei wieder, während Sie die entsprechende Transkription durch ein Modell lesen.

Wenn das Testdataset mehrere Audiodateien enthält, werden in der Tabelle mehrere Zeilen angezeigt. Wenn Sie zwei Modelle in den Test eingeschlossen haben, werden Transkriptionen in Spalten nebeneinander angezeigt. Transkriptionsunterschiede zwischen Modellen werden in blauer Textschriftart angezeigt.

Screenshot des Vergleichs von Transkriptionen durch zwei Modelle

Bevor Sie fortfahren, stellen Sie sicher, dass die Speech CLI installiert und konfiguriert ist.

Die getesteten Audiotestdatasets, Transkriptionen und Modelle werden in den Testergebnissen zurückgegeben. Wenn nur ein Modell getestet wurde, stimmt der model1-Wert mit model2 überein und der transcription1-Wert stimmt mit transcription2 überein.

So überprüfen Sie die Qualität der Transkriptionen:

Laden Sie das Audiotestdataset herunter, es sei denn, Sie verfügen bereits über eine Kopie.
Laden Sie die ausgegebenen Transkriptionen herunter.
Geben Sie eine Audiodatei wieder, während Sie die entsprechende Transkription durch ein Modell lesen.

Wenn Sie die Qualität zwischen zwei Modellen vergleichen, achten Sie besonders auf Unterschiede zwischen den Transkriptionen der Modelle.

So überprüfen Sie die Qualität der Transkriptionen:

Laden Sie das Audiotestdataset herunter, es sei denn, Sie verfügen bereits über eine Kopie.
Laden Sie die ausgegebenen Transkriptionen herunter.
Geben Sie eine Audiodatei wieder, während Sie die entsprechende Transkription durch ein Modell lesen.

Wenn Sie die Qualität zwischen zwei Modellen vergleichen, achten Sie besonders auf Unterschiede zwischen den Transkriptionen der Modelle.

Freigeben über

Testen der Erkennungsqualität eines Custom Speech-Modells

Erstellen eines Tests

Abrufen von Testergebnissen

Vergleichen der Transkription mit Audio

Nächste Schritte

Feedback

Zusätzliche Ressourcen