다음을 통해 공유


Custom Speech 모델의 인식 품질 테스트

사용자 지정 음성 모델의 인식 품질을 검사할 수 있습니다. 업로드된 오디오를 재생하여 제공된 인식 결과가 올바른지 확인할 수 있습니다. 테스트가 성공적으로 생성되면 모델이 오디오 데이터 세트를 어떻게 전사했는지 확인하거나 두 모델의 결과를 나란히 비교할 수 있습니다.

병렬 모델 테스트는 애플리케이션에 가장 적합한 음성 인식 모델의 유효성을 검사하는 데 유용합니다. 대화 기록 데이터 세트 입력이 필요한 정확도의 객관적인 측정값은 정량적으로 모델 테스트를 참조하세요.

중요합니다

테스트할 때 시스템에서 기록을 수행합니다. 서비스 제공 및 구독 수준에 따라 가격이 달라지기 때문에 이 점을 염두에 두어야 합니다. 최신 세부 정보는 항상 공식 Foundry Tools 가격 책정을 참조하세요.

테스트 만들기

학습 및 테스트 데이터 세트를 업로드한 후 테스트를 만들 수 있습니다.

미세 조정된 사용자 지정 음성 모델을 테스트하려면 다음 단계를 수행합니다.

  1. Microsoft Foundry 포털에 로그인합니다.

  2. 왼쪽 창에서 미세 조정을 선택한 다음 , AI Service 미세 조정을 선택합니다.

  3. 사용자 지정 음성 미세 조정 문서를 시작하는 방법에 설명된 대로 시작한 사용자 지정 음성 미세 조정 작업(모델 이름 기준)을 선택합니다.

  4. 테스트 모델>+ 테스트 만들기를 선택합니다.

    사용자 지정 음성 모델을 테스트하는 옵션이 있는 페이지의 스크린샷.

  5. 새 테스트 만들기 마법사에서 테스트 유형을 선택합니다. 품질 테스트의 경우 품질 검사(오디오 전용 데이터)를 선택합니다. 그런 후 다음을 선택합니다.

  6. 테스트에 사용할 데이터를 선택합니다. 그런 후 다음을 선택합니다.

  7. 정확도를 평가하고 비교하려면 최대 두 개의 모델을 선택합니다. 이 예제에서는 학습한 모델과 기본 모델을 선택합니다. 그런 후 다음을 선택합니다.

    정확도를 평가하고 비교할 모델을 최대 두 개까지 선택하는 옵션이 있는 페이지의 스크린샷

  8. 테스트의 이름과 설명을 입력합니다. 그런 후 다음을 선택합니다.

  9. 설정을 검토하고 테스트 만들기를 선택합니다. 테스트 모델 페이지로 돌아갑니다. 데이터의 상태가 처리 중입니다.

지침에 따라 테스트를 만듭니다.

  1. Speech Studio에 로그인합니다.

  2. Speech Studio>Custom speech로 이동하여 목록에서 프로젝트 이름을 선택합니다.

  3. 테스트 모델>새 테스트 만들기를 선택합니다.

  4. 품질 검사(오디오 전용 데이터)>다음을 선택합니다.

  5. 테스트에 사용할 오디오 데이터 세트를 선택하고 다음을 선택합니다. 사용 가능한 데이터 세트가 없으면 설정을 취소한 다음 음성 데이터 세트 메뉴로 이동하여 데이터 세트를 업로드합니다.

    데이터 세트 대화 상자를 선택하는 스크린샷

  6. 정확도를 평가하고 비교하려면 모델을 하나 또는 두 개 선택합니다.

  7. 테스트 이름과 설명을 입력하고 다음을 선택합니다.

  8. 설정을 검토한 다음, 저장 후 닫기를 선택합니다.

계속하기 전에 Speech CLI 를 설치하고 구성했는지 확인합니다.

테스트를 만들려면 spx csr evaluation create 명령을 사용합니다. 다음 지침에 따라 요청 매개 변수를 생성합니다.

  • project 속성을 기존 프로젝트의 ID로 설정합니다. project 이 속성은 Microsoft Foundry 포털에서 사용자 지정 음성에 대한 미세 조정을 관리할 수도 있도록 하는 것이 좋습니다. 프로젝트 ID를 가져오려면 REST API 설명서의 프로젝트 ID 가져오기를 참조하세요.
  • 필수 model1 속성을 테스트하려는 모델의 ID로 설정합니다.
  • 필수 model2 속성을 테스트하려는 다른 모델의 ID로 설정합니다. 두 모델을 비교하지 않으려면 model1model2 둘 다에 대해 동일한 모델을 사용합니다.
  • 필수 dataset 속성을 테스트에 사용할 데이터 세트의 ID로 설정합니다.
  • language 속성을 설정하고, 그렇지 않으면 Speech CLI는 기본적으로 "en-US"를 설정합니다. 이 매개 변수는 데이터 세트 콘텐츠의 로캘이어야 합니다. 로캘은 나중에 변경할 수 없습니다. Speech CLI language 속성은 locale JSON 요청 및 응답의 속성에 해당합니다.
  • 필수 name 속성을 설정합니다. 이 매개 변수는 Microsoft Foundry 포털에 표시되는 이름입니다. Speech CLI name 속성은 displayName JSON 요청 및 응답의 속성에 해당합니다.

다음은 테스트를 만드는 Speech CLI 명령의 예입니다.

spx csr evaluation create --api-version v3.2 --project aaaabbbb-0000-cccc-1111-dddd2222eeee --dataset bbbbcccc-1111-dddd-2222-eeee3333ffff --model1 ccccdddd-2222-eeee-3333-ffff4444aaaa --model2 ccccdddd-2222-eeee-3333-ffff4444aaaa --name "My Inspection" --description "My Inspection Description"

중요합니다

--api-version v3.2를 설정해야 합니다. Speech CLI는 REST API를 사용하지만 이후 버전을 v3.2지원하지 않습니다.

응답 본문은 다음 형식으로 표시되어야 합니다.

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": -1.0,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1,
    "wordErrorRate2": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1
  },
  "lastActionDateTime": "2024-07-14T21:21:39Z",
  "status": "NotStarted",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

응답 본문의 최상위 self 속성은 평가의 URI입니다. 이 URI를 사용하여 프로젝트 및 테스트 결과에 대한 세부 정보를 가져옵니다. 또한 이 URI를 사용하여 평가를 업데이트하거나 삭제합니다.

평가에 대한 Speech CLI 도움말을 보려면 다음 명령을 실행합니다.

spx help csr evaluation

테스트를 만들려면 음성 텍스트 변환 REST API평가_만들기 작업을 사용하세요. 다음 지침에 따라 요청 본문을 생성합니다.

  • project 속성을 기존 프로젝트의 ID로 설정합니다. project 이 속성은 Microsoft Foundry 포털에서 사용자 지정 음성에 대한 미세 조정을 관리할 수도 있도록 하는 것이 좋습니다. 프로젝트 ID를 가져오려면 REST API 설명서의 프로젝트 ID 가져오기를 참조하세요.
  • 필수 model1 속성을 테스트하려는 모델의 URI로 설정합니다.
  • 필수 model2 속성을 테스트하려는 다른 모델의 URI로 설정합니다. 두 모델을 비교하지 않으려면 model1model2 둘 다에 대해 동일한 모델을 사용합니다.
  • 필수 dataset 속성을 테스트에 사용할 데이터 세트의 URI로 설정합니다.
  • 필수 locale 속성을 설정합니다. 이 속성은 데이터 세트 콘텐츠의 로캘이어야 합니다. 로캘은 나중에 변경할 수 없습니다.
  • 필수 displayName 속성을 설정합니다. 이 속성은 Microsoft Foundry 포털에 표시되는 이름입니다.

다음 예제와 같이 URI를 사용하여 HTTP POST 요청을 만듭니다. YourSpeechResoureKey를 Speech 리소스 키로 바꾸고, YourServiceRegion을 Speech 리소스 영역으로 바꾸고, 앞에서 설명한 대로 요청 본문 속성을 설정합니다.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "displayName": "My Inspection",
  "description": "My Inspection Description",
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations"

응답 본문은 다음 형식으로 표시되어야 합니다.

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": -1.0,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1,
    "wordErrorRate2": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1
  },
  "lastActionDateTime": "2024-07-14T21:21:39Z",
  "status": "NotStarted",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

응답 본문의 최상위 self 속성은 평가의 URI입니다. 이 URI를 사용하여 평가의 프로젝트 및 테스트 결과에 대한 세부 정보를 가져옵니다. 또한 이 URI를 사용하여 평가를 업데이트하거나 삭제합니다.

테스트 결과 가져오기

테스트 결과를 가져오고, 각 모델에 대한 대화 기록 결과와 비교하여 오디오 데이터 세트를 검사해야 합니다.

테스트 상태가 성공하면 결과를 볼 수 있습니다. 테스트를 선택하여 결과를 봅니다.

다음 단계에 따라 테스트 결과를 얻습니다.

  1. Speech Studio에 로그인합니다.
  2. 사용자 지정 음성> 내 프로젝트 이름 >테스트 모델을 선택합니다.
  3. 테스트 이름으로 링크를 선택합니다.
  4. ‘성공’으로 설정된 상태로 테스트가 완료되면 테스트된 각 모델에 대한 WER 번호가 포함된 결과가 표시됩니다.

이 페이지에는 제출된 데이터 세트의 대화 내용 기록과 함께 데이터 세트의 모든 발화와 인식 결과가 나열됩니다. 삽입, 삭제 및 대체를 포함한 다양한 오류 유형을 전환할 수 있습니다. 오디오를 듣고 각 열의 인식 결과를 비교하면 요구 사항을 충족하는 모델 및 더 많은 학습 및 개선이 필요한 모델을 결정할 수 있습니다.

계속하기 전에 Speech CLI 를 설치하고 구성했는지 확인합니다.

테스트 결과를 얻으려면 spx csr evaluation status 명령을 사용합니다. 다음 지침에 따라 요청 매개 변수를 생성합니다.

  • 필수 evaluation 속성을 테스트 결과를 가져오려는 평가의 ID로 설정합니다.

테스트 결과를 가져오는 Speech CLI 명령의 예는 다음과 같습니다.

spx csr evaluation status --api-version v3.2 --evaluation ddddeeee-3333-ffff-4444-aaaa5555bbbb

중요합니다

--api-version v3.2를 설정해야 합니다. Speech CLI는 REST API를 사용하지만 이후 버전을 v3.2지원하지 않습니다.

모델, 오디오 데이터 세트, 대화 기록 및 자세한 내용은 응답 본문에 반환됩니다.

응답 본문은 다음 형식으로 표시되어야 합니다.

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": 0.028900000000000002,
    "sentenceErrorRate1": 0.667,
    "tokenErrorRate1": 0.12119999999999999,
    "sentenceCount1": 3,
    "wordCount1": 173,
    "correctWordCount1": 170,
    "wordSubstitutionCount1": 2,
    "wordDeletionCount1": 1,
    "wordInsertionCount1": 2,
    "tokenCount1": 165,
    "correctTokenCount1": 145,
    "tokenSubstitutionCount1": 10,
    "tokenDeletionCount1": 1,
    "tokenInsertionCount1": 9,
    "tokenErrors1": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    },
    "wordErrorRate2": 0.028900000000000002,
    "sentenceErrorRate2": 0.667,
    "tokenErrorRate2": 0.12119999999999999,
    "sentenceCount2": 3,
    "wordCount2": 173,
    "correctWordCount2": 170,
    "wordSubstitutionCount2": 2,
    "wordDeletionCount2": 1,
    "wordInsertionCount2": 2,
    "tokenCount2": 165,
    "correctTokenCount2": 145,
    "tokenSubstitutionCount2": 10,
    "tokenDeletionCount2": 1,
    "tokenInsertionCount2": 9,
    "tokenErrors2": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    }
  },
  "lastActionDateTime": "2024-07-14T21:22:45Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

평가에 대한 Speech CLI 도움말을 보려면 다음 명령을 실행합니다.

spx help csr evaluation

테스트 결과를 얻으려면 먼저 음성 텍스트 변환 REST API평가_가져오기 작업을 사용하세요.

다음 예제와 같이 URI를 사용하여 HTTP GET 요청을 만듭니다. YourEvaluationId를 평가 ID로 바꾸고, YourSpeechResoureKey를 음성 리소스 키로 바꾸고, YourServiceRegion을 음성 리소스 지역으로 바꿉니다.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey"

모델, 오디오 데이터 세트, 대화 기록 및 자세한 내용은 응답 본문에 반환됩니다.

응답 본문은 다음 형식으로 표시되어야 합니다.

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/ddddeeee-3333-ffff-4444-aaaa5555bbbb",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/ccccdddd-2222-eeee-3333-ffff4444aaaa"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/eeeeffff-4444-aaaa-5555-bbbb6666cccc"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/aaaabbbb-0000-cccc-1111-dddd2222eeee"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/evaluations/9c06d5b1-213f-4a16-9069-bc86efacdaac/files"
  },
  "properties": {
    "wordErrorRate1": 0.028900000000000002,
    "sentenceErrorRate1": 0.667,
    "tokenErrorRate1": 0.12119999999999999,
    "sentenceCount1": 3,
    "wordCount1": 173,
    "correctWordCount1": 170,
    "wordSubstitutionCount1": 2,
    "wordDeletionCount1": 1,
    "wordInsertionCount1": 2,
    "tokenCount1": 165,
    "correctTokenCount1": 145,
    "tokenSubstitutionCount1": 10,
    "tokenDeletionCount1": 1,
    "tokenInsertionCount1": 9,
    "tokenErrors1": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    },
    "wordErrorRate2": 0.028900000000000002,
    "sentenceErrorRate2": 0.667,
    "tokenErrorRate2": 0.12119999999999999,
    "sentenceCount2": 3,
    "wordCount2": 173,
    "correctWordCount2": 170,
    "wordSubstitutionCount2": 2,
    "wordDeletionCount2": 1,
    "wordInsertionCount2": 2,
    "tokenCount2": 165,
    "correctTokenCount2": 145,
    "tokenSubstitutionCount2": 10,
    "tokenDeletionCount2": 1,
    "tokenInsertionCount2": 9,
    "tokenErrors2": {
      "punctuation": {
        "numberOfEdits": 4,
        "percentageOfAllEdits": 20.0
      },
      "capitalization": {
        "numberOfEdits": 2,
        "percentageOfAllEdits": 10.0
      },
      "inverseTextNormalization": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      },
      "lexical": {
        "numberOfEdits": 12,
        "percentageOfAllEdits": 12.0
      },
      "others": {
        "numberOfEdits": 1,
        "percentageOfAllEdits": 5.0
      }
    }
  },
  "lastActionDateTime": "2024-07-14T21:22:45Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T21:21:39Z",
  "locale": "en-US",
  "displayName": "My Inspection",
  "description": "My Inspection Description"
}

대화 기록을 오디오와 비교

테스트된 각 모델의 대화 기록 출력을 오디오 입력 데이터 세트와 비교해서 검사할 수 있습니다. 테스트에 두 모델을 포함하는 경우 대화 기록 품질을 나란히 비교할 수 있습니다.

대화 기록의 품질을 검토하려면:

  1. Speech Studio에 로그인합니다.
  2. 사용자 지정 음성> 내 프로젝트 이름 >테스트 모델을 선택합니다.
  3. 테스트 이름으로 링크를 선택합니다.
  4. 모델에서 해당 대화 기록을 읽는 동안 오디오 파일을 재생합니다.

테스트 데이터 세트에 여러 오디오 파일이 포함된 경우 테이블에 여러 행이 표시됩니다. 테스트에 두 모델을 포함하면 대화 기록이 나란히 열에 표시됩니다. 모델 간의 대화 기록 차이는 파란색 텍스트 글꼴로 표시됩니다.

두 모델의 대화 기록 비교 스크린샷

계속하기 전에 Speech CLI 를 설치하고 구성했는지 확인합니다.

테스트된 오디오 테스트 데이터 세트, 대화 기록 및 모델이 테스트 결과에 반환됩니다. 단일 모델만 테스트한 경우 model1 값이 model2와 일치하고 transcription1 값이 transcription2와 일치합니다.

대화 기록의 품질을 검토하려면:

  1. 복사본이 아직 없는 경우 오디오 테스트 데이터 세트를 다운로드합니다.
  2. 출력 대화 기록을 다운로드합니다.
  3. 모델에서 해당 대화 기록을 읽는 동안 오디오 파일을 재생합니다.

두 모델 간의 품질을 비교하는 경우 각 모델의 대화 기록 간 차이에 특히 주의해야 합니다.

테스트된 오디오 테스트 데이터 세트, 대화 기록 및 모델이 테스트 결과에 반환됩니다. 단일 모델만 테스트한 경우 model1 값이 model2와 일치하고 transcription1 값이 transcription2와 일치합니다.

대화 기록의 품질을 검토하려면:

  1. 복사본이 아직 없는 경우 오디오 테스트 데이터 세트를 다운로드합니다.
  2. 출력 대화 기록을 다운로드합니다.
  3. 모델에서 해당 대화 기록을 읽는 동안 오디오 파일을 재생합니다.

두 모델 간의 품질을 비교하는 경우 각 모델의 대화 기록 간 차이에 특히 주의해야 합니다.

다음 단계