중요합니다
영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.
Azure AI Speech 서비스의 일부로 발음 평가는 컴퓨터 지원 언어 학습을 위한 엔드투엔드 교육 솔루션을 지원합니다. 발음 평가에는 여러 수준의 세부 정보에서 학습자의 성과를 평가하기 위한 여러 기준이 포함되며, 인간 판사와 유사한 인식이 있습니다.
발음 평가가 얼마나 정확한가요?
발음 평가 기능은 컴퓨터 지원 언어 학습의 언어 학습자를 위해 발음 정확도 및 유창도와 같은 목표 점수를 제공합니다. 발음 평가의 성능은 제출된 전사를 참조로 사용하는 Azure AI 음성 텍스트 변환 전사 정확도 및 시스템과 인간 판사 간의 평가자 간 계약에 따라 달라집니다. Speech-To-Text 정확도에 대한 정의는 음성 텍스트 변환 사용에 대한 특성 및 제한 사항을 참조하세요.
다음 섹션은 발음 평가 사용에 적용할 때 정확도에 대한 주요 개념을 이해하는 데 도움이 되도록 설계되었습니다.
정확도의 언어
음성 텍스트 변환 정확도는 발음 평가에 영향을 줍니다. WER(Word 오류율)은 음성To-Text 정확도를 업계 표준으로 측정하는 데 사용됩니다. WER은 인식 중에 식별된 잘못된 단어의 수를 계산한 다음, 올바른 대본에 제공된 총 단어 수로 나눕니다. 이는 종종 사용자 레이블 지정에 의해 생성됩니다.
발음 평가와 인간 판사 비교
Pearson 상관 계수는 발음 평가 API 생성 점수와 인간 심사위원이 생성한 점수 사이의 상관 관계를 측정하는 데 사용됩니다. Pearson 상관 계수는 지정된 두 시퀀스에 대한 선형 상관 관계의 측정값입니다. 자동으로 생성된 컴퓨터 결과와 사람이 주석을 추가한 레이블 간의 차이를 측정하는 데 널리 사용됩니다. 이 계수는 –1에서 1 사이의 값을 할당합니다. 여기서 0은 상관 관계가 없으며 음수 값은 예측이 대상과 반대이고 양수 값은 예측이 대상과 정렬되는 방식을 의미합니다.
Pearson 상관 계수 해석에 대한 제안된 지침은 다음 표에 나와 있습니다. 강도는 두 변수 간의 관계 상관 관계를 의미하며 컴퓨터 결과가 인간 레이블과 얼마나 일관되게 일치하는지 반영합니다. 1에 가까운 값은 더 강력한 상관 관계를 나타냅니다.
| 연결의 힘 | 계수 값 | 세부 정보 |
|---|---|---|
| 낮음 | 0.1 ~ 0.3 | 자동 시스템의 자동 생성된 점수는 인간의 인식과 크게 일치하지 않습니다. |
| 미디엄 | 0.3 ~ 0.5 | 자동 시스템의 자동 생성된 점수는 인간의 인식과 일치하지만 차이점은 여전히 존재하며 사람들은 결과에 동의하지 않을 수 있습니다. |
| 높음 | 0.5 ~ 1.0 | 자동 시스템의 자동 생성된 점수는 인간의 인식과 일치하며, 사람들은 시스템 결과에 동의할 의향이 있습니다. |
평가에서 Microsoft 발음 평가는 인간 심사위원의 결과와 0.5 Pearson 상관 관계를 수행 >했으며, 이는 자동 생성된 결과가 인간 전문가의 판단과 매우 일치했음을 나타냅니다.
시스템 정확도 향상을 위한 시스템 제한 사항 및 모범 사례
- 발음 평가는 고품질 오디오 입력에서 더 잘 작동합니다. 16kHz 이상의 입력 품질을 권장합니다.
- 발음 평가 품질도 마이크에서 스피커의 거리에 영향을 받습니다. 녹음은 원격 연결을 통해서가 아니라 마이크에 가까운 스피커로 만들어야 합니다.
- 발음 평가는 혼합 언어 평가 시나리오를 지원하지 않습니다.
- 발음 평가는 광범위한 언어를 지원합니다.
- 발음 평가는 다중 화자 평가 시나리오를 지원하지 않습니다. 오디오는 각 평가에 대해 하나의 스피커만 포함해야 합니다.
- 발음 평가는 제출된 오디오를 일반 조건에서 원어민과 비교합니다. 화자는 정상적인 말하기 속도와 볼륨을 유지해야 하며, 소리를 지르거나 목소리를 높이는 것을 피해야 합니다.
- 발음 평가는 백그라운드 노이즈가 거의 없는 환경에서 더 잘 수행됩니다. 현재 음성 텍스트 변환 모델은 일반적인 조건에서 노이즈를 수용합니다. 시끄러운 환경 또는 여러 사람이 동시에 말하는 경우 평가에 대한 신뢰도가 낮아질 수 있습니다. 어려운 경우를 더 잘 처리하려면 화자가 특정 임계값 미만의 점수를 받을 경우 발음을 반복해야 한다고 제안할 수 있습니다.
애플리케이션에서 발음 평가하기
발음 평가의 성능은 고객이 구현하는 실제 사용에 따라 달라집니다. 시나리오에서 최적의 성능을 보장하기 위해 고객은 발음 평가를 사용하여 구현하는 솔루션에 대한 자체 평가를 수행해야 합니다.
- 애플리케이션에서 발음 평가를 사용하기 전에 이 제품이 시나리오에서 잘 수행되는지 여부를 고려합니다. 대상 시나리오에서 실제 데이터를 수집하고, 발음 평가가 수행하는 방법을 테스트하고, Speech-To-Text 및 발음 평가가 필요한 정확도를 제공할 수 있는지 확인합니다. Azure AI 서비스 Custom Speech 정확도 평가 및 향상을 참조하세요.
- 대상 시나리오에 따라 적절한 임계값을 선택합니다. 발음 평가는 서로 다른 수준에서 정확도 점수를 제공하므로 실제 사용에서 사용하는 임계값을 고려해야 할 수 있습니다. 예를 들어, 어린이 학습에 대한 채점 방법은 성인 학습만큼 엄격하지 않을 수 있습니다. 성인 학습에서는 더 높은 발음 오류 감지 임계값을 설정하는 것이 권장됩니다.