사용자 지정 음성을 사용하면 애플리케이션 및 제품에 대한 음성 인식의 정확도를 평가하고 개선할 수 있습니다. 사용자 지정 음성 모델은 실시간 음성 텍스트 변환, 음성 번역 및 일괄 대화 기록에 사용할 수 있습니다.
기본적으로 음성 인식은 유니버설 언어 모델을 Microsoft 소유의 데이터로 학습하고 일반적으로 사용되는 음성 언어를 반영하는 베이스 모델로 활용합니다. 베이스 모델은 다양한 공통 도메인을 나타내는 방언 및 음성학으로 미리 학습됩니다. 음성 인식을 요청하면 기본적으로 각 지원되는 언어에 대한 최신 기본 모델이 사용됩니다. 베이스 모델은 대부분의 음성 인식 시나리오에서 잘 작동합니다.
사용자 지정 모델을 사용하면 모델을 학습시키는 텍스트 데이터를 제공함으로써 베이스 모델을 보강하여 애플리케이션과 관련된 도메인별 어휘의 인지를 개선할 수 있습니다. 또한 오디오 데이터에 참조 전사를 제공하여 애플리케이션의 특정 오디오 조건에 따른 인지를 개선하는 데 사용할 수 있습니다.
또한 데이터가 패턴을 따르는 경우 구조화된 텍스트로 모델을 학습하여 사용자 지정 발음을 지정하고 사용자 지정 역 텍스트 정규화, 사용자 지정 재작성 및 사용자 지정 욕설 필터링을 통해 표시 텍스트 서식을 사용자 지정할 수 있습니다.
작동 원리
사용자 지정 음성을 사용하면 사용자 고유의 데이터를 업로드하고, 사용자 지정 모델을 테스트 및 학습시키고, 모델 간의 정확도를 비교하고, 모델을 사용자 지정 엔드포인트에 배포할 수 있습니다.
이전 다이어그램에서 표시된 단계 시퀀스에 대한 자세한 내용은 다음과 같습니다.
프로젝트를 만들고 모델을 선택합니다. 오디오 데이터를 사용하여 사용자 지정 모델을 학습하는 경우 오디오 데이터를 학습하기 위한 전용 하드웨어가 있는 지역에서 서비스 리소스를 선택합니다. 자세한 내용은 지역 표의 각주를 참조하세요.
테스트 데이터 업로드. 애플리케이션, 도구 및 제품에 대한 음성 텍스트 변환 제품을 평가하는 테스트 데이터를 업로드합니다.
모델 학습. 해당 오디오 데이터와 함께 기록된 대본 및 관련 텍스트를 제공합니다. 학습 전후 모델 테스트는 선택 사항이지만 권장됩니다.
참고
사용자 지정 음성 모델 사용량 및 엔드포인트 호스팅 비용을 지불합니다. 베이스 모델이 2023년 10월 1일 이후에 만들어진 경우, 사용자 지정 음성 모델 학습에 대한 요금도 청구됩니다. 베이스 모델이 2023년 10월 이전에 만들어진 경우에는 학습에 대한 요금이 청구되지 않습니다. 자세한 내용은 Azure AI 음성 가격 책정과 음성 텍스트 변환 3.2 마이그레이션 가이드의 적용 요금 섹션을 참조하세요.
인식 품질 테스트. Speech Studio를 사용하여 업로드된 오디오를 재생하고 테스트 데이터의 음성 인식 품질을 검사합니다.
정량적으로 모델 테스트. 음성 텍스트 변환 모델의 정확도를 평가하고 개선합니다. 음성 서비스는 추가 교육이 필요한지 여부를 결정하는 데 사용할 수 있는 정량적 WER(단어 오류율)을 제공합니다.
모델 배포. 테스트 결과에 만족하는 경우 사용자 지정 엔드포인트에 모델을 배포할 수 있습니다. 일괄 처리 전사를 제외하고 사용자 지정 음성 모델을 사용하려면 사용자 지정 엔드포인트를 배포해야 합니다.
팁
호스트된 배포 엔드포인트의 경우 사용자 지정 음성을 일괄 대화 내용 기록 API와 함께 사용할 필요가 없습니다. 사용자 지정 음성 모델이 일괄 처리 대화 내용 기록에만 사용되는 경우 리소스를 보존할 수 있습니다. 자세한 내용은 Speech Service 가격 책정을 참조하세요.
모델 선택
사용자 지정 음성 모델을 사용하는 방법에는 몇 가지가 있습니다.
- 기본 모델은 다양한 시나리오에 대해 기본 모델에서 정확한 음성 인식을 제공합니다. 기본 모델은 정확도와 품질을 개선하기 위해 주기적으로 업데이트됩니다. 기본 모델을 사용하는 경우 최신 기본 모델을 사용하는 것이 좋습니다. 필요한 사용자 지정 기능을 이전 모델에서만 사용할 수 있는 경우 이전 기본 모델을 선택할 수 있습니다.
- 사용자 지정 모델은 기본 모델을 보강하여 사용자 지정 도메인의 모든 영역에서 공유되는 도메인별 어휘를 포함합니다.
- 사용자 지정 도메인에 각각 특정 어휘가 있는 여러 영역이 있는 경우 여러 사용자 지정 모델을 사용할 수 있습니다.
기본 모델이 충분할지 확인하는 한 가지 권장 방법은 기본 모델에서 생성된 전사를 분석하고 같은 오디오에 대해 사람이 생성한 대본과 비교하는 방식입니다. 기록을 비교하고 WER(단어 오류율) 점수를 얻을 수 있습니다. WER 점수가 높은 경우 잘못 식별된 단어를 인식하도록 사용자 지정 모델을 학습하는 것이 좋습니다.
어휘가 도메인 영역에 따라 달라지는 경우 여러 모델을 사용하는 것이 좋습니다. 예를 들어 올림픽 해설자는 각각 자체 언어와 관련된 다양한 이벤트에 대해 보고합니다. 각 올림픽 이벤트 어휘는 다른 용어와 크게 다르기 때문에 이벤트와 관련된 사용자 지정 모델을 빌드하면 해당 특정 이벤트에 상대적인 발화 데이터를 제한하여 정확도가 높아질 수 있습니다. 따라서 모델이 일치하는지 확인하기 위해 관련 없는 데이터를 선별할 필요가 없습니다. 그럼에도 불구하고 학습에는 여전히 다양한 학습 데이터가 필요합니다. 서로 다른 악센트, 성별, 나이 등을 가진 다양한 해설자의 오디오를 포함합니다.
모델 안정성 및 수명 주기
기본 모델 또는 사용자 지정 음성을 사용하여 엔드포인트에 배포된 사용자 지정 모델은 업데이트할 때까지 수정됩니다. 새 기본 모델이 릴리스될 경우에도 음성 인식 정확도와 품질이 일관되게 유지됩니다. 이렇게 하면 최신 모델을 사용하기로 결정할 때까지 특정 모델의 동작을 잠글 수 있습니다.
고유한 모델을 학습하든 기본 모델의 스냅샷을 사용하든 관계없이 제한된 시간 동안 모델을 사용할 수 있습니다. 자세한 내용은 모델 및 엔드포인트 수명 주기를 참조하세요.
책임 있는 AI
AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 투명성 고지를 읽어보고 시스템에서의 책임 있는 AI 사용 및 배포에 대해 알아보세요.