중요합니다
영어가 아닌 번역은 편의를 위해서만 제공됩니다. 이 문서의 최종 버전이 필요하면 EN-US 버전을 참조하세요.
이 문서에서는 사용자가 제공한 데이터가 Azure AI Speech 텍스트에서 음성으로 처리, 사용 및 저장되는 방법에 대한 세부 정보를 제공합니다. 중요한 알림으로, 귀하는 이 기술의 사용 및 구현에 대한 책임이 있으며, 음성 및 아바타 인재(그리고 해당하는 경우 개인 음성 통합의 사용자)로부터 음성, 이미지, 모양 및/또는 기타 데이터를 처리하여 합성 음성 및/또는 아바타를 개발하는 데 필요한 모든 권한을 획득해야 합니다.
또한 오디오, 이미지 및/또는 비디오 출력을 생성하기 위해 텍스트 음성 서비스에 입력하는 콘텐츠에 필요한 라이선스, 사용 권한 또는 기타 권한을 획득할 책임이 있습니다. 일부 관할권에서는 생체 인식 데이터와 같은 특정 범주의 데이터를 수집, 처리 및 저장하기 위한 특별한 법적 요구 사항을 부과하고 사용자에게 합성 음성, 이미지 및/또는 비디오의 사용을 공개하도록 의무화할 수 있습니다. 텍스트 음성 변환을 사용하여 모든 종류의 데이터를 처리하고 저장하기 전에, 해당하는 경우 사용자 지정 신경망 음성, 개인 음성 또는 사용자 지정 아바타 모델을 만들기 전에 적용할 수 있는 모든 법적 요구 사항을 준수해야 합니다.
Text to Speech Services는 어떤 데이터를 처리합니까?
미리 빌드된 신경망 음성 및 미리 빌드된 아바타는 다음 유형의 데이터를 처리합니다.
- 음성 합성에 대한 텍스트 입력입니다. 미리 빌드된 신경망 음성 집합을 사용하여 오디오 출력을 생성하거나 미리 빌드된 또는 사용자 지정 신경망 음성에서 생성된 오디오를 발화하는 미리 빌드된 아바타를 생성하기 위해 텍스트 음성 서비스에 선택하고 보내는 텍스트입니다.
녹음된 성우 승인 문 파일입니다. 고객은 그들의 음성을 활용하여 합성 음성(들)을 만들 것임을 인정하는 성우가 말하는 특정 녹음된 진술을 업로드해야 합니다.
비고
녹음 스크립트를 준비할 때 녹음할 성우에게 필요한 승인 명세서를 포함해야 합니다. 여기에서 여러 언어로 된 문을 찾을 수 있습니다. 승인 문의 언어는 오디오 녹음 학습 데이터의 언어와 동일해야 합니다.
학습 데이터(오디오 파일 및 관련 텍스트 대본 포함) 여기에는 모델 학습에 음성을 사용하기로 합의한 성우의 오디오 녹음 및 관련 텍스트 대본이 포함됩니다. 사용자 지정 신경망 음성 전문가 프로젝트에서 오디오의 텍스트 전사를 제공하거나 Speech Studio 내에서 사용할 수 있는 자동화된 음성 인식 전사 기능을 사용하여 오디오의 텍스트 전사를 생성할 수 있습니다. 오디오 녹음 및 텍스트 전사 파일은 모두 음성 모델 학습 데이터로 사용됩니다. 사용자 지정 신경망 음성 라이트 프로젝트에서 Speech Studio에서 Microsoft 정의 스크립트를 말하는 음성을 녹음하라는 메시지가 표시됩니다. 텍스트 대본은 개인 음성 기능에 필요하지 않습니다.
텍스트를 테스트 스크립트로 사용합니다. 고유한 텍스트 기반 스크립트를 업로드하여 음성 합성 오디오 샘플을 생성하여 사용자 지정 신경망 음성 모델의 품질을 평가하고 테스트할 수 있습니다. 개인 음성 기능에는 적용되지 않습니다.
음성 합성에 대한 텍스트 입력입니다. 사용자 지정 신경망 음성을 사용하여 오디오 출력을 생성하기 위해 선택하고 텍스트 음성 서비스로 보내는 텍스트입니다.
텍스트 음성 변환 서비스는 데이터를 처리하는 방법
사전 구축된 신경망 기반 음성
아래 다이어그램은 미리 빌드된 신경망 음성을 사용하여 합성을 위해 데이터를 처리하는 방법을 보여 줍니다. 입력은 텍스트이고 출력은 오디오입니다. 입력 텍스트나 출력 오디오 콘텐츠는 Microsoft 로그에 저장되지 않습니다.
사용자 지정 신경망 음성
아래 다이어그램은 사용자 지정 신경망 음성에 대해 데이터를 처리하는 방법을 보여 줍니다. 이 다이어그램에서는 Microsoft가 사용자 지정 신경망 음성 모델 학습 전에 녹음된 승인 문 파일을 확인하는 방법, Microsoft가 학습 데이터를 사용하여 사용자 지정 신경망 음성 모델을 만드는 방법, 텍스트 음성 변환에서 텍스트 입력을 처리하여 오디오 콘텐츠를 생성하는 방법 등 세 가지 유형의 처리를 다룹니다.
텍스트 음성 변환 아바타
아래 다이어그램은 미리 빌드된 텍스트 음성 변환 아바타를 사용하여 합성을 위해 데이터를 처리하는 방법을 보여 줍니다. 아바타 콘텐츠 생성 워크플로에는 텍스트 분석기, TTS 오디오 신시사이저 및 TTS 아바타 비디오 신시사이저의 세 가지 구성 요소가 있습니다. 아바타 비디오를 생성하기 위해 텍스트는 먼저 텍스트 분석기에 입력되며, 이 입력은 음소 시퀀스의 형태로 출력을 제공합니다. 그런 다음 TTS 오디오 신시사이저는 입력 텍스트의 음향 기능을 예측하고 음성을 합성합니다. 이 두 부분은 텍스트 음성 변환 음성 모델을 통해 제공됩니다. 다음으로, 인공신경망 텍스트 음성 아바타 모델은 합성 비디오가 생성되도록 음향 기능과 립싱크 이미지를 예측합니다.
동영상 번역(미리 보기)
아래 다이어그램은 비디오 번역을 사용하여 데이터를 처리하는 방법을 보여 줍니다. 고객은 비디오를 비디오 번역을 위한 입력으로 업로드하고, 대화 오디오가 추출되고, 음성 텍스트 변환이 오디오를 텍스트 콘텐츠로 전사합니다. 그런 다음 텍스트 콘텐츠가 대상 언어 콘텐츠로 번역되고 텍스트 음성 변환 기능을 사용하여 번역된 오디오가 비디오 출력으로 원래 비디오 콘텐츠와 병합됩니다.
기록된 인정서 확인
Microsoft는 고객이 음성을 사용하여 합성 음성을 만들 것임을 인정하는 음성 인재의 녹음된 설명과 함께 오디오 파일을 Speech Studio에 업로드하도록 요구합니다. Microsoft는 Microsoft의 음성 텍스트 변환 및 음성 인식 기술을 사용하여 이 기록된 승인 문을 텍스트로 전사하고 녹음/녹화 내용이 Microsoft에서 제공하는 미리 정의된 스크립트와 일치하는지 확인할 수 있습니다. 이 승인 문은 오디오와 함께 제공하는 재능 정보와 함께 성우 프로필을 만드는 데 사용됩니다. 사용자 지정 신경망 음성 학습을 시작할 때 학습 데이터를 관련 음성 인재 프로필과 연결해야 합니다.
또한 Microsoft는 음성 인재의 녹음된 승인 문 파일과 학습 데이터 세트의 임의 오디오에서 생체 인식 음성 서명을 처리하여 승인 문 녹음 및 학습 데이터 녹음의 음성 서명이 Azure AI Speaker Verification을 사용하여 합리적인 신뢰도와 일치하는지 확인할 수 있습니다. 음성 서명은 "음성 템플릿" 또는 "음성 인쇄"라고도 하며, 말하는 사람의 오디오 녹음에서 추출된 개인의 음성 특성을 나타내는 숫자 벡터입니다. 이 기술 보호 장치는 예를 들어 고객이 오디오 녹음으로 음성 모델을 학습하고 모델을 사용하여 지식이나 동의 없이 사용자의 음성을 스푸핑하는 것을 방지하여 사용자 지정 신경망 음성의 오용을 방지하기 위한 것입니다.
음성 서명은 화자 확인 목적으로만 사용되거나 서비스의 오용을 조사하는 데 필요한 용도로만 Microsoft에서 사용됩니다.
Microsoft 제품 및 서비스 데이터 보호 부록("DPA")은 Azure와 관련하여 고객 데이터 및 개인 데이터의 처리 및 보안과 관련하여 고객과 Microsoft의 의무를 명시하고 Azure 서비스에 대한 고객의 기업 계약에 참조로 통합됩니다. 이 섹션에서 Microsoft의 데이터 처리는 데이터 보호 부록의 적법한 이익 비즈니스 운영 섹션에 따라 관리됩니다.
사용자 지정 신경망 음성 모델 학습
고객이 Speech Studio에 제출하는 학습 데이터(음성 오디오)는 데이터 형식 검사, 발음 점수 매기기, 노이즈 감지, 스크립트 매핑 등 품질 검사를 위한 자동화된 도구를 사용하여 미리 처리됩니다. 그런 다음 학습 데이터를 사용자 지정 음성 플랫폼의 모델 학습 구성 요소로 가져옵니다. 학습 프로세스 중에 학습 데이터(음성 오디오 및 텍스트 전사 모두)는 음소 시퀀스와 같은 음성 음향 및 텍스트의 세분화된 매핑으로 분해됩니다. 더 복잡한 기계 기울어진 모델링을 통해 서비스는 음성 모델을 빌드한 다음, 음성 특성과 비슷한 소리를 내는 오디오를 생성하는 데 사용할 수 있으며 학습 데이터 기록과는 다른 언어로 생성될 수도 있습니다. 음성 모델은 특정 스피커의 고유한 보컬 특성을 모방할 수 있는 텍스트 음성 변환 컴퓨터 모델입니다. 사람이 읽을 수 없으며 오디오 녹음을 포함하지 않는 이진 형식의 매개 변수 집합을 나타냅니다.
고객의 교육 데이터는 해당 고객의 사용자 지정 음성 모델을 개발하는 데만 사용되며 Microsoft에서 Microsoft 텍스트 음성 음성 모델을 학습하거나 개선하는 데 사용되지 않습니다.
음성 합성/오디오 콘텐츠 생성
음성 모델을 만든 후에는 두 가지 옵션을 사용하여 텍스트 음성 변환 서비스를 통해 오디오 콘텐츠를 만들 수 있습니다.
실시간 음성 합성을 위해 TTS SDK 또는 RESTfulAPI를 통해 입력 텍스트를 텍스트 음성 서비스로 보냅니다. 텍스트 음성 변환은 입력 텍스트를 처리하고 요청을 수행한 애플리케이션에 실시간으로 출력 오디오 콘텐츠 파일을 반환합니다.
긴 오디오(일괄 합성)의 비동기 합성의 경우 입력 텍스트 파일을 긴 오디오 API 를 통해 텍스트 음성 일괄 처리 서비스에 제출하여 10분보다 긴 오디오를 비동기적으로 만듭니다(예: 오디오 책 또는 강의). 텍스트 음성 변환 API를 사용하여 수행하는 합성과 달리 응답은 Long Audio API를 사용하여 실시간으로 반환되지 않습니다. 오디오는 비동기적으로 생성되며, 일괄 처리 합성 서비스에서 사용할 수 있게 되면 합성된 오디오 파일에 액세스하고 다운로드할 수 있습니다.
사용자 지정 음성 모델을 사용하여 코드 없는 오디오 콘텐츠 만들기 도구를 통해 오디오 콘텐츠를 생성하고, Azure Storage에서 도구로 텍스트 입력 또는 출력 오디오 콘텐츠를 저장하도록 선택할 수도 있습니다.
사용자 지정 신경망 음성 라이트에 대한 데이터 처리(미리 보기)
사용자 지정 신경망 음성 라이트는 공개 미리 보기의 프로젝트 유형으로, Speech Studio에서 20-50개의 음성 샘플을 녹음하고 데모 및 평가 목적으로 간단한 사용자 지정 신경망 음성 모델을 만들 수 있습니다. 기록 스크립트와 테스트 스크립트는 모두 Microsoft에서 미리 정의합니다. 사용자 지정 신경망 음성 라이트를 사용하여 만든 가상 음성 모델은 사용자 지정 신경망 음성에 대한 모든 권한을 신청하고 수신하는 경우에만 더 광범위하게 배포되고 사용될 수 있습니다(해당 용어에 따라 다름).
Speech Studio를 통해 제출하는 합성 음성 및 관련 오디오 녹음은 사용자 지정 신경망 음성에 대한 모든 권한을 얻고 가상 음성을 배포하도록 선택하지 않는 한 90일 이내에 자동으로 삭제됩니다. 이 경우 보존 기간을 제어합니다. 음성 인재가 가상 음성 및 관련 오디오 녹음을 90일 전에 삭제하려는 경우 포털에서 직접 삭제하거나 기업에 문의하여 삭제할 수 있습니다.
또한 사용자 지정 신경망 음성 라이트 프로젝트를 사용하여 만든 가상 음성 모델을 배포하기 전에 음성 인재는 데모 및 평가 이외의 추가 목적으로 가상 음성이 사용된다는 것을 인정하는 추가 녹음을 제공해야 합니다.
개인 음성 API에 대한 데이터 처리(미리 보기)
개인 음성을 사용하면 짧은 사람의 음성 샘플을 사용하여 합성 음성을 만들 수 있습니다. 위에서 설명한 구두 승인 문 파일은 애플리케이션에서 통합을 사용하는 각 사용자에게 필요합니다. Microsoft는 각 사용자의 녹음된 음성 문 파일과 녹음된 학습 샘플(즉, 프롬프트)에서 생체 인식 음성 서명을 처리하여 승인 문 녹음 및 학습 데이터 녹음의 음성 서명이 Azure AI Speaker Verification을 사용하여 합리적인 신뢰도와 일치하는지 확인할 수 있습니다.
학습 샘플은 음성 모델을 만드는 데 사용됩니다. 그런 다음, 음성 모델을 사용하여 추가 배포 없이 API를 통해 서비스에 제공된 텍스트 입력을 사용하여 음성을 생성할 수 있습니다.
데이터 스토리지 및 처리
모든 텍스트 음성 변환 서비스
음성 합성에 대한 텍스트 입력: Microsoft는 실시간 합성 텍스트 음성 변환 API와 함께 제공하는 텍스트를 유지하거나 저장하지 않습니다. 텍스트 음성 변환을 위한 Long Audio API 또는 텍스트 음성 변환 아바타용 텍스트 음성 아바타 일괄 처리 API를 통해 제공되는 스크립트는 일괄 처리 합성 요청을 처리하기 위해 Azure Storage에 저장됩니다. 입력 텍스트는 언제든지 삭제 API를 통해 삭제 할 수 있습니다.
오디오 및 비디오 콘텐츠 출력: Microsoft는 실시간 합성 API를 사용하여 생성된 오디오 또는 비디오 콘텐츠를 저장하지 않습니다. 텍스트 음성 변환 아바타 일괄 처리 API에 비디오 번역 또는 Long Audio API 를 사용하는 경우 출력 오디오 또는 비디오 콘텐츠가 Azure Storage에 저장됩니다. 이러한 오디오 또는 비디오는 삭제 작업을 통해 언제든지 제거할 수 있습니다.
기록된 승인 문 및 화자 확인 데이터: 음성 서명은 화자 확인 목적으로만 사용되거나 서비스의 오용을 조사하는 데 필요한 목적으로만 사용됩니다. 음성 서명은 때때로 발생할 수 있는 화자 확인을 수행하는 데 필요한 시간 동안만 유지됩니다. Microsoft는 Speech Studio에서 사용자 지정 신경망 음성 모델을 학습하거나 재학습하기 전에 또는 필요에 따라 이 확인을 요구할 수 있습니다. Microsoft는 Azure AI Speech의 보안 및 무결성을 유지하기 위해 필요한 기간 동안 기록된 승인 문 파일 및 음성 인재 프로필 데이터를 유지합니다.
사용자 지정 신경망 음성 모델: 사용자 지정 신경망 음성 모델에 대한 배타적 사용 권한을 유지 관리하는 동안 Microsoft는 필요에 따라 사용자 지정 신경망 음성 모델의 복사본을 독립적으로 유지할 수 있습니다. Microsoft는 Microsoft Azure AI 서비스의 보안 및 무결성을 보호하기 위해 사용자 지정 신경망 음성 모델을 사용할 수 있습니다.
Microsoft는 다른 Azure 서비스에 사용하는 것과 동일한 높은 수준의 보안을 사용하여 각 성우의 기록된 승인 문 및 사용자 지정 신경망 음성 모델의 복사본을 보호하고 저장합니다. Microsoft 보안 센터에서 자세히 알아보세요.
학습 데이터: 음성 인재의 음성 학습 데이터를 제출하여 Speech Studio를 통해 음성 모델을 생성합니다. 이 데이터는 기본적으로 Azure Storage에 유지되고 저장됩니다(자세한 내용은 REST의 데이터에 대한 Azure Storage 암호화 참조). Speech Studio를 통해 음성 모델을 빌드하는 데 사용되는 학습 데이터에 액세스하고 삭제할 수 있습니다.
BYOS(Bring Your Own Storage)를 통해 학습 데이터의 스토리지를 관리할 수 있습니다. 이 스토리지 방법을 사용하면 학습 데이터는 음성 모델 학습 목적으로만 액세스할 수 있으며, 그렇지 않으면 BYOS를 통해 저장됩니다.
비고
개인 음성은 BYOS를 지원하지 않습니다. 데이터는 Microsoft에서 관리하는 Azure Storage에 저장됩니다. API를 통해 음성 모델을 빌드하는 데 사용되는 학습 데이터(프롬프트 오디오)에 액세스하고 삭제할 수 있습니다. Microsoft는 필요에 따라 개인 음성 모델의 복사본을 독립적으로 유지할 수 있습니다. Microsoft는 Microsoft Azure AI 서비스의 보안 및 무결성을 보호하기 위한 목적으로만 개인 음성 모델을 사용할 수 있습니다.