음성 텍스트 변환을 위한 데이터 및 개인 정보

Important

영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.

Note

이 문서는 법률 자문을 제공하기 위한 목적이 아니라 정보 제공 목적으로만 제공됩니다. Speech Services를 구현할 때 전문가 법률 자문을 구하는 것이 좋습니다.

이 문서에서는 음성 텍스트 변환이 고객이 제공한 데이터를 처리하는 방법에 대한 몇 가지 개략적인 세부 정보를 제공합니다. 말하는 사람의 오디오 데이터와 관련 텍스트 대본은 사람의 음성뿐만 아니라 오디오가 수집된 컨텍스트에 따라 개인 정보도 포함할 수 있으므로 다양한 개인 정보 보호 규정 및 법률에 따라 개인 데이터 및/또는 중요한 데이터로 간주될 수 있습니다. 오디오 데이터 및 관련 텍스트 녹취록은 다양한 통신법 또는 기타 법률 및 규정에 따라 규제될 수도 있습니다. 중요한 알림으로 사용자는 이 기술의 구현을 담당하며, 음성 텍스트 서비스에 입력한 콘텐츠에 필요한 라이선스, 권한 또는 기타 독점 권한뿐만 아니라 데이터 처리에 필요한 모든 권한을 획득해야 합니다. 관할 구역의 모든 관련 법률 및 규정을 준수하는 것은 사용자의 책임입니다.

음성 텍스트 변환은 어떤 데이터를 처리하나요?

음성 텍스트 변환은 다음과 같은 유형의 데이터를 처리합니다.

오디오 입력 또는 음성 오디오: 모든 음성 텍스트 변환 기능은 음성 오디오를 Speech SDK/REST API를 통해 서비스 엔드포인트로 스트리밍되는 입력으로 허용합니다. 일괄 처리 전사에서 오디오 입력은 고객이 지시한 스토리지 위치로 전송되고 Speech Service는 요청된 전사 서비스를 제공하기 위해 오디오 입력에 액세스하고 처리합니다. 일괄 처리 전사를 사용하는 방법에서 스토리지를 지정하는 방법에 대한 자세한 내용을 참조하세요.
입력 전사 텍스트: 발음 평가에서 전사된 텍스트는 입력 음성 오디오와 함께 "올바른" 텍스트로 전송됩니다. 발음은 입력된 발음 기호에 따라 평가됩니다.
음성 번역을 위한 기록: 음성 번역 기능을 사용하면 음성 텍스트 변환이 생성한 기록 텍스트가 번역 서비스를 통해 지정된 언어로 번역됩니다.

텍스트 번역 서비스는 텍스트를 한 언어에서 다른 언어로 변환하는 데만 사용됩니다. 번역 요청이 완료된 후 Speech Service에서 입력/출력 데이터가 유지되지 않습니다. 텍스트 번역 서비스에 대한 자세한 내용은 Translator 서비스란? 을 참조하세요.

사용자가 오디오 형식으로 전사/번역된 텍스트가 필요한 경우 이 기능은 출력 텍스트를 텍스트로 음성으로 보냅니다. 다시 말하지만 텍스트 음성 변환 데이터 처리에 데이터가 유지되지 않습니다.

음성 텍스트 변환은 데이터를 어떻게 처리하나요?

실시간 음성 텍스트 변환

클라이언트 애플리케이션이 오디오 입력을 텍스트로 보내면 음성 인식 엔진은 오디오를 구문 분석하고 텍스트로 변환합니다. 음성 텍스트 변환은 음향 및 언어 또는 언어 이해 기능에 의존하여 오디오 입력에서 발언될 수 있는 후보 단어와 구를 선택합니다. 대화 내용 기록 출력은 오디오 입력에서 말한 내용에 대한 가장 정확한 유추나 예측을 텍스트 형식으로 나타냅니다.

실시간 음성 텍스트 변환의 경우 오디오 입력은 Azure의 서버 메모리에서만 처리되며 미사용 데이터는 저장되지 않습니다. 전송 중인 모든 데이터는 보호를 위해 암호화됩니다. Azure 전반에 걸친 보안 및 개인 정보 보호에 대한 자세한 내용은 신뢰할 수 있는 클라우드: 보안, 개인 정보 보호, 규정 준수, 복원력 및 IP를 참조하세요.

일괄 처리 기록

일괄 처리 기록에서 고객은 Speech Service가 전사 출력에 액세스, 처리 및 제공할 수 있도록 오디오 입력 및 출력 전사 텍스트 파일의 선택한 스토리지 위치를 지정합니다. 고객은 이러한 데이터의 보존을 포함하여 이 데이터의 스토리지를 제어합니다. 고객은 "timeToLive"라는 매개 변수를 사용하여 생성된 전사 텍스트 파일에 대한 보존 시간을 설정할 수 있습니다. 자세한 내용은 Batch 기록 -- 구성 속성을 참조하세요.

각 음성 텍스트 변환 기능에 대한 데이터 흐름을 참조하세요.

Speech to text에 대한 데이터 흐름의 다이어그램입니다.

화자 다이어리화/분리

이 기능은 실시간 및 일괄 처리 API 모두에 사용할 수 있습니다. 고객이 스피커 분리(다이어리화) 옵션을 사용하도록 설정하면(기본적으로 사용하지 않도록 설정), 음성 텍스트 변환 엔진은 오디오 입력에서 고유한 음성 특성 신호를 분석하고 추출하여 스피커 간에 오디오를 구분합니다. 이러한 음성 특성 신호는 Speaker 1(게스트-1) 또는 Speaker 2(게스트-2)의 텍스트 옆에 표식을 추가하는 전사 결과에 주석을 달기 위한 목적으로만 사용되며, 일시적으로 보관됩니다. 프로세스가 완료되면 스피커를 분리하는 데 사용되는 모든 신호 데이터가 삭제됩니다. 화자 분리 기능은 단일 오디오 파일에서 둘 이상의 스피커 분리를 지원합니다. Speaker Separation는 스피커 ID 인식 등록 또는 여러 오디오 파일에서 고유한 스피커를 추적하는 기능을 지원하지 않습니다.

언어 감지

언어 감지는 모델이 음소와 언어 간의 매핑 확률을 계산한다는 점을 제외하고 음성 인식과 유사합니다. 각 언어에는 언어의 특징을 나타내는 특정 음소와 음소 조합이 있습니다. 언어 감지 모델은 음소의 특성을 식별하여 입력 음성에 사용되는 언어의 가능성을 계산합니다.

음성 번역

음성 번역을 사용하는 경우, 먼저 오디오 입력을 사용하여 음성 텍스트 변환으로 컴퓨터가 텍스트를 생성합니다. 그런 다음 컴퓨터로 전사된 텍스트가 텍스트 번역 서비스로 전송되어 텍스트(원본 언어)를 다른 언어로 변환합니다. 고객이 오디오 형식의 번역된 텍스트가 필요한 경우 이 기능은 번역된 텍스트를 텍스트로 음성으로 보낼 수 있습니다. 고객은 번역된 텍스트만 생성하거나 번역된 음성 출력을 생성할 수 있습니다.

음성 컨테이너

고객은 음성 컨테이너를 사용하여 Docker 컨테이너를 통해 Speech Services API를 자체 환경에 배포합니다. 모든 음성 구성 요소는 고객의 제어된 환경에서 실행되므로 오디오 데이터 입력 및 전사 출력은 고객의 컨테이너 내에서 처리되며 클라우드 기반 Speech Service로 전송되지 않습니다. 자세한 내용은 Speech Service API에 대한 Docker 컨테이너 설치 및 실행을 참조하세요 .

음성 컨테이너의 고객 데이터에 대한 보안

고객 데이터의 보안은 공동의 책임입니다. 음성 컨테이너와 같은 Azure AI 컨테이너의 보안 모델에 대한 세부 정보는 Azure AI Services 컨테이너 보안에서 찾을 수 있습니다.

에지 디바이스 및 네트워크와 같이 온-프레미스에 있는 음성 컨테이너를 운영하는 데 필요한 장비 및 인프라를 보호 및 유지 관리할 책임이 있습니다.

Microsoft의 개인 정보 보호 및 보안 약정에 대해 자세히 알아보려면 Microsoft 보안 센터를 방문하세요.

데이터 스토리지 및 처리

데이터 추적 없음

실시간 음성 텍스트 변환, 빠른 전사, 발음 평가 및 음성 번역을 수행하는 경우 Microsoft는 고객이 제공한 데이터를 유지하거나 저장하지 않습니다. 일괄 처리 기록에서 고객은 오디오 입력을 보낼 고유한 스토리지 위치를 지정합니다. 생성된 전사 텍스트는 고객 고유의 스토리지에 저장되거나 스토리지가 지정되지 않은 경우 Microsoft 스토리지에 저장될 수 있습니다. 출력 전사가 Microsoft Storage에 저장되는 경우 고객은 삭제 API를 호출하거나 timeToLive 매개 변수를 설정하여 지정된 시간에 데이터를 자동으로 삭제하여 데이터를 삭제할 수 있습니다. 자세한 내용은 일괄 대화 내용 기록 사용 방법 - 음성 서비스 - Azure AI 서비스를 참조하세요.