다음을 통해 공유


음성 텍스트 변환 REST API

음성 텍스트 변환 REST API는 빠른 전사, 일괄 처리 전사사용자 지정 음성에 사용됩니다.

중요합니다

Speech to text REST API 버전 2024-11-15은(는) 일반적으로 사용할 수 있는 최신 버전입니다.

  • 음성 텍스트 변환 REST API2024-05-15-preview 버전은 발표 날짜에 사용 중지됩니다.
  • Speech to text REST API v3.0, v3.1, v3.23.2-preview.1, 및 3.2-preview.2 는 2026년 3월 31일에 사용 중지됩니다.

업그레이드에 대한 자세한 내용은 Speech to text REST API v3.0에서 v3.1로, v3.1에서 v3.2로, v3.2에서 2024-11-15로 마이그레이션 가이드를 참조하세요.

Speech-to-text REST API를 사용하여 다음을 수행할 수 있습니다.

  • 빠른 대화기록: 실시간 오디오보다 동기적으로 훨씬 빠르게 결과를 반환하여 오디오 파일을 전사합니다. 빠른 오디오 또는 비디오 대화 내용 기록 또는 비디오 번역과 같은 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음의 대본이 필요한 시나리오에서 빠른 대화기록 API(/speechtotext/transcriptions:transcribe)를 사용합니다.
  • 일괄 처리 전사: 오디오 파일을 여러 URL 또는 Azure 컨테이너의 일괄 처리로 전사합니다. 많은 수의 파일 또는 긴 오디오 파일과 같이 스토리지에서 대량의 오디오를 전사해야 하는 시나리오에서 일괄 처리 전사 API(/speechtotext/transcriptions:submit)를 사용합니다.
  • 사용자 지정 음성: 사용자 고유의 데이터를 업로드하고, 사용자 지정 모델을 테스트 및 학습하고, 모델 간의 정확도를 비교하고, 모델을 사용자 지정 엔드포인트에 배포합니다. 동료가 빌드한 모델에 액세스할 수 있도록 하려거나 모델을 둘 이상의 지역에 배포하려는 경우 모델을 다른 구독에 복사합니다.

음성 텍스트 변환 REST API에는 다음과 같은 기능이 포함되어 있습니다.

  • 각 엔드포인트에 대한 로그를 요청합니다.
  • 만드는 모델의 매니페스트를 요청하여 온-프레미스 컨테이너를 설정합니다.
  • SAS(공유 액세스 서명) URI를 사용하여 Azure 스토리지 계정에서 데이터를 업로드합니다.
  • 사용자 고유의 스토리지 가져오기. 로그, 대화 내용 기록 파일, 기타 데이터에 사용자 고유의 스토리지 계정을 사용합니다.
  • 일부 작업은 webhook 알림을 지원합니다. 알림이 전송되는 webhook를 등록할 수 있습니다.

빠른 대화기록

다음 작업 그룹은 빠른 대화기록에 적용됩니다.

작업 그룹 설명
대화 내용 기록 대화 내용 기록 - 기록 기능을 사용하여 오디오 파일을 전사하세요.

빠른 대화기록을 사용하는 경우 요청당 단일 파일을 보냅니다. 단일 오디오 파일에서 대화 내용 기록을 만드는 예제는 대화 내용 기록 만들기를 참조하세요.

일괄 처리 기록

다음 작업 그룹은 일괄 처리 기록에 적용할 수 있습니다.

작업 그룹 설명
모델 기본 모델 또는 사용자 지정 모델을 사용하여 오디오 파일 대화 내용을 기록합니다.

사용자 지정 음성일괄 처리 기록과 함께 모델을 사용할 수 있습니다. 예를 들어 특정 데이터 세트로 학습시킨 모델을 사용하여 오디오 파일을 전사할 수 있습니다. Custom Speech 모델을 학습시키고 관리하는 방법에 대한 예제는 모델 학습Custom Speech 모델 수명 주기를 참조하세요.
대화 내용 기록 대화 내용 기록 - 제출 기능을 사용하여 저장된 많은 양의 오디오 대화 내용을 기록하세요.

일괄 처리 기록을 사용하는 경우 요청당 여러 파일을 보내거나 기록할 오디오 파일이 있는 Azure Blob Storage 컨테이너를 가리킵니다. 여러 오디오 파일에서 전사를 만드는 방법에 대한 예제는 전사 만들기를 참조하세요.
웹후크 웹 후크를 사용하여 생성, 처리, 완료 및 삭제 이벤트에 대한 알림을 받습니다.

사용자 지정 음성일괄 처리 전사와 함께 웹 후크를 사용할 수 있습니다. 웹 후크는 데이터 세트, 엔드포인트, 평가, 모델대화 내용 기록에 적용됩니다.

Custom Speech

다음 작업 그룹은 사용자 지정 음성에 적용할 수 있습니다.

작업 그룹 설명
데이터 세트 데이터 세트를 사용하여 사용자 지정 음성 모델을 학습하고 테스트합니다.

예를 들어 특정 데이터 세트로 학습된 사용자 지정 음성의 성능을 다른 데이터 세트로 학습된 기본 모델 또는 사용자 지정 음성 모델의 성능과 비교할 수 있습니다. 데이터 세트를 업로드하는 방법의 예는 학습 및 테스트 데이터 세트 업로드를 참조하세요.
엔드포인트 엔드포인트에 사용자 지정 음성 모델을 배포합니다.

Custom Speech 모델을 사용하려면 사용자 지정 엔드포인트를 배포해야 합니다. 배포 엔드포인트를 관리하는 방법에 대한 예제는 모델 배포를 참조하세요.
평가 평가를 사용하여 다양한 모델의 성능을 비교합니다.

예를 들어 특정 데이터 세트로 학습된 사용자 지정 음성 모델의 성능을 다른 데이터 세트로 학습된 기본 모델 또는 사용자 지정 모델의 성능과 비교할 수 있습니다. Custom Speech 모델을 테스트하고 평가하는 방법에 대한 예제는 인식 품질 테스트테스트 정확도를 참조하세요.
모델 기본 모델 또는 사용자 지정 모델을 사용하여 오디오 파일 대화 내용을 기록합니다.

사용자 지정 음성일괄 처리 기록과 함께 모델을 사용할 수 있습니다. 예를 들어 특정 데이터 세트로 학습시킨 모델을 사용하여 오디오 파일을 전사할 수 있습니다. Custom Speech 모델을 학습시키고 관리하는 방법에 대한 예제는 모델 학습Custom Speech 모델 수명 주기를 참조하세요.
웹후크 웹 후크를 사용하여 생성, 처리, 완료 및 삭제 이벤트에 대한 알림을 받습니다.

사용자 지정 음성일괄 처리 전사와 함께 웹 후크를 사용할 수 있습니다. 웹 후크는 데이터 세트, 엔드포인트, 평가, 모델대화 내용 기록에 적용됩니다.