애플리케이션에 대한 사용자 지정 음성을 만들 준비가 되면 첫 번째 단계는 오디오 녹음 및 관련 스크립트를 수집하여 전문적인 음성 미세 조정을 시작하는 것입니다. "사용자 지정 음성"은 전문적인 음성 미세 조정과 개인 음성을 모두 포함하는 우산 용어입니다. Speech Service는 이 데이터를 전문적인 음성 미세 조정에 사용하여 녹음의 음성과 일치하도록 튜닝된 고유한 음성을 만듭니다. 전문적인 음성을 미세 조정한 후 애플리케이션에서 음성 합성을 시작할 수 있습니다.
팁
프로덕션용으로 음성을 만들려면 전문적인 녹음 스튜디오에서 성우가 녹음하도록 하는 것이 좋습니다. 자세한 내용은 전문 음성 미세 조정에 대한 음성 샘플 녹음을 참조하세요.
전문적인 음성 미세 조정을 위한 데이터 형식
전문적인 음성 미세 조정을 위한 데이터 세트에는 오디오 녹음 및 관련 전사가 포함된 텍스트 파일이 포함됩니다. 각 오디오 파일은 단일 발화(단일 문장 또는 대화 체계의 한 순서)를 포함해야 하며 15초 미만이어야 합니다.
경우에 따라 올바른 데이터 세트가 준비되지 않았을 수 있습니다. 대본의 유무에 관계없이 짧거나 긴 사용 가능한 오디오 파일로 전문적인 음성 미세 조정을 테스트할 수 있습니다.
이 표에는 데이터 형식과 각 형식이 전문적인 음성 미세 조정에 사용되는 방법이 나와 있습니다.
| 데이터 형식 | 설명 | 사용 시기 | 추가 처리 필요 | 으로 처리됨 |
|---|---|---|---|---|
| 개별 발화 + 일치하는 대본 | 개별 발화 오디오 파일(.wav)의 컬렉션(.zip)입니다. 각 오디오 파일의 길이는 15초 이하여야 하며 서식 있는 대본(.txt)과 페어링됩니다. | 일치하는 대본이 있는 전문 레코딩 | 미세 조정 준비가 완료되었습니다. | 분할된 |
| 긴 오디오 + 대본 | 분할되지 않은 긴 오디오 파일(.wav 또는 .mp3, 20초 이상, 최대 1000개의 오디오 파일)의 컬렉션(.zip)으로, 모든 음성이 포함된 대화록의 컬렉션(.zip)과 페어링됩니다. | 오디오 파일 및 일치하는 대본이 있지만 발화로 분할되어 있지 않습니다. | 구분(일괄 처리 대본 사용). 필요할 때마다 오디오 형식 변환. |
세분화된, 맥락에 맞는 |
| 오디오 전용(미리 보기) | 대화록이 없는 오디오 파일(.wav 또는 .mp3, 최대 1000개의 오디오 파일)의 컬렉션(.zip)입니다. | 오디오 파일만 사용할 수 있으며 대본이 없습니다. | 분할 + 대본 생성(일괄 처리 대본 사용) 필요할 때마다 오디오 형식 변환. |
세분화된, 맥락에 맞는 |
파일은 형식에 따라 데이터 세트로 그룹화되고 zip 파일로 업로드되어야 합니다. 각 데이터 세트는 단일 데이터 형식만 포함할 수 있습니다.
참고 항목
구독당 가져올 수 있는 최대 데이터 세트 수는 표준 구독(S0) 사용자의 경우 500개 Zip 파일입니다.
Contextual로 처리하면 오디오 전체가 유지되어 컨텍스트 정보를 보다 자연스러운 인톤으로 유지할 수 있습니다.
개별 발화 + 일치하는 대본
개별 발화 레코딩 및 일치하는 대본을 두 가지 방법으로 준비할 수 있습니다. 스크립트를 작성한 후 성우가 읽도록 하거나, 공개적으로 사용 가능한 오디오를 사용하고 텍스트로 기록합니다. 후자의 경우 오디오 파일에서 "음" 및 기타 추임새, 더듬거림, 중얼거리는 말이나 틀린 발음 등을 편집합니다.
음성 모델의 품질을 높이려면 고사양의 마이크를 사용하여 조용한 방에서 녹음합니다. 일관된 볼륨, 말하기 속도, 높낮이 및 표현적 기법은 필수적입니다.
데이터 형식 예제는 GitHub의 샘플 데이터 세트를 참조하세요. 샘플 데이터 세트에는 샘플 스크립트 및 연결된 오디오가 포함됩니다.
개별 발화에 대한 오디오 데이터 + 일치하는 대본
각 오디오 파일은 단일 발화(단일 문장 또는 대화 체계의 한 순서)를 포함해야 하며 15초 미만이어야 합니다. 모든 파일은 동일한 음성 언어로 되어 있어야 합니다. 다국어 사용자 지정 텍스트 음성 변환 음성은 중국어-영어 이중 언어를 제외하고는 지원되지 않습니다. 각 오디오 파일에는 파일 이름 확장명이 .wav인 고유한 파일 이름이 있어야 합니다.
오디오를 준비할 때는 다음 지침을 따르세요.
| 속성 | 값 |
|---|---|
| 파일 형식 | .zip 파일로 그룹화된 RIFF(.wav) |
| 파일 이름 | Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다.\ / : * ? " < > \| 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다. |
| 샘플링 레이트 | 전문적인 음성을 미세 조정하는 경우 24KHz 이상이 필요합니다. |
| 샘플 형식 | PCM, 최소 16비트 |
| 오디오 길이 | 15초 미만 |
| 보관 형식 | .zip |
| 최대 보관 크기 | 2048MB |
참고 항목
전문 음성 미세 조정의 기본 샘플링 속도는 24KHz입니다. 샘플링 속도가 16,000Hz보다 낮은 오디오 파일은 거부됩니다. .zip 파일에 샘플링 속도가 서로 다른 .wav 파일이 포함되어 있는 경우, 속도가 16,000Hz 이상인 파일만 가져옵니다. 샘플링 속도가 16,000Hz보다 높고 24KHz보다 낮은 오디오 파일은 미세 조정을 위해 최대 24KHz로 샘플링됩니다. 미세 조정 데이터에는 24KHz 이상의 샘플 속도를 사용하는 것이 좋습니다.
개별 발화에 대한 대화 내용 기록 데이터 + 일치하는 대본
대본 파일은 일반 텍스트 파일입니다. 다음과 같은 지침에 따라 대본을 준비하세요.
| 속성 | 값 |
|---|---|
| 파일 형식 | 일반 텍스트(.txt) |
| 인코딩 형식 | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE 또는 UTF-16-BE zh-CN의 경우 ANSI 및 ASCII 인코딩은 지원되지 않습니다. |
| 줄당 발언의 # | 1개 - 대본 파일의 각 줄마다 오디오 파일 중 하나의 이름과 해당 대본이 차례로 포함되어야 합니다. 탭(\t)을 사용하여 파일 이름과 대화 내용 기록을 구분해야 합니다. |
| 최대 파일 크기 | 2048MB |
다음은 .txt 파일 하나에 대본이 발화별로 구성되는 방법에 대한 예제입니다.
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
대본은 해당 오디오의 100% 정확한 대화 내용 기록이어야 합니다. 대본의 오류는 미세 조정 프로세스 중에 품질 손실을 발생합니다.
긴 오디오 + 대본(미리 보기)
참고 항목
긴 오디오 + 대본(미리 보기)의 경우 중국어(북경어, 간체), 중국어(광둥어, 번체), 중국어(대만어 만다린), 영어(인도), 영어(영국), 영어(미국), 프랑스어(프랑스), 독일어(독일), 힌디어(인도), 이탈리아어(이탈리아), 일본어(일본), 포르투갈어(브라질), 스페인어(스페인) 및 스페인어(멕시코)만 지원됩니다.
상황별 처리는 현재 중국어(중국어, 간체) 및 영어(미국)에서만 사용할 수 있습니다.
분할된 오디오를 사용할 수 없는 경우도 있습니다. Speech Studio는 긴 오디오 파일을 분할하고 대화 내용 기록을 만드는 데 도움이 될 수 있습니다. 긴 오디오 분할 서비스는 음성 텍스트 변환의 일괄 처리 대화 내용 기록 API 기능을 사용합니다.
이 서비스는 다음 두 가지 처리 모드를 제공합니다.
- 분할됨: 지원되는 모든 언어에서 작동하는 기본 처리 모드
- 상황별: 보다 자연스러운 억양을 위해 오디오의 전체 맥락을 유지하는 향상된 모드입니다.
분할 처리 중에는 인식 모델을 구체화하여 데이터의 정확도를 높일 수 있도록 오디오 파일 및 대본이 사용자 지정 음성 서비스에도 전송됩니다. 이 프로세스 중에는 데이터가 보관되지 않습니다. 분할이 완료되면 분할된 발화와 해당 매핑 기록만 다운로드 및 미세 조정을 위해 저장됩니다.
긴 오디오의 오디오 데이터 + 대본
오디오 분할을 준비할 때는 다음 지침을 따르세요.
| 속성 | 값 |
|---|---|
| 파일 형식 | .zip 파일로 그룹화된 RIFF(.wav) 또는 .mp3 |
| 파일 이름 | Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다. \ / : * ? " < > \| 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다. |
| 샘플링 레이트 | 전문적인 음성을 미세 조정하는 경우 24KHz 이상이 필요합니다. |
| 샘플 형식 | RIFF(.wav): PCM, 16비트 이상 mp3: 비트 전송률 256KBps 이상 |
| 오디오 길이 | 30초 이상 |
| 보관 형식 | .zip |
| 최대 보관 크기 | 2048MB, 최대 1,000개의 오디오 파일 포함 |
참고 항목
전문 음성 미세 조정의 기본 샘플링 속도는 24KHz입니다. 샘플링 속도가 16,000Hz보다 낮은 오디오 파일은 거부됩니다. 샘플링 속도가 16,000Hz보다 높고 24KHz보다 낮은 오디오 파일은 미세 조정을 위해 최대 24KHz로 샘플링됩니다. 미세 조정 데이터에는 24KHz 이상의 샘플 속도를 사용하는 것이 좋습니다.
분할된 발화는 5초에서 15초 사이여야 합니다. 최적의 세분화 결과를 위해 5~15초마다 0.5~1초의 자연스러운 일시 중지를 포함하는 것이 좋습니다. 구 또는 문장의 끝에 있는 것이 좋습니다.
모든 오디오 파일은 zip 파일로 그룹화되어야 합니다. .wav 파일과. mp3 파일을 동일한 Zip 파일에 배치해도 괜찮습니다. 예를 들어 'kingstory.wav'라는 45초 오디오 파일과 'queenstory.mp3'라는 200초 길이의 오디오 파일을 동일한 Zip 파일에 업로드할 수 있습니다. 모든 .mp3 파일은 처리 후 .wav 형식으로 변환됩니다.
긴 오디오의 대화 내용 기록 데이터 + 대본
이 표에 나열된 사양에 맞게 대본을 준비해야 합니다. 각 오디오 파일은 대본과 일치해야 합니다.
| 속성 | 값 |
|---|---|
| 파일 형식 | .zip으로 그룹화된 일반 텍스트(.txt) |
| 파일 이름 | 일치하는 오디오 파일과 동일한 이름 사용 |
| 인코딩 형식 | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE 또는 UTF-16-BE zh-CN의 경우 ANSI 및 ASCII 인코딩은 지원되지 않습니다. |
| 줄당 발언의 # | 제한 없음 |
| 최대 파일 크기 | 2048MB |
이 데이터 형식의 모든 대본 파일은 zip 파일로 그룹화되어야 합니다. 예를 들어 'kingstory.wav'라는 45초 오디오 파일과 'queenstory.mp3'라는 200초 길이의 오디오 파일을 동일한 Zip 파일에 업로드할 수 있습니다. 'kingstory.txt'라는 내용과 'queenstory.txt'라는 두 개의 대본이 포함된 다른 Zip 파일을 업로드해야 합니다. 각 일반 텍스트 파일 내에서 일치하는 오디오에 대한 올바른 대화 내용 기록 전체를 제공합니다.
데이터 세트가 성공적으로 업로드되면 제공된 대본을 기반으로 오디오 파일을 발화로 분할하도록 도와드리겠습니다. 데이터 세트를 다운로드하여 분할된 발화와 일치하는 대본을 확인할 수 있습니다. 분할된 발화에는 고유 ID가 자동으로 할당됩니다. 제공하는 대본이 100% 정확한지 확인하는 것이 중요합니다. 대본의 오류는 오디오 구분 시 정확도를 떨어뜨리고 이후의 미세 조정 단계에서 품질 손실을 초래할 수 있습니다.
오디오 전용(미리 보기)
참고 항목
오디오 전용(미리 보기)의 경우 중국어(북경어, 간체), 중국어(광둥어, 번체), 중국어(대만어 만다린), 영어(인도), 영어(영국), 영어(미국), 프랑스어(프랑스), 독일어(독일), 힌디어(인도), 이탈리아어(이탈리아), 일본어(일본), 포르투갈어(브라질), 스페인어(스페인) 및 스페인어(멕시코)만 지원됩니다.
상황별 처리는 현재 중국어(중국어, 간체) 및 영어(미국)에서만 사용할 수 있습니다.
오디오 녹음에 대한 대본이 없을 경우 오디오만 옵션을 사용하여 데이터를 업로드합니다. Microsoft 시스템에서 오디오 파일을 분할하고 기록하도록 도와줄 수 있습니다.
이 서비스는 다음 두 가지 처리 모드를 제공합니다.
- 분할됨: 지원되는 모든 언어에서 작동하는 기본 처리 모드
- 상황별: 보다 자연스러운 억양을 위해 오디오의 전체 맥락을 유지하는 향상된 모드입니다.
오디오를 준비할 때는 다음 지침을 따르세요.
| 속성 | 값 |
|---|---|
| 파일 형식 | .zip 파일로 그룹화된 RIFF(.wav) 또는 .mp3 |
| 파일 이름 | Windows OS에서 지원하는 파일 이름 문자이며 확장명은 .wav입니다. \ / : * ? " < > \| 문자는 허용되지 않습니다. 공백으로 시작하거나 끝날 수 없으며, 점으로 시작할 수 없습니다. 중복 파일 이름은 허용되지 않습니다. |
| 샘플링 레이트 | 전문적인 음성을 미세 조정하는 경우 24KHz 이상이 필요합니다. |
| 샘플 형식 | RIFF(.wav): PCM, 최소 16비트 mp3: 비트 전송률 256KBps 이상 |
| 오디오 길이 | 제한 없음 |
| 보관 형식 | .zip |
| 최대 보관 크기 | 2048MB, 최대 1,000개의 오디오 파일 포함 |
참고 항목
전문 음성 미세 조정의 기본 샘플링 속도는 24KHz입니다. 샘플링 속도가 16,000Hz보다 높고 24KHz보다 낮은 오디오 파일은 미세 조정을 위해 최대 24KHz로 샘플링됩니다. 미세 조정 데이터에는 24KHz 이상의 샘플 속도를 사용하는 것이 좋습니다.
분할된 발화는 5초에서 15초 사이여야 합니다. 최적의 세분화 결과를 위해 5~15초마다 0.5~1초의 자연스러운 일시 중지를 포함하는 것이 좋습니다. 구 또는 문장의 끝에 있는 것이 좋습니다.
모든 오디오 파일은 zip 파일로 그룹화되어야 합니다. 데이터 세트가 성공적으로 업로드되면 음성 서비스에서 음성 일괄 처리 대화 내용 기록 서비스를 기반으로 오디오 파일을 발화로 분할하도록 도와줍니다. 언어 및 요구 사항에 따라 표준 또는 상황별 처리 모드를 선택할 수 있습니다. 분할된 발화에는 고유 ID가 자동으로 할당됩니다. 음성 인식을 통해 일치하는 대본이 생성됩니다. 모든 .mp3 파일은 처리 후 .wav 형식으로 변환됩니다. 데이터 세트를 다운로드하여 분할된 발화와 일치하는 대본을 확인할 수 있습니다.