Von Bedeutung
英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US
バージョンを参照してください。
この記事では、提供されたデータを Azure AI Speech テキスト読み上げで処理、使用、格納する方法について詳しく説明します。 重要なリマインダーとして、お客様は、このテクノロジの使用と実装に責任を負い、音声やアバターの才能 (該当する場合は、音声、画像、同一性、その他のデータを処理して合成音声やアバターを開発するための個人の音声統合のユーザー) から、必要なすべてのアクセス許可を取得する必要があります。
また、テキスト読み上げサービスに入力したコンテンツがオーディオ、画像、ビデオ出力を生成するために必要なライセンス、アクセス許可、またはその他の権利を取得する責任もあります。 一部の管轄区域では、生体認証データなどの特定のカテゴリのデータの収集、処理、保存に関する特別な法的要件を課し、合成音声、画像、ビデオの使用をユーザーに開示することを義務付ける場合があります。 テキスト読み上げを使用してあらゆる種類のデータを処理および格納し、必要に応じてカスタム ニューラル音声、個人用音声、またはカスタムアバター モデルを作成する前に、適用されるすべての法的要件に準拠していることを確認する必要があります。
テキスト読み上げサービスで処理されるデータ
事前構築済みのニューラル音声と事前構築済みのアバターは、次の種類のデータを処理します。
- 音声合成用のテキスト入力。 これは、事前構築済みのニューラル音声のセットを使用してオーディオ出力を生成したり、事前構築済みのニューラル音声またはカスタム ニューラル音声から生成されたオーディオを発声する事前構築済みのアバターを生成したりするために、選択してテキストを音声サービスに送信するテキストです。
録音された声優確認ステートメントファイル。 お客様は、音声タレントが自分の声を使用して合成音声を作成することを認めたことを示す、特定の録音ステートメントをアップロードする必要があります。
注
録音スクリプトを準備するときは、ボイス タレントが録音するために必要な受信確認ステートメントを含めるようにしてください。 このステートメントは、複数の言語で 見つけることができます。 受信確認ステートメントの言語は、オーディオ録音トレーニング データの言語と同じである必要があります。
トレーニング データ (オーディオ ファイルと関連するテキスト トランスクリプトを含む)。 これには、モデル トレーニングに音声を使用することに同意した音声タレントからの音声録音と、関連するテキスト トランスクリプトが含まれます。 カスタム ニューラル音声プロ プロジェクトでは、オーディオの独自のテキスト文字起こしを提供したり、Speech Studio 内で利用できる自動音声認識文字起こし機能を使用してオーディオのテキスト文字起こしを生成したりできます。 音声録音とテキスト文字起こしファイルの両方が、音声モデルのトレーニング データとして使用されます。 カスタム ニューラル音声ライト プロジェクトでは、Speech Studio で Microsoft が定義したスクリプトを話す音声を録音するように求められます。 個人の音声機能にはテキスト トランスクリプトは必要ありません。
テスト スクリプトとしてのテキスト。 音声合成オーディオ サンプルを生成することで、独自のテキスト ベースのスクリプトをアップロードして、カスタム ニューラル音声モデルの品質を評価およびテストできます。 これは、個人用の音声機能には適用されません。
音声合成用のテキスト入力。 これは、カスタム ニューラル音声を使用してオーディオ出力を生成するために、選択してテキストを音声サービスに送信するテキストです。
テキスト読み上げサービスでデータを処理する方法
あらかじめ構築されたニューラル音声
次の図は、事前構築済みのニューラル音声を使用した合成のためにデータがどのように処理されるかを示しています。 入力はテキストで、出力はオーディオです。 入力テキストと出力オーディオ コンテンツはどちらも Microsoft ログに保存されることに注意してください。
カスタム ニューラル音声
次の図は、カスタム ニューラル音声に対してデータがどのように処理されるかを示しています。 この図では、3 種類の処理について説明します。カスタム ニューラル音声モデル トレーニングの前に、Microsoft が録音された音声タレントの受信確認ステートメント ファイルを検証する方法、Microsoft がトレーニング データを使用してカスタム ニューラル音声モデルを作成する方法、およびテキスト読み上げでテキスト入力を処理してオーディオ コンテンツを生成する方法です。
テキスト読み上げ機能付きアバター
次の図は、事前構築済みのテキスト読み上げアバターを使用した合成のためにデータがどのように処理されるかを示しています。 アバター コンテンツ生成ワークフローには、テキスト アナライザー、TTS オーディオ シンセサイザー、TTS アバター ビデオ シンセサイザーの 3 つのコンポーネントがあります。 アバター ビデオを生成するために、テキストは最初にテキスト アナライザーに入力され、音素シーケンスの形式で出力が提供されます。 次に、TTS オーディオ シンセサイザーは、入力テキストの音響機能を予測し、音声を合成します。 これら 2 つの部分は、テキスト読み上げ音声モデルによって提供されます。 次に、ニューラルテキスト読み上げアバターモデルは、音響特徴を用いてリップシンクの画像を予測し、合成ビデオを生成します。
ビデオ翻訳 (プレビュー)
次の図は、ビデオ翻訳でデータがどのように処理されるかを示しています。 顧客はビデオ翻訳の入力としてビデオをアップロードし、ダイアログオーディオが抽出され、音声からテキストへの音声がテキストコンテンツに文字起こしされます。 その後、テキスト コンテンツがターゲット言語コンテンツに翻訳され、テキスト読み上げ機能を使用して、翻訳されたオーディオがビデオ出力として元のビデオ コンテンツとマージされます。
記録された受信確認ステートメントの検証
Microsoft では、お客様が音声を使用して合成音声を作成することを確認する音声タレントの録音されたステートメントを含むオーディオ ファイルを Speech Studio にアップロードする必要があります。 Microsoft は、 Microsoft の音声テキスト変換および音声認識 テクノロジを使用して、この記録された受信確認ステートメントをテキストに文字起こしし、記録の内容が Microsoft が提供する事前に定義されたスクリプトと一致することを確認する場合があります。 この受信確認ステートメントと、音声で提供したタレント情報は、音声タレント プロファイルの作成に使用されます。 カスタム ニューラル音声トレーニングを開始するときは、トレーニング データを関連する音声タレント プロファイルに関連付ける必要があります。
また、Microsoft は、音声タレントの記録された受信確認ステートメント ファイルとトレーニング データセットのランダム化された音声からの生体認証音声署名を処理して、Azure AI Speaker Verification を使用して、受信確認ステートメントの記録の音声署名とトレーニング データの記録が妥当な自信を持って一致することを確認する場合があります。 音声署名は、"音声テンプレート" または "ボイスプリント" とも呼ばれ、話している人の音声録音から抽出される個人の音声特性を表す数値ベクトルです。 この技術的セーフガードは、カスタム ニューラル音声の誤用を防ぐことを目的としています。たとえば、ユーザーが音声録音で音声モデルをトレーニングするのを防ぎ、モデルを使用して、ユーザーの知識や同意なしに人の声を偽装することを防ぎます。
音声署名は、話者の検証の目的、またはサービスの悪用を調査するために必要な目的でのみ、Microsoft によって使用されます。
Microsoft Products and Services Data Protection 補遺 ("DPA") は、Azure に関連する顧客データと個人データの処理とセキュリティに関するお客様と Microsoft の義務を定め、Azure サービスに関するお客様のエンタープライズ契約に参照によって組み込まれています。 このセクションの Microsoft のデータ処理は、データ保護補遺の正当な利益ビジネス運用セクションに適用されます。
カスタム ニューラル音声モデルのトレーニング
Speech Studio に送信されるトレーニング データ (音声オーディオ) は、データ形式のチェック、発音スコアリング、ノイズ検出、スクリプト マッピングなど、品質チェック用の自動化されたツールを使用して前処理されます。その後、トレーニング データがカスタム音声プラットフォームのモデル トレーニング コンポーネントにインポートされます。 トレーニング プロセス中に、トレーニング データ (音声オーディオとテキストの文字起こしの両方) は、音声音響とテキストの詳細なマッピング (音素のシーケンスなど) に分解されます。 さらに複雑なマシンリーン モデリングを通じて、サービスは音声モデルを構築します。このモデルを使用して、音声タレントに似た音声を生成し、トレーニング データの記録とは異なる言語で生成することもできます。 音声モデルは、特定のスピーカーの固有の声の特性を模倣できるテキスト読み上げコンピューター モデルです。 これは、人間が判読できず、オーディオ録音を含まないバイナリ形式のパラメーターのセットを表します。
顧客のトレーニング データは、その顧客のカスタム音声モデルの開発にのみ使用され、Microsoft が Microsoft のテキスト読み上げ音声モデルをトレーニングまたは改善するために使用されることはありません。
音声合成/オーディオ コンテンツ生成
音声モデルを作成したら、それを使用して、2 つの異なるオプションを使用してテキスト読み上げサービスを通じてオーディオ コンテンツを作成できます。
リアルタイム音声合成では、入力テキストを TTS SDK または RESTful API 経由で音声合成サービスに送信します。 テキスト読み上げでは、入力テキストが処理され、要求を行ったアプリケーションに出力オーディオ コンテンツ ファイルがリアルタイムで返されます。
長いオーディオの非同期合成 (バッチ合成) の場合は、 Long Audio API を使用して入力テキスト ファイルを音声バッチ サービスに送信し、10 分を超えるオーディオ (オーディオ ブックや講義など) を非同期的に作成します。 テキスト読み上げ API を使用して実行される合成とは異なり、長いオーディオ API では応答がリアルタイムで返されません。 オーディオは非同期的に作成され、合成されたオーディオ ファイルにアクセスして、バッチ合成サービスから使用可能になったときにダウンロードできます。
カスタム音声モデルを使用して、コードなしの オーディオ コンテンツ作成ツールを使用してオーディオ コンテンツを生成し、Azure Storage のツールでテキスト入力または出力オーディオ コンテンツを保存することもできます。
カスタム ニューラル音声ライトのデータ処理 (プレビュー)
カスタム ニューラル音声ライトは、パブリック プレビューのプロジェクトの種類であり、Speech Studio で 20 から 50 個の音声サンプルを記録し、デモンストレーションと評価のために軽量のカスタム ニューラル音声モデルを作成できます。 記録スクリプトとテスト スクリプトの両方が、Microsoft によって事前に定義されています。 カスタム ニューラル音声ライトを使用して作成した合成音声モデルは、カスタム ニューラル音声へのフル アクセスを申請して受け取る場合にのみ、より広くデプロイおよび使用できます (該当する用語に従います)。
Speech Studio 経由で送信した合成音声と関連するオーディオ録音は、カスタム ニューラル音声へのフル アクセスを取得し、合成音声の展開を選択しない限り、90 日以内に自動的に削除されます。その場合、その保持期間を制御します。 音声タレントが合成音声と関連するオーディオ録音を 90 日前に削除したい場合は、ポータルで直接削除するか、企業に連絡して削除できます。
さらに、カスタム ニューラル音声ライト プロジェクトを使用して作成された合成音声モデルをデプロイする前に、音声タレントは、合成音声がデモンストレーションや評価以外の追加目的で使用されることを確認する追加の録音を提供する必要があります。
個人用音声 API のデータ処理 (プレビュー)
個人用音声を使用すると、短い人間の音声サンプルを使用して合成音声を作成できます。 上記の音声受信確認ステートメント ファイルは、アプリケーションで統合を使用する各ユーザーから必要です。 Microsoft は、各ユーザーの記録された音声ステートメント ファイルとその記録されたトレーニング サンプル (プロンプト) からの生体認証音声署名を処理して、受信確認ステートメントの記録の音声署名とトレーニング データの記録が、Azure AI Speaker Verification を使用して合理的な自信を持って一致することを確認できます。
トレーニング サンプルは、音声モデルの作成に使用されます。 その後、音声モデルを使用して、API 経由でサービスに提供されるテキスト入力を含む音声を生成できます。追加のデプロイは必要ありません。
データの保存と保持
すべての音声合成サービス
音声合成のテキスト入力: Microsoft は、リアルタイム合成テキストを音声 API に提供するテキストを保持または保存しません。 テキスト読み上げ用の Long Audio API またはテキスト読み上げアバター用のテキスト間アバター バッチ API を介して提供されるスクリプトは、バッチ合成要求を処理するために Azure Storage に格納されます。 入力テキストは、delete API を使用していつでも 削除 できます。
オーディオとビデオのコンテンツを出力します。 Microsoft は、リアルタイム合成 API で生成されたオーディオまたはビデオ コンテンツを格納しません。 テキスト読み上げアバター バッチ API にビデオ翻訳または Long Audio API を使用している場合、出力オーディオまたはビデオ コンテンツは Azure Storage に格納されます。 これらのオーディオまたはビデオは、削除操作を使用していつでも 削除 できます。
記録された受信確認ステートメントと話者確認データ: 音声署名は、話者の検証の目的、またはサービスの悪用を調査するために必要な場合にのみ、Microsoft によって使用されます。 音声署名は、話者の検証を実行するために必要な時間だけ保持されます。これは、随時発生する可能性があります。 Microsoft では、Speech Studio でカスタム ニューラル音声モデルをトレーニングまたは再トレーニングする前に、または必要に応じて、この検証を必要とする場合があります。 Microsoft は、Azure AI Speech のセキュリティと整合性を維持するために必要な限り、記録された受信確認ステートメント ファイルと音声タレント プロファイル データを保持します。
カスタム ニューラル音声モデル: カスタム ニューラル音声モデルに対する排他的な使用権限を維持している間、Microsoft は必要な期間、カスタム ニューラル音声モデルのコピーを個別に保持する場合があります。 Microsoft は、Microsoft Azure AI サービスのセキュリティと整合性を保護する目的でのみ、カスタム ニューラル音声モデルを使用する場合があります。
Microsoft は、各音声タレントの記録された受信確認ステートメントとカスタム ニューラル音声モデルのコピーを、他の Azure サービスに使用するのと同じ高レベルのセキュリティで保護して格納します。 詳細については、 Microsoft セキュリティ センターを参照してください。
トレーニング データ: 音声タレントの音声トレーニング データを送信して音声モデルを生成します。 音声モデルは、既定で Azure Storage に保持および格納されます (詳細については、 REST でのデータの Azure Storage 暗号化 を参照してください)。 Speech Studio を使用して、音声モデルの構築に使用するトレーニング データにアクセスして削除できます。
BYOS (Bring Your Own Storage) を使用して、トレーニング データのストレージを管理できます。 このストレージ方法では、トレーニング データは音声モデルトレーニングの目的でのみアクセスでき、それ以外の場合は BYOS 経由で格納されます。
注
個人用音声は BYOS をサポートしていません。 データは、Microsoft が管理する Azure Storage に格納されます。 API を使用して音声モデルを構築するために使用されるトレーニング データ (プロンプト オーディオ) にアクセスして削除できます。 Microsoft は、必要な限り、個人の音声モデルのコピーを個別に保持することができます。 Microsoft は、Microsoft Azure AI サービスのセキュリティと整合性を保護する目的でのみ、お客様の個人用音声モデルを使用する場合があります。