次の方法で共有


オーディオ コンテンツ作成ツールを使用したテキスト読み上げ

Azure AI Foundry ポータルまたは Speech Studio のオーディオ コンテンツ作成ツールを使用して、コードを記述せずにテキスト読み上げを行うことができます。

ヒント

この記事の上部にある Foundry ポータル または Speech Studio を選択します。

オーディオブック、ニュース放送、ビデオ ナレーション、チャットボットなどのさまざまなシナリオ向けの非常に自然なオーディオ コンテンツをビルドします。 オーディオ コンテンツの作成を使用すると、テキストを音声音声に合わせて効率的に微調整し、カスタマイズされたオーディオ エクスペリエンスを設計できます。

このツールは、音声合成マークアップ言語 (SSML) に基づいています。 これにより、音声の特徴、音声スタイル、話す速度、発音、韻律などのテキスト読み上げ出力属性をリアルタイムまたはバッチ合成で調整できます。

  • コードなしアプローチ: コードを記述することなく、テキスト読み上げ合成にオーディオ コンテンツ作成ツールを使用できます。 出力オーディオは、必要な最終的な成果物になる場合があります。 たとえば、ポッドキャストやビデオ ナレーションに出力オーディオを使用できます。
  • 開発者にやさしい: 出力オーディオを聴き、SSML を調整して音声合成を向上させることができます。 その後、 Speech SDK または Speech CLI を使用して、SSML をアプリケーションに統合できます。

幅広い言語と音声のポートフォリオに簡単にアクセスできます。 これらの音声には、最新の標準音声とカスタム音声 (作成した場合) が含まれます。

オーディオコンテンツ作成ツールは自由にアクセスできます。は、Speech Service の使用量に対してのみ支払います。

Prerequisites

オーディオ コンテンツ作成ツールを使用する

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

テキストから音声への出力を微調整するための一連の手順の図。

ツールにアクセスする

Azure AI Foundry のオーディオ コンテンツ作成ツールにアクセスするには、次の手順に従います。

  1. Azure AI Foundry でプロジェクトに移動します。

  2. 左側のウィンドウから [プレイグラウンド ] を選択します。

  3. [ Speech playground ] タイルで、[ Try the Speech playground]\(音声プレイグラウンドを試す\) を選択します。

  4. テキスト 読み上げ>Audio コンテンツの作成を選択します。 タイルを見つけるには、スクロールが必要になる場合があります。

    シナリオ別の Speech Service 機能のフィルター処理のスクリーンショット。

ワークフローの概要

ツールにアクセスしたら、次の一般的なワークフローに従います。

  1. プレーン テキストまたは SSML スクリプトを使用して、音声チューニング ファイルを作成します。 コンテンツを入力するか、オーディオ コンテンツの作成にアップロードします。

  2. スクリプトの内容の音声と言語を選択します。 オーディオ コンテンツの作成には、 すべての標準テキスト読み上げ音声が含まれます。 標準音声またはカスタム音声を使用できます。

    Note

    カスタム音声アクセスは、適格性と使用条件に基づいて 制限 されます。 取り込みフォームでアクセス権を要求します。

  3. プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) を選択して、既定の合成出力をプレビューします。

    テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

    発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。 オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。

  4. チューニングした音声を保存してエクスポートします

    チューニング トラックをシステムに保存すると、作業を続行して出力を反復処理することができます。 出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。 エクスポート タスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニング ファイルを作成する

次の 2 つの方法のいずれかで、オーディオ コンテンツ作成ツールにコンテンツを取り込むことができます。

オプション 1: 新しいオーディオ チューニング ファイルを作成する

  1. [新規]>[テキスト ファイル] をクリックして新しい音声チューニング ファイルを作成します。

  2. 編集ウィンドウに内容を入力するか貼り付けます。 各ファイルで使用できる文字数は 20,000 以下です。 スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。

  3. 保存 を選択します。

オプション 2: オーディオ チューニング ファイルをアップロードする

  1. [アップロード]>[テキスト ファイル] を選択して、1 つ以上のテキスト ファイルをインポートします。 プレーンテキストと SSML の両方がサポートされています。

    スクリプト ファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

  2. テキスト ファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

    Property Description
    ファイル形式 プレーンテキスト (.txt) または SSML テキスト (.txt)

    ZIP ファイルはサポートされていません。
    エンコード形式 UTF-8
    ファイル名 各ファイルには一意の名前が必要です。 重複するファイルはサポートされていません。
    テキストの長さ 文字数の制限は 20,000 字です。 ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
    SSML の制限 各 SSML ファイルに含めることができる SSML は 1 つだけです。

    プレーンテキストの例を以下に示します。

    Welcome to use audio content creation to customize audio output for your products.
    

    SSML の例を次に示します。

    <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
       <voice name="en-US-AvaMultilingualNeural">
       Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
       </voice>
    </speak>
    

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

  1. [エクスポート] をクリックして音声作成タスクを作成します。

    クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオ ライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。 ローカルのディスクにオーディオを直接ダウンロードすることもできます。

  2. チューニングした音声の出力形式を選択します。 次の表に、サポートされているオーディオ形式とサンプル レートを示します。

    Format 8 kHz サンプル レート 16 kHz サンプル レート 24 kHz サンプル レート 48 kHz サンプル レート
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. タスクの状態を表示するには、[タスク一覧] タブを選択します。

    タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。

  4. タスクが完了すると、[オーディオ ライブラリ] ペインでオーディオをダウンロードできるようになります。

  5. ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

Prerequisites

Note

AI Foundry リソースの種類は、Speech Studio ではサポートされていません。

オーディオ コンテンツ作成ツールを使用する

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

テキストから音声への出力を微調整するための一連の手順の図。

オーディオ コンテンツ作成ツールを使用するには、次の操作を行います。

  1. Speech Studio にサインインし、[オーディオ コンテンツの作成] を選択します。

  2. 操作しようとしている Azure サブスクリプションと音声リソースを選択し、[リソースの使用] を選択します。

    Note

    オーディオ コンテンツの作成に戻る場合は、操作する別の Speech リソースを選択できます。 ページの右上隅にあるアカウント設定に移動します。

  3. プレーン テキストまたは SSML スクリプトを使用して、音声チューニング ファイルを作成します。 コンテンツを入力するか、オーディオ コンテンツの作成にアップロードします。

  4. スクリプトの内容の音声と言語を選択します。 オーディオ コンテンツの作成には、 すべての標準テキスト読み上げ音声が含まれます。 標準音声またはカスタム音声を使用できます。

    Note

    カスタム音声アクセスは、適格性と使用条件に基づいて 制限 されます。 取り込みフォームでアクセス権を要求します。

  5. プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) を選択して、既定の合成出力をプレビューします。

    テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

    発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。 オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。

    音声出力の調整方法の詳細については、YouTube でテキスト読み上げ変換方法の動画を参照してください。 ただし、この動画は一部の地域では利用できない場合があり、視聴時には最新ではない可能性もあります。

  6. チューニングした音声を保存してエクスポートします

    チューニング トラックをシステムに保存すると、作業を続行して出力を反復処理することができます。 出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。 エクスポート タスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニング ファイルを作成する

次の 2 つの方法のいずれかで、オーディオ コンテンツ作成ツールにコンテンツを取り込むことができます。

オプション 1: 新しいオーディオ チューニング ファイルを作成する

  1. [新規]>[テキスト ファイル] をクリックして新しい音声チューニング ファイルを作成します。

  2. 編集ウィンドウに内容を入力するか貼り付けます。 各ファイルで使用できる文字数は 20,000 以下です。 スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。

  3. 保存 を選択します。

オプション 2: オーディオ チューニング ファイルをアップロードする

  1. [アップロード]>[テキスト ファイル] を選択して、1 つ以上のテキスト ファイルをインポートします。 プレーンテキストと SSML の両方がサポートされています。

    スクリプト ファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

  2. テキスト ファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

    Property Description
    ファイル形式 プレーンテキスト (.txt) または SSML テキスト (.txt)

    ZIP ファイルはサポートされていません。
    エンコード形式 UTF-8
    ファイル名 各ファイルには一意の名前が必要です。 重複するファイルはサポートされていません。
    テキストの長さ 文字数の制限は 20,000 字です。 ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
    SSML の制限 各 SSML ファイルに含めることができる SSML は 1 つだけです。

    プレーンテキストの例を以下に示します。

    Welcome to use audio content creation to customize audio output for your products.
    

    SSML の例を次に示します。

    <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
       <voice name="en-US-AvaMultilingualNeural">
       Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
       </voice>
    </speak>
    

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

  1. [エクスポート] をクリックして音声作成タスクを作成します。

    クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオ ライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。 ローカルのディスクにオーディオを直接ダウンロードすることもできます。

  2. チューニングした音声の出力形式を選択します。 次の表に、サポートされているオーディオ形式とサンプル レートを示します。

    Format 8 kHz サンプル レート 16 kHz サンプル レート 24 kHz サンプル レート 48 kHz サンプル レート
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. タスクの状態を表示するには、[タスク一覧] タブを選択します。

    タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。

  4. タスクが完了すると、[オーディオ ライブラリ] ペインでオーディオをダウンロードできるようになります。

  5. ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

BYOS と、BLOB の匿名パブリック読み取りアクセスを構成する

Bring Your Own Storage (BYOS) へのアクセス許可が失われると、ファイルの表示、作成、編集、または削除を実行できなくなります。 アクセスを再開するには、Azure portal で現在のストレージを削除し、BYOS を再構成する必要があります。 BYOS を構成する方法の詳細については、「App Service でローカル共有として Azure Storage をマウントする」を参照してください。

BYOS のアクセス許可を構成したら、関連するコンテナーと BLOB の匿名パブリック読み取りアクセスを構成する必要があります。 そうしない場合、BLOB データをパブリック アクセスで利用できず、BLOB 内の辞書ファイルにアクセスできなくなります。 既定では、コンテナーのパブリック アクセス設定は無効になっています。 匿名ユーザーにコンテナーとその BLOB への読み取りアクセス権を付与するには、最初に [ Blob 匿名アクセス許可する] を [有効] に設定してストレージ アカウントのパブリック アクセスを許可し、次にコンテナーの ( acc-public-files という名前) パブリック アクセス レベルを設定します (BLOB の場合は匿名読み取りアクセスのみ)。 匿名パブリック読み取りアクセスを構成する方法の詳細については、「コンテナーと BLOB の匿名パブリック読み取りアクセスを構成する」を参照してください。

オーディオ コンテンツ作成ユーザーを追加または削除する

複数のユーザーがオーディオ コンテンツの作成を使用する場合は、Azure サブスクリプションと Speech リソースへのアクセス権を付与できます。 Azure サブスクリプションに追加したユーザーは、Azure サブスクリプションの下のすべてのリソースにアクセスできます。 しかし、音声リソースにのみユーザーを追加した場合は、音声リソースにのみアクセスできるようになり、この Azure サブスクリプションの下にある他のリソースにはアクセスできません。 Speech リソースにアクセスできるユーザーは、オーディオ コンテンツ作成ツールを使用できます。

アクセスの付与対象のユーザーは、Microsoft アカウントを設定する必要があります。 Microsoft アカウントを持っていない場合は、わずか数分で作成できます。 既存のメール アドレスを使用して、それを Microsoft アカウントにリンクすることも、Outlook のメール アドレスを作成して Microsoft アカウントとして使用することもできます。

ユーザーを音声リソースに追加する

音声コンテンツの作成を使用できるようにユーザーを Speech リソースに追加するには、次の操作を行います。

  1. Azure portal で、左側のウィンドウで [すべてのサービス] を選択し、Azure AI サービスまたは Speech を検索します。

  2. 音声リソースを選択します。

    Note

    また、リソース グループ、サブスクリプション、または管理グループ全体に対して Azure RBAC を設定することもできます。 これを行うには、目的のスコープ レベルを選択し、目的の項目に移動します (たとえば、[リソース グループ] を選択し、目的のリソース グループを選択します)。

  3. 左側のウィンドウで [アクセス制御 (IAM)] を選択します。

  4. [追加]>[ロール割り当ての追加] の順に選択します。

  5. 次の画面の [ロール] タブで、追加するロール ([所有者] など) を選択します。

  6. [メンバー] タブでユーザーのメール アドレスを入力し、ディレクトリ内のユーザーの名前を選択します。 メール アドレスは、Microsoft Entra ID によって信頼されている Microsoft アカウントにリンクされている必要があります。 ユーザーは、自分個人のメール アドレスを使用して、Microsoft アカウントに簡単にサインアップできます。

  7. [確認と 割り当て] タブで、[確認と割り当て] を選択して ロールを割り当てます。

以下では、次に何が行われるかを説明します。

  1. ユーザーにメールでの招待が自動的に送信されます。

    Note

    ユーザーが招待メールを受け取っていない場合は、[ロールの割り当て] で自分のアカウントを検索し、自分のプロファイルに移動できます。 [ID]>[招待が受け入れられました] を探し、[(管理)] を選択してメールでの招待を再送信します。 招待リンクをコピーして彼らに送信することもできます。

  2. メールで [招待を受諾]>[Azure への参加を承諾] を選択すると、受諾できます。

  3. ユーザーは次に、Azure portal にリダイレクトされます。 Azure portal でさらにアクションを行う必要はありません。

  4. しばらくすると、その音声リソースのスコープで、ユーザーにロールが割り当てられます。これで、この音声リソースへのアクセスが付与されます。

ユーザーは 、オーディオ コンテンツ作成 製品ページにアクセスまたは更新し、自分の Microsoft アカウントでサインインします。 すべての音声製品の中から [Audio Content Creation] ブロックを選択します。 ポップアップ ウィンドウまたは右上にある設定内で、音声リソースを選択します。

使用できる音声リソースを見つけられない場合は、それらが適切なディレクトリ内にあることを確認するために調査できます。 それを行うには、右上にあるアカウント プロファイルを選択してから、[現在のディレクトリ] の横にある [切り替え] を選択します。 選択できるディレクトリが複数ある場合は、複数のディレクトリにアクセスできることを意味します。 別のディレクトリに切り替えて [設定] に移動すると、適切な音声リソースが使用可能かどうかを確認できます。

同じ Speech リソース内のユーザーは、オーディオ コンテンツ作成ツールでお互いの作業を確認します。 オーディオ コンテンツの作成で個々のユーザーが一意でプライベートな職場を持つ必要がある場合は、新しい Speech リソースを作成します。

音声リソースからユーザーを削除する

音声リソースからユーザーのアクセス許可を削除するには、次の操作を行います。

  1. Azure portal で [Azure AI services] (Azure AI サービス) を検索し、ユーザーを削除する音声リソースを選択します。

  2. [アクセス制御 (IAM)] を選択してから、[ロールの割り当て] タブを選択して、この音声リソースのロールの割り当てをすべて表示します。

  3. 削除するユーザーを選択し、[削除] を選択してから、[OK] をクリックします。

    [ロールの割り当ての削除] ウィンドウの [削除] ボタンのスクリーンショット。

ユーザーが他のユーザーにアクセスを付与できるようにする

あるユーザーが他のユーザーにアクセスを付与することを許可する場合は、そのユーザーに音声リソースの所有者ロールを割り当てて、そのユーザーを Azure ディレクトリ閲覧者として設定する必要があります。

  1. ユーザーを音声リソースの所有者として追加します。 詳細については、「ユーザーを音声リソースに追加する」を参照してください。

    [ロールの割り当ての追加] ウィンドウの [所有者] ロールを示すスクリーンショット。

  2. Azure portal で、左上にある折りたたまれたメニューを選択し、[Microsoft Entra ID] を選択してから、[ユーザー] を選択します。

  3. ユーザーの Microsoft アカウントページを探し、ユーザーの詳細ページに移動してから、[割り当てられたロール] を選択します。

  4. [割り当ての追加]>[ディレクトリ閲覧者] を選択します。 [割り当ての追加] ボタンを使用できない場合は、アクセスを持っていないことを意味します。 ロールをユーザーに割り当てるには、所有者またはユーザー アクセス管理者のロールが付与されている必要があります。