オーディオコンテンツ作成ツールを使用したテキスト読み上げ

2025-08-13

Azure AI Foundry ポータルまたは Speech Studio のオーディオコンテンツ作成ツールを使用して、コードを記述せずにテキスト読み上げを行うことができます。

ヒント

この記事の上部にある Foundry ポータル または Speech Studio を選択します。

オーディオブック、ニュース放送、ビデオナレーション、チャットボットなどのさまざまなシナリオ向けの非常に自然なオーディオコンテンツをビルドします。オーディオコンテンツの作成を使用すると、テキストを音声音声に合わせて効率的に微調整し、カスタマイズされたオーディオエクスペリエンスを設計できます。

このツールは、音声合成マークアップ言語 (SSML) に基づいています。これにより、音声の特徴、音声スタイル、話す速度、発音、韻律などのテキスト読み上げ出力属性をリアルタイムまたはバッチ合成で調整できます。

コードなしアプローチ: コードを記述することなく、テキスト読み上げ合成にオーディオコンテンツ作成ツールを使用できます。出力オーディオは、必要な最終的な成果物になる場合があります。たとえば、ポッドキャストやビデオナレーションに出力オーディオを使用できます。
開発者にやさしい: 出力オーディオを聴き、SSML を調整して音声合成を向上させることができます。その後、 Speech SDK または Speech CLI を使用して、SSML をアプリケーションに統合できます。

幅広い言語と音声のポートフォリオに簡単にアクセスできます。これらの音声には、最新の標準音声とカスタム音声 (作成した場合) が含まれます。

オーディオコンテンツ作成ツールは自由にアクセスできます。は、Speech Service の使用量に対してのみ支払います。

Prerequisites

有効な Azure サブスクリプション。無料で作成できます。
サブスクリプションでリソースを作成するための権限。
Azure AI Foundry プロジェクト。詳細については、「 Azure AI Foundry プロジェクトの作成」を参照してください。

オーディオコンテンツ作成ツールを使用する

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

ツールにアクセスする

Azure AI Foundry のオーディオコンテンツ作成ツールにアクセスするには、次の手順に従います。

Azure AI Foundry でプロジェクトに移動します。
左側のウィンドウから [プレイグラウンド ] を選択します。
[ Speech playground ] タイルで、[ Try the Speech playground]\(音声プレイグラウンドを試す\) を選択します。
テキスト 読み上げ>Audio コンテンツの作成を選択します。タイルを見つけるには、スクロールが必要になる場合があります。

ワークフローの概要

ツールにアクセスしたら、次の一般的なワークフローに従います。

プレーンテキストまたは SSML スクリプトを使用して、音声チューニングファイルを作成します。コンテンツを入力するか、オーディオコンテンツの作成にアップロードします。
スクリプトの内容の音声と言語を選択します。オーディオコンテンツの作成には、すべての標準テキスト読み上げ音声が含まれます。標準音声またはカスタム音声を使用できます。

Note

カスタム音声アクセスは、適格性と使用条件に基づいて制限されます。取り込みフォームでアクセス権を要求します。
プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) を選択して、既定の合成出力をプレビューします。

テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。
チューニングした音声を保存してエクスポートします。

チューニングトラックをシステムに保存すると、作業を続行して出力を反復処理することができます。出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。エクスポートタスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニングファイルを作成する

次の 2 つの方法のいずれかで、オーディオコンテンツ作成ツールにコンテンツを取り込むことができます。

オプション 1: 新しいオーディオチューニングファイルを作成する

[新規]>[テキストファイル] をクリックして新しい音声チューニングファイルを作成します。
編集ウィンドウに内容を入力するか貼り付けます。各ファイルで使用できる文字数は 20,000 以下です。スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。
保存を選択します。

オプション 2: オーディオチューニングファイルをアップロードする

[アップロード]>[テキストファイル] を選択して、1 つ以上のテキストファイルをインポートします。プレーンテキストと SSML の両方がサポートされています。

スクリプトファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

テキストファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

Property	Description
ファイル形式	プレーンテキスト (.txt) または SSML テキスト (.txt) ZIP ファイルはサポートされていません。
エンコード形式	UTF-8
ファイル名	各ファイルには一意の名前が必要です。重複するファイルはサポートされていません。
テキストの長さ	文字数の制限は 20,000 字です。ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
SSML の制限	各 SSML ファイルに含めることができる SSML は 1 つだけです。

プレーンテキストの例を以下に示します。

Welcome to use audio content creation to customize audio output for your products.

SSML の例を次に示します。

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

[エクスポート] をクリックして音声作成タスクを作成します。

クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。ローカルのディスクにオーディオを直接ダウンロードすることもできます。

チューニングした音声の出力形式を選択します。次の表に、サポートされているオーディオ形式とサンプルレートを示します。

Format	8 kHz サンプルレート	16 kHz サンプルレート	24 kHz サンプルレート	48 kHz サンプルレート
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

タスクの状態を表示するには、[タスク一覧] タブを選択します。

タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。
タスクが完了すると、[オーディオライブラリ] ペインでオーディオをダウンロードできるようになります。
ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

Prerequisites

有効な Azure サブスクリプション。無料で作成できます。
サブスクリプションでリソースを作成するための権限。
音声資源 Azure portal または Speech Studio で作成します。

Note

AI Foundry リソースの種類は、Speech Studio ではサポートされていません。

オーディオコンテンツ作成ツールを使用する

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

オーディオコンテンツ作成ツールを使用するには、次の操作を行います。

Speech Studio にサインインし、[オーディオコンテンツの作成] を選択します。
操作しようとしている Azure サブスクリプションと音声リソースを選択し、[リソースの使用] を選択します。

Note

オーディオコンテンツの作成に戻る場合は、操作する別の Speech リソースを選択できます。ページの右上隅にあるアカウント設定に移動します。
プレーンテキストまたは SSML スクリプトを使用して、音声チューニングファイルを作成します。コンテンツを入力するか、オーディオコンテンツの作成にアップロードします。
スクリプトの内容の音声と言語を選択します。オーディオコンテンツの作成には、すべての標準テキスト読み上げ音声が含まれます。標準音声またはカスタム音声を使用できます。

Note

カスタム音声アクセスは、適格性と使用条件に基づいて制限されます。取り込みフォームでアクセス権を要求します。
プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) を選択して、既定の合成出力をプレビューします。

テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。

音声出力の調整方法の詳細については、YouTube でテキスト読み上げ変換方法の動画を参照してください。ただし、この動画は一部の地域では利用できない場合があり、視聴時には最新ではない可能性もあります。
チューニングした音声を保存してエクスポートします。

チューニングトラックをシステムに保存すると、作業を続行して出力を反復処理することができます。出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。エクスポートタスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニングファイルを作成する

次の 2 つの方法のいずれかで、オーディオコンテンツ作成ツールにコンテンツを取り込むことができます。

オプション 1: 新しいオーディオチューニングファイルを作成する

[新規]>[テキストファイル] をクリックして新しい音声チューニングファイルを作成します。
編集ウィンドウに内容を入力するか貼り付けます。各ファイルで使用できる文字数は 20,000 以下です。スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。
保存を選択します。

オプション 2: オーディオチューニングファイルをアップロードする

[アップロード]>[テキストファイル] を選択して、1 つ以上のテキストファイルをインポートします。プレーンテキストと SSML の両方がサポートされています。

スクリプトファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

テキストファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

Property	Description
ファイル形式	プレーンテキスト (.txt) または SSML テキスト (.txt) ZIP ファイルはサポートされていません。
エンコード形式	UTF-8
ファイル名	各ファイルには一意の名前が必要です。重複するファイルはサポートされていません。
テキストの長さ	文字数の制限は 20,000 字です。ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
SSML の制限	各 SSML ファイルに含めることができる SSML は 1 つだけです。

プレーンテキストの例を以下に示します。

Welcome to use audio content creation to customize audio output for your products.

SSML の例を次に示します。

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

[エクスポート] をクリックして音声作成タスクを作成します。

クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。ローカルのディスクにオーディオを直接ダウンロードすることもできます。

チューニングした音声の出力形式を選択します。次の表に、サポートされているオーディオ形式とサンプルレートを示します。

Format	8 kHz サンプルレート	16 kHz サンプルレート	24 kHz サンプルレート	48 kHz サンプルレート
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

タスクの状態を表示するには、[タスク一覧] タブを選択します。

タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。
タスクが完了すると、[オーディオライブラリ] ペインでオーディオをダウンロードできるようになります。
ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

BYOS と、BLOB の匿名パブリック読み取りアクセスを構成する

Bring Your Own Storage (BYOS) へのアクセス許可が失われると、ファイルの表示、作成、編集、または削除を実行できなくなります。アクセスを再開するには、Azure portal で現在のストレージを削除し、BYOS を再構成する必要があります。 BYOS を構成する方法の詳細については、「App Service でローカル共有として Azure Storage をマウントする」を参照してください。

BYOS のアクセス許可を構成したら、関連するコンテナーと BLOB の匿名パブリック読み取りアクセスを構成する必要があります。そうしない場合、BLOB データをパブリックアクセスで利用できず、BLOB 内の辞書ファイルにアクセスできなくなります。既定では、コンテナーのパブリックアクセス設定は無効になっています。匿名ユーザーにコンテナーとその BLOB への読み取りアクセス権を付与するには、最初に [ Blob 匿名アクセス を 許可する] を [有効] に設定してストレージアカウントのパブリックアクセスを許可し、次にコンテナーの ( acc-public-files という名前) パブリックアクセスレベルを設定します (BLOB の場合は匿名読み取りアクセスのみ)。匿名パブリック読み取りアクセスを構成する方法の詳細については、「コンテナーと BLOB の匿名パブリック読み取りアクセスを構成する」を参照してください。

オーディオコンテンツ作成ユーザーを追加または削除する

複数のユーザーがオーディオコンテンツの作成を使用する場合は、Azure サブスクリプションと Speech リソースへのアクセス権を付与できます。 Azure サブスクリプションに追加したユーザーは、Azure サブスクリプションの下のすべてのリソースにアクセスできます。しかし、音声リソースにのみユーザーを追加した場合は、音声リソースにのみアクセスできるようになり、この Azure サブスクリプションの下にある他のリソースにはアクセスできません。 Speech リソースにアクセスできるユーザーは、オーディオコンテンツ作成ツールを使用できます。

アクセスの付与対象のユーザーは、Microsoft アカウントを設定する必要があります。 Microsoft アカウントを持っていない場合は、わずか数分で作成できます。既存のメールアドレスを使用して、それを Microsoft アカウントにリンクすることも、Outlook のメールアドレスを作成して Microsoft アカウントとして使用することもできます。

ユーザーを音声リソースに追加する

音声コンテンツの作成を使用できるようにユーザーを Speech リソースに追加するには、次の操作を行います。

Azure portal で、左側のウィンドウで [すべてのサービス] を選択し、Azure AI サービスまたは Speech を検索します。
音声リソースを選択します。

Note

また、リソースグループ、サブスクリプション、または管理グループ全体に対して Azure RBAC を設定することもできます。これを行うには、目的のスコープレベルを選択し、目的の項目に移動します (たとえば、[リソースグループ] を選択し、目的のリソースグループを選択します)。
左側のウィンドウで [アクセス制御 (IAM)] を選択します。
[追加]>[ロール割り当ての追加] の順に選択します。
次の画面の [ロール] タブで、追加するロール ([所有者] など) を選択します。
[メンバー] タブでユーザーのメールアドレスを入力し、ディレクトリ内のユーザーの名前を選択します。メールアドレスは、Microsoft Entra ID によって信頼されている Microsoft アカウントにリンクされている必要があります。ユーザーは、自分個人のメールアドレスを使用して、Microsoft アカウントに簡単にサインアップできます。
[確認と割り当て] タブで、[確認と割り当て] を選択してロールを割り当てます。

以下では、次に何が行われるかを説明します。

ユーザーにメールでの招待が自動的に送信されます。

Note

ユーザーが招待メールを受け取っていない場合は、[ロールの割り当て] で自分のアカウントを検索し、自分のプロファイルに移動できます。 [ID]>[招待が受け入れられました] を探し、[(管理)] を選択してメールでの招待を再送信します。招待リンクをコピーして彼らに送信することもできます。
メールで [招待を受諾]>[Azure への参加を承諾] を選択すると、受諾できます。
ユーザーは次に、Azure portal にリダイレクトされます。 Azure portal でさらにアクションを行う必要はありません。
しばらくすると、その音声リソースのスコープで、ユーザーにロールが割り当てられます。これで、この音声リソースへのアクセスが付与されます。

ユーザーは、オーディオコンテンツ作成製品ページにアクセスまたは更新し、自分の Microsoft アカウントでサインインします。すべての音声製品の中から [Audio Content Creation] ブロックを選択します。ポップアップウィンドウまたは右上にある設定内で、音声リソースを選択します。

使用できる音声リソースを見つけられない場合は、それらが適切なディレクトリ内にあることを確認するために調査できます。それを行うには、右上にあるアカウントプロファイルを選択してから、[現在のディレクトリ] の横にある [切り替え] を選択します。選択できるディレクトリが複数ある場合は、複数のディレクトリにアクセスできることを意味します。別のディレクトリに切り替えて [設定] に移動すると、適切な音声リソースが使用可能かどうかを確認できます。

同じ Speech リソース内のユーザーは、オーディオコンテンツ作成ツールでお互いの作業を確認します。オーディオコンテンツの作成で個々のユーザーが一意でプライベートな職場を持つ必要がある場合は、新しい Speech リソースを作成します。

音声リソースからユーザーを削除する

音声リソースからユーザーのアクセス許可を削除するには、次の操作を行います。

Azure portal で [Azure AI services] (Azure AI サービス) を検索し、ユーザーを削除する音声リソースを選択します。
[アクセス制御 (IAM)] を選択してから、[ロールの割り当て] タブを選択して、この音声リソースのロールの割り当てをすべて表示します。
削除するユーザーを選択し、[削除] を選択してから、[OK] をクリックします。

ユーザーが他のユーザーにアクセスを付与できるようにする

あるユーザーが他のユーザーにアクセスを付与することを許可する場合は、そのユーザーに音声リソースの所有者ロールを割り当てて、そのユーザーを Azure ディレクトリ閲覧者として設定する必要があります。

ユーザーを音声リソースの所有者として追加します。詳細については、「ユーザーを音声リソースに追加する」を参照してください。
Azure portal で、左上にある折りたたまれたメニューを選択し、[Microsoft Entra ID] を選択してから、[ユーザー] を選択します。
ユーザーの Microsoft アカウントページを探し、ユーザーの詳細ページに移動してから、[割り当てられたロール] を選択します。
[割り当ての追加]>[ディレクトリ閲覧者] を選択します。 [割り当ての追加] ボタンを使用できない場合は、アクセスを持っていないことを意味します。ロールをユーザーに割り当てるには、所有者またはユーザーアクセス管理者のロールが付与されている必要があります。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

オーディオ コンテンツ作成ツールを使用したテキスト読み上げ

Prerequisites

オーディオ コンテンツ作成ツールを使用する

ツールにアクセスする

ワークフローの概要

音声チューニング ファイルを作成する

オプション 1: 新しいオーディオ チューニング ファイルを作成する

オプション 2: オーディオ チューニング ファイルをアップロードする

チューニングした音声をエクスポートする

Prerequisites

オーディオ コンテンツ作成ツールを使用する

音声チューニング ファイルを作成する

オプション 1: 新しいオーディオ チューニング ファイルを作成する

オプション 2: オーディオ チューニング ファイルをアップロードする

チューニングした音声をエクスポートする

BYOS と、BLOB の匿名パブリック読み取りアクセスを構成する

オーディオ コンテンツ作成ユーザーを追加または削除する

ユーザーを音声リソースに追加する

音声リソースからユーザーを削除する

ユーザーが他のユーザーにアクセスを付与できるようにする

関連コンテンツ

フィードバック

その他のリソース

オーディオコンテンツ作成ツールを使用したテキスト読み上げ

オーディオコンテンツ作成ツールを使用する

音声チューニングファイルを作成する

オプション 1: 新しいオーディオチューニングファイルを作成する

オプション 2: オーディオチューニングファイルをアップロードする

オーディオコンテンツ作成ツールを使用する

音声チューニングファイルを作成する

オプション 1: 新しいオーディオチューニングファイルを作成する

オプション 2: オーディオチューニングファイルをアップロードする

オーディオコンテンツ作成ユーザーを追加または削除する