Azure AI 音声の新機能

Azure AI 音声は、継続的に更新されます。常に最新の開発情報を把握していただけるよう、この記事では新しいリリースと機能に関する情報を提供します。

リリースノート

サービスまたはリソースを選択してください

重要

Speech SDK を使用したコンテンツ評価 (プレビュー) は、2025 年 7 月に廃止されます。代わりに、Azure OpenAI モデルを使用して、コンテンツ評価ドキュメントの説明に従ってコンテンツ評価の結果を取得できます。

Speech SDK 1.46: 2025-9 月リリース

新機能:

Speech_StartEventSensitivity プロパティを利用した発話開始イベントの感度サポートを追加しました。
非推奨の SpeechServiceConnection_EndSilenceTimeoutMs プロパティ。
発音評価のコンテンツ評価機能が廃止されました。
Android OpenSSL を 3.0.17 に更新しました。
メモリ使用量の増加を防ぐために、テレメトリキューにサイズ制限を追加しました。
潜在的な IO ハングを防ぐために、TTS でのキャッシュ読み取りのタイムアウトガードを追加しました。
URL リダイレクトキャッシュの動作を制御するための構成可能なプロパティを追加しました。
[C#] EventSource ベースのログ記録のサポートを追加しました。
[Python] AzureKeyCredential 認証のサポートを 追加しました。

バグ修正

埋め込みテキスト読み上げでの ja-JP 発音の問題を修正しました。
埋め込まれた音声テキスト変換での長時間にわたるメモリ使用量の顕著な増加を修正しました。
タイムアウトにより認識を停止している際に発生する競合状態が原因で起きたクラッシュを修正しました。
[JavaScript] fromHost が Docker コンテナーサービスで動作しない問題を修正しました。

サンプル

AzureKeyCredential認証とAAD token credential認証の使用方法を示すサンプルを更新しました。
[JavaScript、Python] fromEndpointを使用するようにサンプルを更新しました。

Speech SDK 1.45: 2025 年 7 月リリース

新機能:

フレーズリストの文法の重みを設定するためのサポートを追加しました。 (現在のところ、影響するのは埋め込みシナリオのみ)
ファイルを開く際の、より具体的なエラーコードを追加しました。
SDK Windows DLL を ASCII 以外のパスの下に配置できるように、Unicode パスのサポートを更新しました。
サービスロジックに適合するよう、セグメント化戦略プロパティの説明を更新しました。
[C#, Java] ApiKeyCredential を使用した認証のサポートを追加しました。

バグ修正

特定のリージョンのマイクジオメトリに関する Microsoft Audio Stack (MAS) の初期化エラーを修正しました。
音声翻訳 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856) で不適切表現の設定が機能しない問題を修正しました。
日本語での意図認識パターンマッチングで発生するクラッシュを修正しました。
Node.js v22 以降でカスタムドメイン解決が機能しない問題を修正しました。

サンプル

[Java]AAD トークン資格情報認証を示すサンプルコードを追加しました。

Speech SDK 1.44.1: パッチリリース

SDK バージョン 1.44.1 は、次の 4 つのバグを修正した JavaScript でのみリリースされています。

バグ修正

セグメント化制御パラメーターが 1 つだけ指定された場合の範囲外の例外を修正しました。
enableDictation が Speech Service に正しく渡されませんでした。
ConversationTranscriber は、fromEndpoint メソッドを使用して作成したときに正しい URL パスを使用しませんでした。
データがデタッチされた後に入力ストリームにプッシュされる場合のエラーを修正しました。

Speech SDK 1.44: 2025年5月リリースしました

重要

ターゲットプラットフォームのサポートは変更されています。

サポートされている Android の最小バージョンは Android 8.0 (API レベル 26) になりました。
Speech SDK Unity パッケージの発行は、このリリース後に一時停止されます。

新機能:

Android 16 KB メモリページサイズのサポートを追加しました。
埋め込み音声認識での SpeechStartDetected イベントの待機時間を短縮しました。
[C++、Python]AudioDataStream の使用可能なサイズを取得するメソッドを追加しました。
[C++、Python]音声合成要求でのカスタム辞書 URL と優先ロケールのサポートが追加されました。
[Java、Python]トークンの自動更新による Microsoft Entra トークンベースの認証のサポートが追加されました。
[Go]会話の文字起こしのサポートを追加しました。

バグ修正

ソース言語の検出が使用されたときに翻訳音声合成が機能しない問題を修正しました。
埋め込み音声モデル、KWS モデル、またはログファイル (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288) で ASCII 以外の文字が機能しないファイルパスを修正しました。
特定の条件での埋め込み音声認識での NoMatch ループを修正しました。
イベントが切断されたときに認識が停止済みとマークされていないためにブロックされるネイティブオブジェクトのデストラクターを修正しました。
特定の条件でマルチバイト文字で IntentRecognizer パターンマッチングが正しく機能しない問題を修正しました。
Connection オブジェクトでの Close() の呼び出しは同期的ではありませんでした。
接続の割り当て解除でクラッシュにつながる可能性がある競合状態を修正しました。
[macOS]コンソール (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610) に表示される "Info:" メッセージを修正しました。

サンプル

[Python]Microsoft Entra トークン資格情報を使用する recognizer のサンプルコードを追加しました。

Speech SDK for JavaScript

新機能:

開発依存関係の更新: TypeScript 3.5.3 → 4.5
既定で V2 エンドポイントを使用するように TranslationRecognizer を更新しました。
V2 エンドポイントを使用するように SpeechRecongizer を更新しました。
- その結果、NoMatch の結果は受け取らなくなります。
音声認識と翻訳に対する Microsoft Entra トークンベースの認証のサポートが追加されました。
ほとんどのシナリオで SpeechConfig を構築するための推奨される方法として、FromEndpoint API が更新されました。
- 次の使用に適用されます:
  - 音声認識装置
  - TranslationRecognizer (SpeechTranslationConfig 経由)
  - 対話文字起こしソフト
  - 音声合成器
- これで、Azure portal for Speech リソースと Azure AI Foundry リソースからエンドポイントを使用して、SpeechConfig オブジェクトを構築できるようになりました。
- SpeechConfig を構築するための他のすべてのメソッドは引き続き機能し、サポートされています。

バグ修正

サポートされていない接続終了コード (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896) での無限接続再試行ループを修正しました。

Speech SDK 1.43: 2025 年 3 月リリース

メモ

Ubuntu 20.04 の "標準セキュリティメンテナンス" は 2025 年 4 月に期限切れになり、ADO ビルドエージェントとして使用できなくなります。今後の Speech SDK リリースでは、サポートされている最小バージョンとして Ubuntu 22.04 LTS (Ubuntu 20.04 ではなく) が必要になります。

新機能:

ほとんどのシナリオで SpeechConfig を構築するための推奨される方法として、FromEndpoint API が更新されました。
- 次の使用に適用されます:
  - 音声認識装置
  - TranslationRecognizer (SpeechTranslationConfig 経由)
  - 対話文字起こしソフト
  - SpeechSynthesizer JavaScript を除くすべてのプログラミング言語。
- これで、Azure Portal for Speech および Cognitive Services リソースのエンドポイントを使用して SpeechConfig オブジェクトを構築できるようになりました。
- SpeechConfig を構築するための他のすべてのメソッドは引き続き機能し、サポートされています。
既定で V2 エンドポイントを使用するように TranslationRecognizer を更新しました。
- これにより、V2 エンドポイントを使用するときに、制御パラメーターが URL からチャネル内メッセージに移動されます。
- 動作の変更: "zh" に対して返される既定の言語は、"zh-hans" ではなく "zh-CN" になりました
SpeechSynthesis_FrameTimeoutIntervalとSpeechSynthesis_RtfTimeoutThresholdのプロパティ ID を追加しました。
実行時間の長い認識のために SDK が再接続される回数を最適化しました。
[C++、Python]テキストストリーミング要求でスタイルと温度を指定するためのサポートが追加されました。
[C#]FromEndpoint を使用して構成オブジェクトを構築する場合の自動 AAD トークン更新のサポートを追加しました。
- これにより、Speech SDK から Azure.Core nuget パッケージへの依存関係が追加されます。
- Speech SDK では、認証のために TokenCredential から派生したオブジェクトを次の使用時に受け入れることができるようになりました。
  - 音声認識装置
  - 翻訳認識器
  - 対話文字起こしソフト
[Objective-C]オープン範囲からのソース言語自動検出をサポートするように SPXTranslationRecognizer を更新しました。
[Objective-C , Python]診断 API EventLogger、FileLogger、MemoryLogger を追加しました。
[Go]: TranslationRecognizer のサポートを追加しました

バグ修正

Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736) での OpenSSL 3 のサポートを修正しました。
音声合成音声リスト (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771) の状態フィールドが見つからない問題を修正しました。
日本語パーサーに一致する IntentRecognizer パターンが整数文字を正しく識別しない問題を修正しました。
埋め込み音声認識の結果が重複する可能性がある問題を修正しました。
[Java]Android 12 以降 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687) の ConversationParticipantsChangedEventArgs の空の参加者を修正しました。

サンプル

[C++]パターンマッチングを使用したスタンドアロンの意図認識のサンプルを追加しました。
- 2025 年 10 月に LUIS サービスが廃止されると、Speech SDK は IntentRecognizer オブジェクトファミリも廃止されます。
- その前に、パターンマッチングの実装を共有したいと考えていました。
[C++、C#、Java、Python]FromSubscription の代わりに FromEndpoint API を使用するようにほとんどのサンプルを更新しました。
[C#]多層音声認識アプリケーションのシナリオサンプルを追加しました。
- エッジデバイスから中間層サービスへのオーディオ再生と再接続の手法を示します。その後、Speech SDK を使用して音声を Speech Service に転送します。
[C#]AAD トークンの自動更新を使用するようにサンプルを更新しました。
[Python]新しい診断 API のサンプルを追加しました。
[Unity]新しい Azure.Core 依存関係をインストールする手順を追加しました。

Speech SDK 1.42.0: 2024 年 12 月リリース

新機能

Java: FileLogger、MemoryLogger、EventLogger、SpxTrace のクラスを使用する診断ログ API を追加しました。
会議の参加者の JSON プロパティ "details" のサービスへの送信をサポートします
Go: プロキシが使用されないホストを指定するためのパブリックプロパティ ID SpeechServiceConnection_ProxyHostBypass を追加しました。
JavaScript、Go: 読み上げられた語句が終了し、最終的に認識された結果 (セマンティックセグメンテーションを含む) を生成する必要があるタイミングを判断するためのパブリックプロパティ ID Speech_SegmentationStrategy を追加しました
JavaScript、Go: Java、Python、C#、C++ の時刻に基づいて音声フレーズの終了を判断するパブリックプロパティ ID Speech_SegmentationMaximumTimeMs を追加しました

バグ修正

音声名が設定されていない場合、すべての合成に対して埋め込まれた TTS 音声が (再) 読み込みされる問題を修正しました。
一部のシナリオで MeetingTranscriber を使用するときのオフセット計算の問題を修正しました。
複数の診断イベントリスナーを並列に登録するときにデッドロックが発生する可能性を修正しました。
(JavaScript) 音声終了時に NoMatch の結果が失われる可能性を修正しました。この修正により、音声の終了時の動作が他の SDK 言語に適合して、一部の空のイベントはもう発生しなくなる場合があります。
(JavaScript) 結果オブジェクトのオフセットに合わせて、結果 JSON のオフセットを修正します。前は、結果オブジェクトのオフセットプロパティのみが、サービスの再接続を考慮するように修正されていました。
Go 言語: コンパイルエラー https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639 を修正しました
サービスへの再接続が発生したときの会議の文字起こしの結果オフセットを修正しました。
ログのデッドロックを修正しました。

サンプル

.NET 8.0 を使用するように C# サンプルを更新しました。
Java サンプルは、新しい診断ログクラスの使用状況を示す診断ログ API を使用します。

2024年11月リリース

Visual Studio Code の Azure AI 音声ツールキット拡張機能

Visual Studio Code ユーザーが Azure AI Speech Toolkit 拡張機能を使用できるようになりました。これには、数回クリックするだけで簡単にビルドして実行できる音声クイックスタートとシナリオサンプルの一覧が含まれています。詳細については、Visual Studio Code Marketplace の Azure AI Speech Toolkit を参照してください。

テキスト読み上げアバターコードサンプル

Android 用および iOS 用のテキスト読み上げアバターコードサンプルを追加しました。これらのサンプルにより、モバイルアプリケーションでリアルタイムテキスト読み上げアバターを使用する方法を確認することができます。

Speech SDK 1.41.1: 2024年10月リリース

新機能

Amazon Linux 2023 と Azure Linux 3.0 のサポートを追加しました。
プロキシを使用しないホストを指定するためのパブリックプロパティ ID SpeechServiceConnection_ProxyHostBypass を追加しました。
新しいフレーズセグメント化戦略を制御するプロパティを追加しました。

バグの修正

2024 年 8 月以降に生成されたキーワード認識の高度なモデルの不完全なサポートを修正しました。
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- iOS 上の Swift では、ご利用のプロジェクトに MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (https://aka.ms/csspeech/iosbinaryembedded から) または高度なモデルサポートを含む MicrosoftCognitiveServicesSpeechEmbedded-iOS ポッドのいずれかを使用する必要があることに注意してください。
文字列の使用に関連する C# のメモリリークを修正しました。
Objective-C および Swift で SPXConversationTranscriptionResult から SPXAutoDetectSourceLanguageResult を取得できない問題を修正しました。
Microsoft オーディオスタックを使用した認識時にクラッシュが時折発生する問題を修正しました。
Python の型ヒントを修正しました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
カスタムエンドポイントを使用しているときに TTS 音声のリストをフェッチできない問題を修正しました。
音声が短い名前で指定されているときに、すべての読み上げ要求に対する埋め込み TTS の再初期化を修正しました。
RecognizeOnce オーディオの最大期間に関する API リファレンスドキュメントを修正しました。
JavaScript での任意のサンプリングレートのエラー処理を修正しました
- この貢献に関して rseanhall に感謝します。
JavaScript でオーディオオフセットの計算時のエラーを修正しました
- この貢献に関して motamed に感謝します。

重大な変更

Windows ARM 32 ビットでのキーワード認識のサポートは、このプラットフォームで使用できない必要な ONNX ランタイムが原因で削除されました。

Speech SDK 1.40: 2024 8 月リリース

メモ

Speech SDK バージョン 1.39.0 は内部リリースであり、飛ばされているわけではありません。

新機能

音声認識において、G.722 圧縮オーディオのストリーミングのサポートを追加しました。
音声合成における入力テキストストリーミングに、ピッチ、レート、ボリューム設定のサポートを追加しました。
音声合成における PersonalVoiceSynthesisRequest の導入により、パーソナル音声入力テキストストリーミングのサポートを追加しました。この API はプレビュー段階であり、将来のバージョンで変更される可能性があります。
ConversationTranscriber の使用時に、中間結果のダイアライゼーションのサポートを追加しました。
CentOS 7 EOL、および RHEL 7 メンテナンスサポート 2 終了のため、CentOS/RHEL 7 のサポートを削除しました。
埋め込み音声モデルを使用する際に、モデルキーではなくモデルライセンスが必要になりました。埋め込み音声の既存のお客様がアップグレードを希望する場合、モデルの更新プログラムの詳細については Microsoft のサポート担当者にお問い合わせください。

バグ修正

Visual C++ ランタイムにおける問題「VS 2022 バージョン 17.10.0 - Developer Community (visualstudio.com) にアップグレードした後の std::mutex::lock によるアクセス違反」の軽減策として、 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR フラグを使用して Windows 用 Speech SDK バイナリをビルドしました。 Speech SDK を使用する Windows C++ アプリケーションでは、コードで std::mutex が使用されている場合は同じビルド構成フラグを適用する必要がある場合があります (リンク先にある問題の詳細を参照してください)。
Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420) で OpenSSL 3.x 検出が機能しない問題を修正しました。
UWP アプリをデプロイするときに、MAS NuGet パッケージからライブラリとモデルがデプロイ場所にコピーされない問題を修正しました。
Android パッケージ (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463) でのコンテンツプロバイダーの競合を修正しました。
後処理オプションが中間音声認識の結果に適用されない問題を修正しました。
ディストリビューション固有のランタイム識別子 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244) に関する .NET 8 警告を修正しました。

サンプル

キーの代わりにモデルライセンスを使用するように埋め込まれた音声サンプルを更新しました。

Speech SDK 1.38.0: 2024 年 6 月リリース

新機能

Speech SDK Linux プラットフォームの要件のアップグレード:
- 新しい最小ベースラインは Ubuntu 20.04 LTS または glibc 2.31 以降と互換性を持つものとなります。
- Linux x86 用のバイナリは、Ubuntu 20.04 プラットフォームのサポートに伴い削除されます。
- RHEL/CentOS 7 は 6 月 30 日 (CentOS 7 のサポート終了日と RHEL 7 メンテナンスサポート 2 の終了日) までサポートされます。これらのバイナリは、Speech SDK 1.39.0 リリースにおいて削除されます。
Linux 上の OpenSSL 3 のサポートを追加。
g722-16khz-64kbps オーディオ出力形式と音声合成のサポートを追加。
接続オブジェクトと音声合成を通したメッセージ送信のサポートを追加。
Objective-C および Swift に Start/StopKeywordRecognition API を追加。
カスタムの翻訳モデルカテゴリを選択するための API を追加。
音声合成における GStreamer の使用方法を更新。

バグ修正

Start/StopKeywordRecognition 中の "Websocket message size can't exceed 65536 bytes" というエラーを修正しました。
音声合成中の Python セグメンテーション障害を修正。

サンプル

既定で .NET 6.0 を使用するように C# サンプルを更新。

Speech SDK 1.37.0: 2024 年 4 月リリース

新機能

音声合成での入力テキストストリーミングのサポートを追加します。
既定の音声合成の音声を en-US-AvaMultilingualNeural に変更します。
OpenSSL 3.x を使用するように Android ビルドを更新します。

バグ修正

MAS の使用時に SpeechRecognizer の破棄中に不定期に発生する JVM のクラッシュを修正します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Linux 上の既定のオーディオデバイスの検出を改善します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

サンプル

新機能用に更新されました。

Speech SDK 1.36.0: 2024 年 3 月のリリース

新機能

AutoDetectSourceLanguageConfig::FromOpenRange() を使用して、v2 エンドポイントの多言語翻訳での言語識別のサポートを追加します。

バグ修正

SynthesisStarted イベント中に停止が呼び出された場合に、SynthesisCanceled イベントが発生しない問題を修正します。
埋め込み音声合成のノイズの問題を修正します。
複数の認識エンジンを並列で実行した場合に、埋め込み音声認識でクラッシュが発生する問題を修正します。
v1/v2 エンドポイントのフレーズ検出モード設定を修正します。
Microsoft Audio Stack に関するさまざまな問題を修正します。

サンプル

新機能向けのアップデート。

Speech SDK 1.35.0: 2024 年 2 月のリリース

新機能

既定のテキスト読み上げ音声を en-US-JennyMultilingualNeural から en-US-AvaNeural に変更。
詳細な出力形式を使用して、埋め込み音声翻訳結果での単語レベルの詳細をサポート。

バグ修正

Python の AudioDataStream 位置ゲッター API を修正。
言語検出なしで v2 エンドポイントを使用する音声翻訳を修正。
埋め込みのテキスト読み上げでのランダムなクラッシュとワード境界イベントの重複を修正。
WebSocket 接続の内部サーバーエラーについて正確なキャンセルエラーコードを返す。
C# で MAS を使用する場合に発生する FPIEProcessor.dll ライブラリの読み込みエラーを修正。

サンプル

埋め込み認識サンプルの書式のマイナー更新。

Speech SDK 1.34.1: 2024 年 1 月のリリース

重大な変更

バグ修正のみ

新機能

バグ修正のみ

バグ修正

複数の中国リージョンのユーザーについて不適切なロケール情報でサービスエンドポイント URL が作成される、1.34.0 で発生した回帰を修正しました。

Speech SDK 1.34.0: 2023 年 11 月リリース

重大な変更

SpeechRecognizer は既定で (つまり URL を明示的に指定しない場合) 新しいエンドポイントを使用するように更新され、ほとんどのプロパティでクエリ文字列パラメーターがサポートされなくなりました。 ServicePropertyChannel.UriQueryParameter でクエリ文字列パラメーターを直接設定するのではなく、対応する API 関数を代わりに使用してください。

新機能

.NET 8 との互換性 (centos7-x64 に関する警告を除く、https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 の修正)
埋め込み音声を実行するデバイスの機能を評価するために使用できる埋め込み音声パフォーマンスメトリックのサポート。
埋め込み多言語翻訳でのソース言語識別のサポート。
iOS および Swift/Objective-C 向けの埋め込み音声テキスト変換、テキスト読み上げ、翻訳のサポートをプレビューでリリース。
埋め込みサポートは、MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod で提供されています。

バグ修正

iOS SDK でバイナリサイズが 2 倍に増加する問題を修正 · イシュー #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Azure Speech to Text API からワードレベルのタイムスタンプを取得できない問題を修正しました · Issue 番号 #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
DialogServiceConnector 破棄フェーズでイベントが正しく切断されるように修正しました。これが原因で時々クラッシュが発生していました。
MAS が使用されている場合の認識エンジンの作成時に例外が発生する問題を修正しました。
Windows UWP x64 および Arm64 用 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet パッケージの FPIEProcessor.dll は、ネイティブ C++ の VC ランタイムライブラリに依存していました。この問題は、依存関係を更新して VC ランタイムライブラリを修正することで修正されました (UWP の場合)。
[MAS] の修正: MAS 使用時に SPXERR_ALREADY_INITIALIZED につながる recognizeOnceAsync への繰り返し呼び出しの修正 · イシュー #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
フレーズリスト使用時、埋め込み音声認識がクラッシュする問題を修正しました。

サンプル

音声テキスト変換、テキスト読み上げ、翻訳の iOS サンプルを埋め込み。

Speech CLI 1.34.0: 2023 年 11 月リリース

新機能

音声合成時の単語境界イベント出力をサポートします。

バグ修正

JMESPath 依存関係を最新リリースに更新し、文字列の評価を改善しました

Speech SDK 1.33.0: 2023 年 10 月リリース

破壊的変更の通知

Microsoft Audio Stack (MAS) 向けに追加された新しい NuGet パッケージは、MAS を使用するアプリケーションのパッケージ構成ファイルに含めることが必要になりました。

新機能

新しい NuGetパッケージ Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg が追加され、Microsoft Audio Stack 使用時のエコーキャンセルのパフォーマンスが向上しました
発音評価: 韻律とコンテンツ評価のサポートが追加され、話し言葉を韻律、語彙、文法、トピックの観点から評価できます。

バグ修正

キーワード認識結果のオフセットを修正し、入力オーディオストリームの先頭から正しく一致するようにしました。この修正は、単独のキーワード認識とキーワードをトリガーする音声認識の両方に適用されます。
Synthesizer stopSpeaking が即座に返されない問題「iOS 17 で SPXSpeechSynthesizer stopSpeaking() メソッドが即座に返されない - Issue 番号 #2081」を修正しました
Apple シリコンをサポートする Mac Catalyst の Swift モジュールにおけるインポートの問題を修正しました。イシュー #1948
JS: AudioWorkletNode モジュールの読み込みでは、CDN ブラウザーに含まれるフォールバックを含む信頼できる URL を使用するようになりました。
JS: パックされた lib ファイルのターゲットが ES6 JS に指定されるようになり、ES5 JS のサポートは削除されました。
JS: v2 エンドポイントをターゲットとする翻訳シナリオの中間イベントは正しく処理されます
JS: TranslationRecognitionEventArgs の言語プロパティが translation.hypothesis イベントに設定されました。
音声合成: SynthesisCompleted イベントは、すべてのメタデータイベント後に発行されることが保証されているため、イベントの終了を示すために使用できます。口形素が完全に受信されたことを検知するにはどうすればいいですか? イシュー #2093 Azure-Samples/cognitive-services-speech-sdk

サンプル

Python を使用した MULAW ストリーミングのデモ用サンプルを追加しました)
音声テキスト変換 NAudio サンプルの修正

Speech CLI 1.33.0: 2023 年 10 月リリース

新機能

音声合成時の単語境界イベント出力をサポートします。

バグ修正

なし

Speech SDK 1.32.1: 2023 年 9 月リリース

バグ修正

OpenSSL1.1.1v からの最新のセキュリティ修正プログラムを使用した Android パッケージの更新
JS – タイムアウトワーカーのデータ URL 読み込みをバイパスできるように WebWorkerLoadType プロパティが追加されました
JS – 10 分後に会話翻訳が切断される問題を修正
JS – 会話からの会話翻訳認証トークンが翻訳サービス接続に伝達されるようになりました

サンプル

Swift API を使用した会話の文字起こし

Speech SDK 1.31.0: 2023 8 月リリース

新機能

リアルタイムのダイアライゼーションのサポートは、Speech SDK 1.31.0 のパブリックプレビューで利用できます。この機能は、C#、C++、Java、JavaScript、Python、Objective-C/Swift の SDK で使用できます。
音声再生と同期した音声合成の単語境界と口形素イベント

重大な変更

以前の "会話の文字起こし" シナリオの名前が "会議の文字起こし" に変更されました。たとえば、MeetingTranscriber の代わりに ConversationTranscriber を使用し、CreateMeetingAsync の代わりに CreateConversationAsync を使用します。 SDK オブジェクトとメソッドの名前は変更されましたが、名前の変更による機能自体への変更はありません。ユーザープロファイルと音声署名を使用した会議の文字起こしには、会議の文字起こしオブジェクトを使用します。 "会話翻訳" オブジェクトと方法は、これらの変更の影響を受けません。会議翻訳シナリオには引き続き ConversationTranslator オブジェクトとそのメソッドを使用できます。
リアルタイムのダイアライゼーションでは、新しい ConversationTranscriber オブジェクトが導入されています。新しい "会話の文字起こし" オブジェクトモデルと呼び出しパターンは、SpeechRecognizer オブジェクトを使用した継続的な認識に似ています。主な違いは、ConversationTranscriber オブジェクトは、複数の話者を区別する (ダイアライゼーション) 会話シナリオで使用するように設計されていることです。ユーザープロファイルと音声署名は適用されません。詳細については、リアルタイムのダイアライゼーションのクイックスタートを参照してください。

次の表は、リアルタイムのダイアライゼーションと会議の文字起こしの以前のオブジェクト名と新しいオブジェクト名を示しています。シナリオ名は最初の列に、前のオブジェクト名は 2 番目の列に、新しいオブジェクト名は 3 番目の列に示されています。

シナリオ名	以前のオブジェクト名	新しいオブジェクト名
リアルタイムのダイアライゼーション	該当なし	`ConversationTranscriber`
会議の文字起こし	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹Participant、ParticipantChangedReason、User オブジェクトは、会議の文字起こしと会議翻訳の両方のシナリオに適用できます。

²Meeting は新しいオブジェクトであり、MeetingTranscriber オブジェクトと共に使用されます。

バグ修正

macOS でサポートされている最小バージョンを修正しました (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017)
発音評価のバグを修正しました。
- 音素精度スコアの問題に対処し、特定の誤って発音された音素のみを正確に反映するようになりました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 特に、単語に複数の有効な発音が含まれる可能性がある状況で、発音評価機能で完全に正しい発音が誤っていると不正確に識別される問題を解決しました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

サンプル

Speech SDK 1.30.0: 2023 年 7 月リリース

新機能

C++、C#、Java - 埋め込み音声認識の詳細な結果での DisplayWords のサポートが追加されました。
Objective-C/Swift - Objective-C/Swift での ConnectionMessageReceived イベントのサポートが追加されました。
Objective-C/Swift - iOS のキーワード認識モデルが改善されました。この変更により、iOS バイナリを含む特定のパッケージ (NuGet、XCFramework など) のサイズが大きくなりました。 Microsoft では、今後のリリースに向けて、サイズの縮小に取り組んでいます。

バグ修正

PhraseListGrammar で音声認識エンジンを使用するときのメモリリークを修正しました (GitHub の問題)。
テキスト読み上げオープン接続 API のデッドロックを修正。

その他の注記

Java - 内部的に使用される一部の public Java API メソッドが、パッケージ internal、protected、または private に変更されました。アプリケーションでこれらが使用されることは想定されていないため、この変更は開発者に影響しません。透明性のためにここに示されています。

サンプル

独自のアプリケーションで学習言語を指定する方法に関する新しい発音評価のサンプル
- C#: サンプルコードを参照してください。
- C++: サンプルコードを参照してください。
- JavaScript: サンプルコードを参照してください。
- Objective-C: サンプルコードを参照してください。
- Python: サンプルコードを参照してください。
- Swift: サンプルコードを参照してください。

Speech SDK 1.29.0: 2023 年 6 月リリース

新機能

C++、C#、Java - 埋め込み音声翻訳 API のプレビュー。これで、クラウドに接続されていなくても音声翻訳を行うことができます。
JavaScript - 音声翻訳用の継続的言語識別 (LID) が使用可能になりました。
JavaScript - LocaleName クラスに VoiceInfo プロパティを追加するためのコミュニティのコントリビューション。 pull request に関して GitHub ユーザー shivsarthak に感謝します。
C++、C#、Java - 埋め込みのテキスト読み上げ出力を16 kHzから48 kHzのサンプルレートに再サンプリングするサポートを追加しました。
単純なパターンマッチングを使用した意図認識エンジンでの hi-IN ロケールのサポートが追加されました。

バグ修正

Android テストの一部で見られたような、オブジェクトの破棄中に音声認識エンジンの競合状態によって発生するクラッシュを修正しました
シンプルなパターンマッチャーを使用した意図認識エンジンで発生する可能性があるデッドロックを修正しました

サンプル

新しい埋め込み音声翻訳サンプル

Speech SDK 1.28.0: 2023 年 5 月のリリース

重大な変更

JavaScript SDK: オンライン証明書状態プロトコル (OCSP) が削除されました。これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。バージョン 1.28 以降には、カスタム OCSP モジュールが含まれなくなっています。

新機能

発話の最後に無音タイムアウトが発生すると、埋め込み音声認識で NoMatchReason::EndSilenceTimeout が返されるようになりました。これは、リアルタイム音声サービスを使用して認識を行う場合の動作と一致します。
JavaScript SDK: SpeechTranslationConfig 列挙値を使用して PropertyId にプロパティを設定します。

バグ修正

Windows 上の C# - Windows Audio 拡張機能で起こる可能性のある競合状態またはデッドロックを修正しています。両者がオーディオレンダラーを迅速に破棄し、さらにシンセサイザー方式を使用して読み上げを停止するというシナリオでは、基になるイベントが停止によってリセットされておらず、レンダラーオブジェクトが破棄されない原因となる可能性があり、その間に、破棄のグローバルロックが保持され、dotnet GC スレッドがフリーズする可能性があります。

サンプル

MAUI 用の埋め込み音声サンプルを追加しました。
テキスト読み上げを含むように Android Java 用の埋め込み音声サンプルを更新。

音声 SDK 1.27.0: 2023 年 4 月のリリース

今後の変更に関する通知

次の JavaScript SDK リリースで、オンライン証明書状態プロトコル (OCSP) を削除する予定です。これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。バージョン 1.27 は、カスタム OCSP モジュールを含む最後のリリースです。

新機能

JavaScript - 話者識別と検証を使用した、ブラウザーからのマイク入力のサポートが追加されました。
埋め込み音声認識 - PropertyId::Speech_SegmentationSilenceTimeoutMs 設定サポートの更新。

バグ修正

全般 - サービス再接続ロジックの信頼性を更新 (JavaScript を除く、すべてのプログラミング言語)。
全般 - Windows で文字列変換のメモリリークを修正 (JavaScript を除く、関連するすべてのプログラミング言語)。
埋め込み音声認識 - 特定の文法リストエントリを使用する場合のフランス語音声認識のクラッシュを修正。
ソースコードドキュメント - サービスのオーディオログに関連する SDK リファレンスドキュメントのコメントを修正。
意図認識 - リストエンティティに関連するパターンマッチャーの優先順位を修正。

サンプル

C# 会話の文字起こし (CTS) サンプルで認証エラーを適切に処理します。
Python、JavaScript、Objective-C、Swift のストリーミング発音評価の例を追加しました。

Speech SDK 1.26.0: 2023 年 3 月のリリース

重大な変更

ビットコードは、xcframework を使用した Cocoapod、NuGet (Xamarin および MAUI 用)、Unity の各パッケージ内のすべての iOS ターゲットで無効になりました。この変更は、Xcode 14 以降のビットコードサポートが Apple で廃止されたことによるものです。この変更は、Xcode 13 バージョンを使用している場合、または Speech SDK を使用してアプリケーションでビットコードを明示的に有効にしている場合は、"フレームワークにビットコードが含まれていないため、再構築する必要があります" というエラーが発生する可能性があることも意味します。この問題を解決するには、ターゲットでビットコードが無効になっていることを確認します。
このリリースでは、最小の iOS デプロイターゲットが 11.0 にアップグレードされています。つまり、armv7 HW はサポート対象外となります。

新機能

(デバイス上の) 埋め込み音声認識では、8 kHz と 16 kHz の両方のサンプリングレート入力オーディオ (サンプルあたり 16 ビット、モノラル PCM) がサポートされるようになりました。
音声合成では、エンドツーエンドの待機時間の最適化を助けるために、接続、ネットワーク、サービスの待機時間が結果に報告されるようになりました。
単純なパターンマッチングを使用した音声意図認識の新しいタイブレークルール。一致する文字バイト数が多い方が、文字バイト数が少ないパターンマッチより優先されます。例: パターン "Select {something} in the top right" は、"Select {something}" より優先されます

バグ修正

音声合成: ワード境界イベントで絵文字が正しくないバグを修正しました。
会話言語理解 (CLU) を使用した意図認識:
- CLU オーケストレーターワークフローの意図が正しく表示されるようになりました。
- プロパティ ID LanguageUnderstandingServiceResponse_JsonResult を使用して JSON の結果を入手できるようになりました。
キーワードのアクティブ化を使用した音声認識: キーワード認識後に最大 150 ミリ秒の音声が欠落する問題を修正しました。
(お客様から報告された) Speech SDK NuGet iOS MAUI リリースビルド (GitHub の問題) の修正

サンプル

お客様から報告された Swift iOS サンプル (GitHub の問題) の修正

Speech SDK 1.25.0: 2023 年 1 月のリリース

重大な変更

言語識別 (プレビュー) API が簡略化されました。 Speech SDK 1.25 に更新してビルドの中断が発生した場合は、「言語識別」ページにアクセスして、新しいプロパティ SpeechServiceConnection_LanguageIdMode について確認してください。この 1 つのプロパティは、2 つの以前のプロパティ SpeechServiceConnection_SingleLanguageIdPriority と SpeechServiceConnection_ContinuousLanguageIdPriority を置き換えます。最近のモデルの改善により、低待機時間と高精度の優先順位付けは不要になりました。現在必要なのは、継続的な音声認識または翻訳を行うときに、開始時または継続的な言語識別のどちらを実行するかを選択することだけです。

新機能

C#/C++/Java: Embedded Speech SDK が、限定的なパブリックプレビューでリリースされました。「埋め込み音声 (プレビュー)」のドキュメントを参照してください。クラウド接続が断続的または利用できない場合に、デバイス上で音声テキスト変換とテキスト読み上げを実行できるようになりました。 Android、Linux、macOS、Windows の各プラットフォームでサポートされています
C# MAUI: Speech SDK NuGet で iOS および Mac Catalyst ターゲット向けのサポートが追加されました (お客様の問題)
Unity: Android x86_64 アーキテクチャが Unity パッケージに追加されました (お客様の問題)
Go:
- 音声認識用に ALAW/MULAW ダイレクトストリーミングのサポートが追加されました (お客様の問題)
- PhraseListGrammar のサポートが追加されました。 GitHub ユーザー czkoko によるコミュニティへの貢献に感謝します。
C#/C++: Intent Recognizer で、Microsoft サービスでのオーケストレーションを使用した C++ および C# の会話言語理解モデルがサポートされるようになりました

バグ修正

KeywordRecognizer を停止しようとしたときにハングすることがある問題の修正
Python:
- PronunciationAssessmentGranularity.FullText が設定されている場合の発音評価結果の取得に関する修正 (お客様の問題)
- 合成音声を取得するときに男性音声の性別プロパティが取得されない問題の修正
JavaScript
- iOS デバイスで録音された一部の WAV ファイルの解析に関する修正 (お客様の問題)
- JS SDK が npm-force-resolutions を使用せずにビルドされるようになりました (お客様の問題)
- SpeechConfig.fromEndpoint() を使用して作成された speechConfig インスタンスの使用時に、Conversation Translator によってサービスエンドポイントが正しく設定されるようになりました

サンプル

埋め込み音声の使用方法を示すサンプルを追加しました
MAUI 用の音声テキスト変換サンプルを追加しました

Speech SDK サンプルリポジトリを参照してください。

Speech SDK 1.24.2: 2022 年 11 月リリース

新機能

新機能はなく、新しいモデルファイルをサポートするための埋め込みエンジンが修正されただけです。

バグ修正

すべてのプログラミング言語
- 埋め込み音声認識モデルの暗号化に関する問題が修正されました。

Speech SDK 1.24.1: 2022 年 11 月リリース

新機能

埋め込み音声プレビュー用のパッケージを公開しました。詳細については、「 https://aka.ms/embedded-speech 」を参照してください。

バグ修正

すべてのプログラミング言語
- 音声フォントがサポートされていないときの埋め込み TTS のクラッシュを修正
- Linux で stopSpeaking() を使用して再生を停止できない問題 (#1686) を修正
JavaScript SDK
- 会話の文字起こしでオーディオがゲートされる方法の回帰を修正しました。
ジャワ
- ドキュメントパイプラインでオンライン参照ドキュメントを更新できるように、更新された POM ファイルと Javadocs ファイルを Maven Central に一時的に公開しました。
パイソン
- Python の speak_text(ssml) から void が返される回帰を修正しました。

Speech SDK 1.24.0: 2022 年 10 月リリース

新機能

すべてのプログラミング言語: AMR-WB (16khz) が、サポートされているテキスト読み上げオーディオ出力形式の一覧に追加されました
Python: サポートされている Linux ディストリビューション向けに Linux Arm64 用のパッケージが追加されました。
C#/C++/Java/Python: AudioStreamWaveFormat を使用した音声サービスへの ALAW & MULAW ダイレクトストリーミングのサポートが (既存の PCM ストリームに加えて) 追加されました。
C# MAUI: .NET MAUI 開発者向けに、NuGet パッケージが Android ターゲットをサポートするように更新されました (お客様の問題)
Mac: iOS バイナリを含まない、独立した XCframework for Mac を追加しました。これにより、比較的小さな XCframework パッケージを使用する Mac バイナリのみを必要とする開発者向けのオプションが提供されます。
Microsoft Audio Stack (MAS):
- ビーム形成角度を指定すると、指定範囲外の音がより効果的に抑制されます。
- Linux ARM32 および Linux Arm64 の libMicrosoft.CognitiveServices.Speech.extension.mas.so のサイズが約 70% 削減されます。
パターンマッチングを使用した意図認識:
- fr、de、es、jp 言語の正書法のサポートを追加しました
- es 言語の事前構築済みの整数サポートが追加されました。

バグ修正

iOS: 圧縮された音声のデコードエラーによって起こる、iOS 16 での音声合成エラーを修正しました (お客様の問題)。
JavaScript:
- 音声合成の音声リストを取得するときに認証トークンが機能しない問題を修正しました (お客様の問題)。
- ワーカーの読み込みにデータ URL が使用されます (お客様の問題)。
- AudioWorklet がブラウザーでサポートされている場合にのみ、オーディオプロセッサワークレットが作成されます (お客様の問題)。これには、William Wong さんがコミュニティで貢献されました。 William さん、ありがとうございました。
- LUIS 応答 connectionMessage が空の場合に認識されるコールバックを修正しました (お客様の問題)。
- 音声セグメント化のタイムアウトを適切に設定しました。
パターンマッチングを使用した意図認識:
- モデル内の json 以外の文字が正しく読み込まれるようになりました。
- 継続的な認識時に recognizeOnceAsync(text) が呼び出されるとハングする問題を修正しました。

Speech SDK 1.23.0: 2022 年 7 月リリース

新機能

C#、C++、Java: パターンマッチングを使用した意図認識で言語 zh-cn と zh-hk のサポートが追加されました。
C#: AnyCPU .NET Framework ビルドのサポートを追加しました

バグ修正

Android: OpenSSL を 1.1.1q に更新することで、OpenSSL の脆弱性 CVE-2022-2068 を修正しました
Python: PushAudioInputStream を使用したときのクラッシュを修正します
iOS: iOS で報告された "EXC_BAD_ACCESS: null ポインターを逆参照しようとしました" を修正しました (GitHub の問題)

Speech SDK 1.22.0: 2022 年 6 月リリース

新機能

Java: "単純なパターンマッチング" エンジンをサポートするために、getEntities()、applyLanguageModels()、recognizeOnceAsync(text) 用の IntentRecognitionResult API が追加されました。
Unity: Mac M1 (Apple Silicon) for Unity パッケージのサポートを追加しました (GitHub 問題)
C#: Xamarin Android の x86_64 のサポートを追加しました (GitHub 問題)
C#: v4.6.1 が廃止されたため、SDK C# パッケージ用の .NET Framework の最小バージョンが v4.6.2 に更新されました (Microsoft .NET Framework コンポーネントライフサイクルポリシーに関するページを参照)
Linux:Debian 11 および Ubuntu 22.04 LTS のサポートを追加しました。 Ubuntu 22.04 LTS では、ここからバイナリパッケージ (例: x64 の場合は libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 以降) として、またはソースからコンパイルして libssl1.1 を手動でインストールする必要があります。

バグ修正

UWP: セキュリティコンプライアンスを満たしてバイナリ占有領域を減らすために、OpenSSL の依存関係が UWP ライブラリから削除され、WinRT WebSocket と HTTP API で置き換えられました。
Mac: macOS プラットフォームをターゲットとする Swift プロジェクトを使用する場合の "MicrosoftCognitiveServicesSpeech モジュールが見つかりません" の問題を修正しました
Windows、Mac: リアルタイムの速度でストリーミングするようにプロパティを介して構成されたオーディオソースが遅れて、最終的には容量を超えることがあるというプラットフォーム固有の問題を修正しました

サンプル (GitHub)

C#: v4.6.2 を使用するように .NET Framework サンプルが更新されました
Unity: Android および UWP 用に仮想アシスタントのサンプルが修正されました
Unity: Unity 2020 LTS バージョン用に Unity サンプルが更新されました

Speech SDK 1.21.0: 2022 年 4 月のリリース

新機能

Java および JavaScript: SpeechRecognizer オブジェクトを使用するときの継続的な言語識別のサポートが追加されました
JavaScript: コンソールログレベルと (ノードのみの) ファイルログを有効にする診断 API が追加されました。これは、Microsoft がお客様から報告された問題のトラブルシューティングを行うときに役立ちます。
Python: 会話の文字起こしのサポートが追加されました。
Go: 話者認識のサポートが追加されました。
C++ および C#: 意図認識エンジン (単純なパターンマッチング) での必須単語グループのサポートが追加されました。例: "(set|start|begin) a timer" では、意図が認識されるために "set"、"start"、"begin" のいずれかが存在している必要があります。
すべてのプログラミング言語、音声合成: ワード境界イベントに duration プロパティが追加されました。句読点の境界と文の境界のサポートが追加されました。
Objective-C/Swift/Java: 発音評価結果オブジェクトに単語レベルの結果が追加されました (C# と同様)。アプリケーションで、単語レベルの情報を取得するために JSON 結果文字列を解析する必要がなくなりました (GitHub の問題)。
iOS プラットフォーム: ARMv7 アーキテクチャの実験的なサポートが追加されました。

バグ修正

iOS プラットフォーム: CocoaPod 使用時に "任意の iOS デバイス" を対象とした構築を可能にする修正が行われました (GitHub の問題)
Android プラットフォーム: セキュリティの脆弱性 CVE-2022-0778 を修正するために、OpenSSL のバージョンが 1.1.1n に更新されました。
JavaScript: WAV ヘッダーでファイルサイズが更新されない問題が修正されました (GitHub の問題)
JavaScript: 翻訳シナリオを中断させる要求 ID の同期解除の問題が修正されました (GitHub の問題)。
JavaScript: ストリームのない SpeakerAudioDestination をインスタンス化するときの問題が修正されました (GitHub の問題)。
C++: C++17 以降でコンパイルするときの警告を取り除くように C++ ヘッダーが修正されました。

サンプル GitHub

言語識別を使用する音声認識に関する新しい Java サンプル
会話の文字起こしに関する新しい Python と Java のサンプル
話者認識に関する新しい Go サンプル
デバイス ID を検出するためにすべてのオーディオキャプチャおよびレンダリングデバイスを列挙する、Windows 用の新しい C++ および C# ツール。この ID は、既定以外のデバイスとの間でオーディオのキャプチャやレンダリングを行う場合に Speech SDK で必要となります。

Speech SDK 1.20.0: 2022 年 1 月のリリース

新機能

Objective-C、Swift、Python: 音声アシスタントのシナリオで使用される DialogServiceConnector のサポートが追加されました。
Python: Python 3.10 のサポートが追加されました。 Python 3.6 のサポートは、Python の 3.6 のサポート終了に従って削除されました。
Unity: Speech SDK が Linux 上の Unity アプリケーションでサポートされるようになりました。
C++、C#: パターンマッチングを使用した IntentRecognizer が C# でサポートされるようになりました。さらに、カスタムエンティティ、オプションのグループ、およびエンティティの役割を使用するシナリオが、C++ および C# でサポートされるようになりました。
C++、C#: 新しいクラス Filelogger、MemoryLogger、および EventLogger を使用した診断トレースログが改善されました。 SDK のログは、お客様から報告された問題を診断するための重要なツールです。これらの新しいクラスにより、お客様は Speech SDK のログを独自のログ記録システムに簡単に統合できます。
すべてのプログラミング言語: PronunciationAssessmentConfig に、目的の音素アルファベット (IPA または SAPI) と N 最適な音素カウントを設定するプロパティが用意されました (GitHub の問題 1284 に従って構成 JSON を作成する必要がありません)。また、音節レベルの出力がサポートされるようになりました。
Android、iOS、macOS (すべてのプログラミング言語): 帯域幅が制限されたネットワークをサポートするための GStreamer は不要になりました。 SpeechSynthesizer は、オペレーティングシステムのオーディオデコード機能を使用して、テキスト読み上げサービスからストリーミングされた圧縮オーディオをデコードするようになりました。
すべてのプログラミング言語: SpeechSynthesizer は、ライブストリーミングのシナリオで広く使用されている 3 つの新しい未加工出力 Opus 形式 (コンテナーなし) をサポートするようになりました。
JavaScript: サポートされている合成音声の一覧を取得する getVoicesAsync () API を SpeechSynthesizer に追加しました (GitHub の問題 1350)
JavaScript: PCM 以外の Wave 形式をサポートする getWaveFormat () API を AudioStreamFormat に追加しました (GitHub の問題 452)
JavaScript: volume getter/setter と mute()/unmute() API を SpeakerAudioDestination に追加しました (GitHub の問題 463)

バグ修正

C++、C#、Java、JavaScript、Objective-C、Swift: PushAudioInputStream を使用する音声認識エンジンの停止中の 10 秒の遅延を削除する修正。これは、StopContinuousRecognition の呼び出し後に新しいオーディオがプッシュされない場合が対象です (GitHub の問題 1318、331)。
Android および UWP 上の Unity: UWP、Android Arm64、Windows Subsystem for Android (WSA) Arm64 において、Unity メタファイルが修正されました (GitHub の Issue 番号 1360)
iOS: CocoaPods を用しているときに、任意の iOS デバイスで Speech SDK アプリケーションをコンパイルできるようになりました (GitHub の問題 1320)
iOS: SpeechSynthesizer がスピーカーに直接オーディオを出力するように構成されている場合、まれに先頭で再生が停止します。これは修正されました。
JavaScript: オーディオワークレットが見つからない場合にマイク入力にスクリプトプロセッサフォールバックを使用します (GitHub の問題 455)
JavaScript: Sentry 統合によって検出されたバグを軽減するために、エージェントにプロトコルを追加します (GitHub の問題 465)

サンプル GitHub

詳細な認識結果を取得する方法を示す C++、C#、Python、Java のサンプル。詳細には、別の認識結果、信頼度スコア、字句形成、正規化された形式、マスクされた正規化形式、それぞれに対するワードレベルのタイミングが含まれます。
外部オーディオソースとして AVFoundation を使用する iOS サンプルが追加されました。
WordBoundary イベントを使用して SRT (SubRip テキスト) 形式を取得する方法を示す Java サンプルが追加されました。
発音評価のための Android サンプル。
新しい診断ログクラスの使用方法を示す C++、C#。

Speech SDK 1.19.0: 2021 年 11 月のリリース

ハイライト

Speaker Recognition サービスの一般提供 (GA) が開始されました。 Speech SDK API は、C++、C#、Java、および Javascript で利用できます。 Speaker Recognition を使用すると、話者固有の音声特性により、正確に検証および識別することができます。このトピックの詳細については、ドキュメントを参照してください。
Ubuntu 16.04 のサポートは Azure DevOps および GitHub とともに終了しました。 Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Ubuntu 16.04 のワークフローは、Ubuntu 18.04 以降に移行してください。
Linux バイナリの OpenSSL リンクは動的に変更されました。 Linux バイナリサイズが約 50% 削減されました。
Mac M1 ARM ベースのシリコンのサポートが追加されました。

新機能

C++/C#/Java: Microsoft Audio Stack を使用した音声入力のオーディオ処理のサポートを有効にする新しい API が追加されました。こちらのドキュメントを参照してください。
C++ : より高度なパターンマッチングを容易にするための、意図認識用の新しい API が追加されました。これには List や Prebuilt Integer エンティティのほか、意図やエンティティをモデルとしてグループ化することに対応しています (ドキュメント、アップデート、サンプルは現在開発中で、今後公開される予定です)。
Mac: GitHub の Issue 番号 1244 に関連して、CocoaPod、Python、Java、NuGet パッケージの Arm64 (M1) ベースのシリコンがサポートされるようになりました。
iOS/Mac: GitHub の Issue 番号 919 に関連して、iOS と macOS のバイナリが xcframework にパッケージされるようになりました。
iOS/Mac: GitHub の Issue 番号 1171 に関連して、Mac catalyst がサポートされるようになりました。
Linux: Speech SDK について、CentOS7 向けの新しい tar パッケージが追加されました。 Linux .tar パッケージに、lib/centos7-x64 のRHEL/CentOS 7 用の特定のライブラリが含まれるようになりました。 lib/x64 の Speech SDK ライブラリは、サポートされている他のすべての Linux x64 ディストリビューション (RHEL/CentOS 8 を含む) に引き続き適用され、RHEL/CentOS 7 では機能しません。
Javascript: VoiceProfile と SpeakerRecognizer の API が非同期または待避可能になりました。
Javascript: US Government Azure リージョンのがサポートされるようになりました。
Windows: ユニバーサル Windows プラットフォーム (UWP) で再生がサポートされるようになりました。

バグ修正

Android: Android パッケージの OpenSSL のセキュリティアップデート (バージョン 1.1.1l に更新)
Python: python でスピーカーデバイスを選択できないバグを修正しました。
Core: 接続の試行が失敗したときに自動的に再接続するようになりました。
iOS: GStreamer を使用する際の不安定さとビットコードビルドの問題により、iOS パッケージでのオーディオ圧縮を無効にしました。詳細については、GitHub の Issue 番号 1209 を参照してください。

サンプル GitHub

Mac/iOS: xcframework パッケージを使用するようサンプルとクイックスタートが更新されました。
.NET: .NET core 3.1 バージョンを使用するようにサンプルが更新されました。
Javascript: 音声アシスタントのサンプルが追加されました。

Speech SDK 1.18.0: 2021 年 7 月リリース

注: こちらから Speech SDK を開始してください。

要点の概要

Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Azure DevOps および GitHub とともに、16.04 のサポートは 2021 年 9 月をもって終了します。その前に、ubuntu-16.04 のワークフローを ubuntu-18.04 以降に移行してください。

新機能

C++ : 単純な言語パターンマッチングと意図認識エンジンにより、単純な意図認識シナリオの実装がいっそう容易になりました。
C++/C#/Java: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取る新しい API GetActivationPhrasesAsync() が VoiceProfileClient クラスに追加されました。
- 重要: Speaker Recognition 機能はプレビュー段階です。プレビューで作成された音声プロファイルはすべて、Speaker Recognition 機能がプレビューから一般提供に移行してから 90 日後に廃止されます。その時点で、プレビューの音声プロファイルは機能しなくします。
Python: 既存のおよび SpeechRecognizer オブジェクトに、TranslationRecognizerが追加されました。
Python: 1 回限りまたは継続的な LID (認識または翻訳はなし) を行うためのという名前のSourceLanguageRecognizerが追加されました。
JavaScript: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取るための getActivationPhrasesAsync API が VoiceProfileClient クラスに追加されました。
JavaScriptVoiceProfileClient の enrollProfileAsync API は、非同期対応になりました。使用例については、こちらの独立した識別コードを参照してください。

改善

Java: 多くの Java オブジェクトに AutoCloseable のサポートが追加されました。これで、リソースの解放に try-with-resources モデルがサポートされるようになります。 try-with-resources を使用するこちらのサンプルを参照してください。また、このパターンの詳細については、try-with-resources ステートメントに関する Oracle Java ドキュメントのチュートリアルも参照してください。
ディスクフットプリントが、多くのプラットフォームとアーキテクチャで大幅に削減されました。 Microsoft.CognitiveServices.Speech.core バイナリの例: x64 Linux は 475 KB 減少 (8.0% 削減)、Arm64 Windows UWP は 464 KB 減少 (11.5% 削減)、x86 Windows は 343 KB 減少 (17.5% 削減)、x64 Windows は 451 KB 減少 (19.4% 削減)。

バグ修正

Java: 合成テキストにサロゲート文字が含まれている場合の合成エラーを修正しました。詳細については、こちらを参照してください。
JavaScript: ブラウザーマイクのオーディオ処理で、非推奨の AudioWorkletNode ではなく ScriptProcessorNode が使用されるようになりました。詳細については、こちらを参照してください。
JavaScript: 実行時間の長い会話翻訳シナリオで、会話が正しく維持されるようになりました。詳細については、こちらを参照してください。
JavaScript: 認識エンジンが継続的な認識で mediastream に再接続する問題を修正しました。詳細については、こちらを参照してください。
JavaScript: 認識エンジンが継続的な認識で pushStream に再接続する問題を修正しました。詳細については、こちらを参照してください。
JavaScript: 詳細な認識結果での単語レベルのオフセット計算を修正しました。詳細については、こちらを参照してください。

サンプル

こちらの Java クイックスタートサンプルが更新されました。
enrollProfileAsync() の新しい使用方法を示すように、JavaScript の Speaker Recognition サンプルが更新されました。こちらでサンプルを参照してください。

Speech SDK 1.17.0: 2021 年 5 月のリリース

メモ

こちらから Speech SDK を開始します。

要点の概要

フットプリントの削減 - Speech SDK とそのコンポーネントのメモリとディスクのフットプリントを引き続き削減します。
新しいスタンドアロン言語識別 API を使用して、話されている言語を認識することができます。
macOS で Unity を使用して、音声対応の複合現実とゲームアプリケーションを開発します。
これで、Go プログラミング言語の音声認識に加えて、テキスト読み上げを使用できるようになりました。
重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。ご協力ありがとうございます。ぜひフィードバックをお寄せください。

新機能

C++/C#: SourceLanguageRecognizer API を介した新しいスタンドアロンの開始時および継続的な言語検出。オーディオコンテンツで話されている言語のみを検出する場合は、この API で可能です。 C++ および C# の詳細を参照してください。
C++/C#: 音声認識と翻訳認識で、開始時と継続的の両方の言語識別がサポートされるようになったため、文字起こしや翻訳が行われる前に、どの言語が話されているかをプログラムで判断できます。音声認識と Speech Translation のドキュメントを参照してください。
C#: macOS (x64) に Unity のサポートを追加しました。これにより、複合現実とゲームにおける音声認識と音声合成のユースケースのロックが解除されます。
Go: Go プログラミング言語に音声合成およびテキスト読み上げのサポートを追加して、さらに多くのユースケースで音声合成が利用できるようになりました。クイックスタートまたは Microsoft のリファレンスドキュメントを参照してください。
C++/C#/Java/Python/Objective-C/Go: 音声シンセサイザーで connection オブジェクトがサポートされるようになりました。これは、音声サービスへの接続を管理および監視するのに役立ち、待機時間を短縮するための事前接続に特に役立ちます。こちらのドキュメントを参照してください。
C++/C#/Java/Python/Objective-C/Go: 音声合成の待機時間の問題を監視および診断できるように、SpeechSynthesisResult で待機時間とアンダーラン時間を公開するようにしました。 C++、C#、Java、Python、Objective-C、Go のそれぞれの詳細を参照してください。
C++/C#/Java/Python/Objective-C: テキスト読み上げでは、使用する音声を指定しない場合、既定でニューラル音声が使用されるようになりました。これにより、既定でより忠実度の高い出力が得られますが、既定の価格も値上がりします。
C++/C#/Java/Python/Objective-C/Go: 性別に基づいて音声を選択しやすくするために、音声合成情報に Gender (性別) プロパティを追加しました。これは、GitHub イシュー #1055 に対応するものです。
C++、C#、Java、JavaScript: 特定のアカウントのすべての音声プロファイルのユーザー管理を容易するために、Speaker Recognition で retrieveEnrollmentResultAsync、getAuthorizationPhrasesAsync、getAllProfilesAsync() がサポートされるようになりました。 C++、C#、Java、JavaScript のそれぞれのドキュメントを参照してください。これは、GitHub イシュー #338 に対応するものです。
JavaScript: 接続エラーの再試行を追加しました。これにより、JavaScript ベースの音声アプリケーションの堅牢性が高まります。

改善

Linux および Android の Speech SDK バイナリは、最新バージョンの OpenSSL (1.1.1k) を使用するように更新されました。
コードサイズの改善:
- Language Understanding が別の "lu" ライブラリに分割されるようになりました。
- Windows x64 コアバイナリサイズが 14.4% 減少しました。
- Android Arm64 コアバイナリサイズが 13.7% 減少しました。
- その他のコンポーネントもサイズが減少しました。

バグ修正

すべて: ServiceTimeout の GitHub イシュー #842 を修正しました。このエラーで終了するサービスに接続しなくても、Speech SDK を使用して長いオーディオファイルの文字起こしができるようになりました。ただし、長いファイルに対しては、引き続きバッチ文字起こしを使用することをお勧めします。
C# : GitHub イシュー #947: 音声入力がないと、アプリが正常な状態でなくなる可能性がある問題を修正しました。
Java: GitHub イシュー #997: ネットワーク接続なしで DialogServiceConnector を使用したり、無効なサブスクリプションキーを使用すると、Speech SDK for Java 1.16 がクラッシュする問題を修正しました。
(コンソールアプリで CTRL + C キーを使用するなどして) 音声認識を突然停止したときのクラッシュを修正しました。
Java: Speech SDK for Java を使用しているときに、Windows 上の一時ファイルを削除する修正プログラムを追加しました。
Java: GitHub イシュー #994: DialogServiceConnector.stopListeningAsync を呼び出すとエラーになる可能性がある問題を修正しました。
Java: 仮想アシスタントのクイックスタートにおけるお客様の問題を修正しました。
JavaScript: GitHub イシュー #366: ConversationTranslator で "'this.cancelSpeech isn't a function" (this.cancelSpeech は関数ではありません) というエラーがスローされる問題を修正しました。
JavaScript: GitHub イシュー #298: "結果をインメモリストリームとして取得する" のサンプルが大音量で再生される問題を修正しました。
JavaScript: GitHub イシュー #350: AudioConfig を呼び出すと "ReferenceError: MediaStream isn't defined" (MediaStream が定義されていません) という結果になる場合がある問題を修正しました。
JavaScript: Node.js で長時間実行されているセッションに対する UnhandledPromiseRejection 警告を修正しました。

サンプル

更新された macOS 用の Unity サンプルのドキュメントは、こちらにあります。
Azure AI 音声認識サービスの React Native サンプルは、こちらから入手できるようになりました。

Speech SDK 1.16.0: 2021 年 3 月のリリース

メモ

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。

新機能

C++/C#/Java/Python: 最新バージョンの GStreamer (1.18.3) に移行し、Windows、Linux、および Android のあらゆるメディア形式の文字起こしのサポートが追加されました。こちらのドキュメントを参照してください。
C++、C#、Java、Objective-C、Python: 圧縮された TTS または合成オーディオのデコードのサポートが SDK に追加されました。出力オーディオ形式を PCM に設定し、システムで GStreamer を使用できる場合、SDK は圧縮されたオーディオをサービスに自動的に要求して、帯域幅を節約し、クライアントのオーディオをデコードします。 SpeechServiceConnection_SynthEnableCompressedAudioTransmission を false に設定し、この機能を無効にできます。 C++、C#、Java、Objective-C、Python の詳細。
JavaScript: Node.js ユーザーが AudioConfig.fromWavFileInput API を使用できるようになりました。これは、GitHub イシュー #252 に対応するものです。
C++、C#、Java、Objective-C、Python: 利用可能なすべての合成音声を返す、TTS 用の GetVoicesAsync() メソッドが追加されました。 C++、C#、Java、Objective-C、Python の詳細。
C++/C#/Java/JavaScript/Objective-C/Python: 同期口形素アニメーションを返す TTS または音声合成用に VisemeReceived イベントが追加されました。こちらのドキュメントを参照してください。
C++/C#/Java/JavaScript/Objective-C/Python: TTS 用に BookmarkReached イベントが追加されました。入力 SSML でブックマークを設定し、各ブックマークのオーディオオフセットを取得することができます。こちらのドキュメントを参照してください。
Java: Speaker Recognition API のサポートが追加されました。詳細については、こちらを参照してください。
C++/C#/Java/JavaScript/Objective-C/Python: TTS 用 WebM コンテナー (Webm16Khz16BitMonoOpus および Webm24Khz16BitMonoOpus) の 2 つの新しい出力オーディオ形式が追加されました。これらは、Opus コーデックを使用したオーディオのストリーミングに適した形式です。 Details for C++, C#, Java、JavaScript、Objective-C、Python の詳細。
C++、C#、Java: Speaker Recognition シナリオの音声プロファイルを取得するためのサポートが追加されました。 C++、C#、Java の詳細。
C++、C#、Java、Objective-C、Python: オーディオマイクとスピーカーコントロール用の別個の共有ライブラリのサポートが追加されました。これにより、開発者は、必要なオーディオライブラリの依存関係がない環境で、SDK を使用できるようになります。
Objective-C/Swift: アンブレラヘッダーを持つモジュールフレームワークのサポートが追加されました。これにより、開発者は、iOS/Mac Objective-C/Swift アプリで Speech SDK をモジュールとしてインポートできます。これは、GitHub イシュー #452 に対応するものです。
Python: Python 3.9 のサポートが追加され、Python の 3.5 のサポート終了に伴って Python 3.5 のサポートが停止しました。

既知の問題

C++/C#/Java: DialogServiceConnector は CustomCommandsConfig を使用して Custom Commands アプリケーションにアクセスすることはできません。代わりに、接続エラーが発生します。これは、config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) を使用してアプリケーション ID を要求に手動で追加することで回避できます。 CustomCommandsConfig の予期される動作は、次のリリースで復元されます。

改善

Speech SDK のメモリ使用量とディスクフットプリントを削減するための複数リリースの取り組みの一環として、Android バイナリのサイズが 3% から 5% 小さくなりました。
C# リファレンスドキュメント (こちらを参照) の正確性、読みやすさ、および関連項目のセクションが改善されました。

バグ修正

JavaScript: 大きな WAV ファイルヘッダーが正しく解析されるようになりました (ヘッダースライスが 512 バイトに増えます)。これは、GitHub イシュー #962 に対応するものです。
JavaScript: マイクのタイミングの問題を修正しました。これは、認識が停止する前にマイクのストリームが終了した場合に、Firefox で動作しない音声認識に関する問題を解決します。
JavaScript: turnOn が完了する前にブラウザーがマイクを強制的にオフにしたときに、初期化の Promise が正しく処理されるようになりました。
JavaScript: URL の依存関係を URL 解析に置き換えました。これは、GitHub イシュー #264 に対応するものです。
Android: minifyEnabled が true に設定されている場合、コールバックが機能しない問題を解決しました。
C++/C#/Java/Objective-C/Python: TTS が待ち時間を短縮するために、TCP_NODELAY は基になるソケット IO に正しく設定されるようになります。
C++/C#/Java/Python/Objective-C/Go: 認識エンジンが認識を開始した直後に破壊された場合に時々発生するクラッシュを修正しました。
C++/C#/Java: スピーカー認識エンジンが破壊された場合に時々発生するクラッシュを修正しました。

サンプル

JavaScript: ブラウザーのサンプルでは、別個の JavaScript ライブラリファイルのダウンロードは不要になりました。

Speech SDK 1.15.0: 2021 年 1 月のリリース

メモ

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。

要点の概要

メモリとディスクの占有領域を小さくすることによる SDK の効率向上。
カスタムニューラル音声のプライベートプレビューで使用できる再現性の高い出力形式。
意図認識エンジンで最上位の意図以外を返すことができるようになり、顧客の意図について個別の評価を行うことができます。
音声アシスタントやボットの設定が簡単になりました。リスニングを直ちに停止できるほか、エラーへの対処方法をより細かく制御できます。
圧縮をオプションにすることで向上したデバイスのパフォーマンス。
Windows ARM と Arm64 で Speech SDK を使用します。
改善された低レベルのデバッグ。
発音評価機能をより広く利用できるようになりました。
重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。ご協力ありがとうございます。ぜひフィードバックをお寄せください。

改善

Speech SDK がより効率的で軽量になりました。 Speech SDK のメモリ使用量とディスク占有領域を削減するための複数リリースの取り組みが開始されました。最初のステップとして、ほとんどのプラットフォームで共有ライブラリのファイルサイズを大幅に削減しました。 1.14 リリースと比較すると次のようになります。
- 64 ビット UWP 互換 Windows ライブラリは、約 30% 小さくなります。
- 32 ビット Windows ライブラリは、まだサイズが改善されていません。
- Linux ライブラリは、20 から 25% 小さくなります。
- Android ライブラリは、3 から 5% 小さくなります。

新機能

すべて: TTS 音声合成 API を介したカスタムニューラル音声のプライベートプレビューで使用できる新しい 48KHz 出力形式: Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。
[すべて] : カスタム音声も使いやすくなっています。 EndpointId によるカスタム音声の設定のサポートが追加されました (EndpointId、C#、Java、JavaScript、Objective-C、Python)。この変更の前は、カスタム音声ユーザーは FromEndpoint メソッドを使用してエンドポイント URL を設定する必要がありました。標準音声と同様に FromSubscription 方法を使用し、 EndpointIdを設定してデプロイ ID を指定できるようになりました。これにより、カスタム音声の設定が簡単になります。
CC++/C#/Java/Objective-C/Python: IntentRecognizer から最上位の意図以外を取得します。 LanguageUnderstandingModel FromEndpoint メソッドで verbose=true URI パラメーターを使用することにより、トップスコアの意図だけでなく、すべての意図が含まれる JSON 結果の構成がサポートされるようになりました。これは、GitHub イシュー #880 に対応するものです。こちらで更新されたドキュメントを参照してください。
C++、C#、Java: 音声アシスタントまたはボットのリスニングをすぐに停止します。 DialogServiceConnector (C++、C#、Java) に、StopListeningAsync() に付随する ListenOnceAsync() メソッドが用意されました。これにより、オーディオキャプチャが直ちに停止され、結果が適切に待機されるので、"今すぐ停止" ボタンがクリックされたときのシナリオに最適です。
C++、C#、Java、JavaScript: 音声アシスタントまたはボットによる基になるシステムのエラーへの対応が向上します。 DialogServiceConnector (C++、C#、Java、JavaScript) に、新しい TurnStatusReceived イベントハンドラーが追加されました。これらのオプションイベントは、ボット内の各ITurnContext解決策に対応し、ターンの実行失敗が発生した場合に報告されます。例えば、未処理の例外、タイムアウト、またはDirect Line Speechとボット間のネットワーク切断の結果などです。 TurnStatusReceived により、エラー状態への対応が簡単になります。たとえば、ボットによるバックエンドデータベースクエリ (製品の検索など) の時間が長すぎる場合、TurnStatusReceived を使用することにより、クライアントで "申し訳ありません、よく聞き取れませんでした。もう一度試していただけますか" といったメッセージを再表示できます。
C++、C# : Speech SDK を使用できるプラットフォームが増えます。 Speech SDK NuGet パッケージで、Windows ARM および Arm64 デスクトップネイティブバイナリがサポートされるようになり (UWP は既にサポートされています)、より多くのマシンの種類で Speech SDK を使用できるようになります。
Java: DialogServiceConnector に、以前に言語から意図せずに除外された setSpeechActivityTemplate() メソッドが含まれるようになりました。これは、Conversation_Speech_Activity_Template プロパティを設定することと同じであり、Direct Line Speech サービスによって生成される将来のすべての Bot Framework アクティビティで、提供されたコンテンツを JSON ペイロードにマージするよう要求されます。
Java: 改善された低レベルのデバッグ。 Connection クラスに、他のプログラミング言語 (C++、C#) と同様の MessageReceived イベントが追加されました。このイベントにより、サービスからの受信データへの低レベルのアクセスが提供され、診断やデバッグに役立ちます。
JavaScript: BotFrameworkConfig による音声アシスタントとボットのセットアップが簡単になりました。手動でのプロパティの設定と比べて、カスタムサービスの場所を簡単に使用できる fromHost() および fromEndpoint() ファクトリメソッドが追加されました。また、構成ファクトリ全体で既定以外のボットを使用するための、botId のオプションの指定が標準化されました。
JavaScript:WebSocket 圧縮のための文字列制御プロパティが追加されたことで、デバイスのパフォーマンスが向上しました。パフォーマンス上の理由から、WebSocket の圧縮は既定では無効になりました。低帯域幅のシナリオでは、これを再び有効にすることができます。詳細については、こちらをご覧ください。これは、GitHub イシュー #242 に対応するものです。
JavaScript: 音声の発音を評価できるように、発音評価のサポートが追加されました。こちらのクイックスタートを参照してください。

バグ修正

すべて (JavaScript を除く): 認識エンジンによって割り当てられるメモリが多すぎる、バージョン 1.14 での回帰を修正しました。
C++: DialogServiceConnector でのガベージコレクションの問題を修正し、GitHub イシュー #794 に対処しました。
C# : オブジェクトが破棄されるときに約 1 秒間ブロックされる原因となったスレッドのシャットダウンに関する問題を修正しました。
C++/C#/Java: アプリケーションが DialogServiceConnector で音声認証トークンまたはアクティビティテンプレートを複数回設定できない例外を修正しました。
C++、C#、Java: 終了処理中の競合状態によるレコグナイザーのクラッシュを修正しました。
JavaScript: 以前は、DialogServiceConnector により、botId のファクトリで指定されたオプションの BotFrameworkConfig パラメーターが適用されていませんでした。このため、既定以外のボットを使用するには、botId クエリ文字列パラメーターを手動で設定する必要がありました。バグが修正され、botId のファクトリに提供された BotFrameworkConfig の値が尊重されて使用されるようになり、新しい fromHost() と fromEndpoint() の追加も含まれます。これは、applicationId の CustomCommandsConfig パラメーターにも適用されます。
JavaScript: GitHub のイシュー #881 が修正され、認識エンジンのオブジェクトを再利用できるようになりました。
JavaScript: SKD により 1 つの TTS セッションで speech.config が複数回送信され、帯域幅が浪費されていた問題を修正しました。
JavaScript:マイク認証でのエラー処理が簡略化され、ユーザーがブラウザーでマイク入力を許可していないときに、よりわかりやすいメッセージが表示されるようになりました。
JavaScript: および ConversationTranslator での型エラーが TypeScript ユーザーのコンパイルエラーを引き起こしていた ConversationTranscriber を修正しました。
Objective-C:Xcode 11.4 の iOS で GStreamer のビルドが失敗する問題を修正し、GitHub のイシュー #911 に対処しました。
Python: GitHub の issue #870 が修正され、"DeprecationWarning: the imp module is deprecated in favour of importlib" (DeprecationWarning: imp モジュールは非推奨であり、代わりに importlib を使用します) が削除されました。

サンプル

JavaScript ブラウザー用の From-file サンプルで、音声認識にファイルが使用されるようになりました。これは、GitHub イシュー #884 に対応するものです。

Speech SDK 1.14.0: 2020年10月リリース

メモ

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。

新機能

Linux:Debian 10 および Ubuntu 20.04 LTS のサポートを追加しました。
Python/Objective-C: KeywordRecognizer API のサポートを追加しました。ドキュメントはこちらです。
C++/Java/C#: HttpHeader を使用して任意の ServicePropertyChannel::HttpHeader のキーと値を設定するためのサポートを追加しました。
JavaScript: ConversationTranscriber API のサポートを追加しました。こちらのドキュメントを参照してください。
C++/C#: 新しい AudioDataStream FromWavFileInput メソッド (.WAV ファイル読み取り用) をこちら (C++) とこちら (C#) に追加しました。
C++/C#/Java/Python/Objective-C/Swift: テキスト読み上げ合成を停止する stopSpeakingAsync() メソッドを追加。こちら (C++)、こちら (C#)、こちら (Java)、こちら (Python)、およびこちら (Objective-C、Swift) のリファレンスドキュメントを参照してください。
C#, C++, Java: FromDialogServiceConnector() の接続および切断イベントを監視するために使用できる Connection 関数を DialogServiceConnector クラスに追加しました。こちら (C#)、こちら (C++)、およびこちら (Java) のリファレンスドキュメントを参照してください。
C++、C#、Java、Python、Objective-C、Swift: 発音評価のサポートが追加されました。これはスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。こちらのドキュメントをお読みください。

重大な変更

JavaScript:PullAudioOutputStream.read() の戻り値の型が、内部の Promise からネイティブな JavaScript の Promise に変更されました。

バグ修正

すべて: 特定の特殊文字を含む値が無視される 1.13 の SetServiceProperty での回帰を修正しました。
C# : ネイティブ DLL を見つけることができない Visual Studio 2019 の Windows コンソールのサンプルを修正しました。
C#: ストリームが KeywordRecognizer 入力として使用されている場合のメモリ管理でのクラッシュを修正しました。
ObjectiveC、Swift: ストリームがレコグナイザー入力として使用されている場合のメモリ管理でのクラッシュを修正しました。
Windows: UWP 上の BT HFP/A2DP との共存に関する問題を修正しました。
JavaScript:ログ記録を改善し、内部のデバッグとサービスの関連付けを支援するために、セッション ID のマッピングを修正しました。
JavaScript: 最初の呼び出しが行われた後に DialogServiceConnector 呼び出しが無効になる ListenOnce に対して修正を追加しました。
JavaScript:結果の出力が "単純" にしかならないという問題を修正しました。
JavaScript:macOS 上の Safari での継続的な認識の問題を修正しました。
JavaScript:要求スループットが高いシナリオでの CPU 負荷の軽減。
JavaScript:音声プロファイル登録結果の詳細へのアクセスを許可します。
JavaScript: IntentRecognizer での継続的な認識のための修正を追加しました。
C++/C#/Java/Python/Swift/ObjectiveC: IntentRecognizer の australiaeast と brazilsouth の不適切な URL を修正しました。
C++/C#: VoiceProfileType オブジェクト作成時の引数として VoiceProfile を追加しました。
C++/C#/Java/Python/Swift/ObjectiveC: 指定された位置から SPX_INVALID_ARG を読み取ろうとしたときに発生する可能性がある AudioDataStream を修正しました。
iOS: Unity 上の音声認識でのクラッシュを修正しました

サンプル

ObjectiveC: キーワード認識のサンプルをこちらに追加しました。
C#、JavaScript: 会話の文字起こしのクイックスタートをこちら (C#) とこちら (JavaScript) に追加しました。
C++、C#、Java、Python、Swift、ObjectiveC: 発音評価のサンプルをこちらに追加しました。

既知の問題

DigiCert Global Root G2 証明書は、HoloLens 2 および Android 4.4 (KitKat) によって既定ではサポートされておらず、Speech SDK を機能させるためにシステムに追加する必要があります。この証明書は、近い将来に HoloLens 2 の OS イメージに追加されます。 Android 4.4 のお客様は、更新された証明書をシステムに追加する必要があります。

COVID-19 簡易検査

過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします！

Speech SDK 1.13.0:2020 年 7 月リリース

メモ

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。

新機能

C# : 非同期での会話の文字起こしのサポートが追加されました。こちらのドキュメントを参照してください。
JavaScript: ブラウザーと Node.js の両方で、話者認識のサポートが追加されました。
JavaScript: 言語識別/言語 ID のサポートが追加されました。こちらのドキュメントを参照してください。
Objective-C: マルチデバイスの会話と会話の文字起こしのサポートが追加されました。
Python: Windows および Linux での Python 用圧縮オーディオサポートが追加されました。こちらのドキュメントを参照してください。

バグ修正

[すべて] : KeywordRecognizer で認識後にストリームが送られない原因となっていた問題が修正されました。
[すべて] : KeywordRecognitionResult から取得したストリームにキーワードが含まれていない原因となっていた問題が修正されました。
[すべて]: SendMessageAsync で、ユーザーがその待機を終えた後に、実際にネットワーク経由でメッセージが送信されないという問題が修正されました。
すべて: ユーザーが VoiceProfileClient::SpeakerRecEnrollProfileAsync メソッドを複数回呼び出し、呼び出しの完了を待機しなかった場合の、Speaker Recognition API のクラッシュが修正されました。
[すべて] : VoiceProfileClient クラスと SpeakerRecognizer クラスでのファイルログの有効化が修正されました。
JavaScript:ブラウザーが最小化されたときの調整の問題が修正されました。
JavaScript:ストリームでのメモリリークの問題が修正されました。
JavaScript:NodeJS からの OCSP 応答のキャッシュが追加されました。
Java: BigInteger フィールドが常に 0 を返す原因となっていた問題が修正されました。
iOS: iOS App Store で Speech SDK ベースのアプリを発行する場合の問題が修正されました。

サンプル

C++ :話者認識のサンプルコードがここに追加されました。

COVID-19 簡易検査

Speech SDK 1.12.1:2020 年 6 月リリース

新機能

C#、C++: Speaker Recognition プレビュー: この機能により、話者識別 (だれが話しているか) と話者認証 (話者が要求した本人か) が可能になります。概要に関するドキュメントを参照してください。

バグ修正

C#, C++: Speaker Recognition 1.12 で機能していなかったマイクの録音を修正しました。
JavaScript:FireFox および macOS と iOS 上の Safari でのテキスト読み上げが修正されました。
8 チャネルストリーム使用時の、会話の文字起こしでの Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。
マルチデバイス会話翻訳での Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。

サンプル

C#: Speaker Recognition のコードサンプル。
C++: Speaker Recognition のコードサンプル。
Java: Android での意図認識のコードサンプル。

COVID-19 簡易検査

Speech SDK 1.12.0: 2020年5月リリース

新機能

Go: 音声認識とカスタム音声アシスタントの新しい Go 言語サポート。開発環境をここでセットアップします。サンプルコードについては、以下の「サンプル」セクションを参照してください。
JavaScript: テキスト読み上げのためのブラウザーサポートを追加。こちらのドキュメントを参照してください。
C++、C#、Java: 新しい KeywordRecognizer オブジェクトと API が Windows、Android、Linux、および iOS プラットフォームでサポートされています。こちらのドキュメントをお読みください。サンプルコードについては、以下の「サンプル」セクションを参照してください。
Java: 翻訳サポートを含むマルチデバイスの会話機能を追加しました。こちらの参照ドキュメントを参照してください。

強化および最適化

JavaScript:ブラウザーマイクの実装を最適化し、音声認識の精度が向上しています。
Java: SWIG なしで直接 JNI 実装を使用するバインディングをリファクターしました。この変更により、Windows、Android、Linux、Mac で使用されるすべての Java パッケージのバインディングサイズが 10 分の 1 に縮小され、Speech SDK Java 実装のさらなる開発が容易になります。
Linux:最新の RHEL 7 固有の記載を含むようにサポートドキュメントを更新しました。
サービスエラーやネットワークエラーが発生した場合に接続を複数回試行するための接続ロジックを改善しました。
portal.azure.com の音声機能のクイックスタートページを更新して、開発者が Azure AI 音声体験の次のステップに進むことができるようになりました。

バグ修正

C#、Java:Linux ARM への SDK ライブラリの読み込みに関する問題を修正しました (32 ビットと 64 ビットの両方)。
C#: TranslationRecognizer、IntentRecognizer、および Connection オブジェクトのネイティブハンドルの明示的な破棄を修正しました。
C# : ConversationTranscriber オブジェクトのオーディオ入力の有効期間の管理を修正しました。
単純な語句から意図を認識するときに、IntentRecognizer の結果の理由が適切に設定されない問題を修正しました。
SpeechRecognitionEventArgs 結果のオフセットが正しく設定されない問題を修正しました。
WebSocket 接続を開く前に SDK がネットワークメッセージを送信しようとする際の競合状態を修正しました。参加者の追加中に TranslationRecognizer で再現されていました。
キーワード認識エンジンのメモリリークを修正しました。

サンプル

Go: 音声認識とカスタム音声アシスタントのクイックスタートを追加しました。サンプルコードはこちらを参照してください。
JavaScript: テキスト読み上げ、翻訳、および意図認識のクイックスタートを追加しました。
C# および Java (Android) のキーワード認識サンプル。

COVID-19 簡易検査

過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします！

Speech SDK 1.11.0:2020年 3月リリース

新機能

Linux: Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 のサポートが追加されました。
Linux: Linux ARM32 と Arm64 において C.NET Core C# のサポートが追加されました。詳細については、こちらをご覧ください。
C# および C++:UtteranceId で ConversationTranscriptionResult を追加しました。これは、すべての中間および最終的な音声認識の結果にわたる一貫性のある ID です。 C# および C++ の詳細。
Python: Language ID のサポートを追加しました。 GitHub リポジトリの speech_sample.py を参照してください。
Windows: すべての win32 コンソールアプリケーション向けに、Windows プラットフォームでの圧縮されたオーディオ入力形式のサポートを追加しました。詳細については、こちらを参照してください。
JavaScript: NodeJS で音声合成 (テキスト読み上げ) をサポートします。こちらをご覧ください。
JavaScript: 新しい API を追加して、すべての送受信メッセージを検査できるようにします。こちらをご覧ください。

バグ修正

C# および C++:SendMessageAsync がバイナリ型としてバイナリメッセージを送信するよう、問題を修正しました。 C# および C++ の詳細。
C# および C++:Connection MessageReceived オブジェクトの前に Recognizer が破棄された場合に Connection イベントを使用するとクラッシュが発生する問題を修正しました。 C# および C++ の詳細。
Android: マイクからのオーディオバッファーサイズが 800ms から 100ms に減少し、待機時間が短縮されます。
Android:Android Studio の x86 Android emulator に関する問題を修正しました。
JavaScript:fromSubscription API の中国のリージョン向けのサポートが追加されました。詳細については、こちらを参照してください。
JavaScript:NodeJS からの接続失敗のエラー情報を追加します。

サンプル

Unity:意図認識パブリックサンプルで LUIS json インポートに失敗する問題が修正されました。詳細については、こちらを参照してください。
Python: Language ID 向けに追加されたサンプル。詳細については、こちらを参照してください。

Covid19 により、テストの短縮を余儀なくされました過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動によるデバイス検証テストを行うことができませんでした。たとえば、Linux、iOS、macOS でのマイクの入力とスピーカー出力のテストができませんでした。これらのプラットフォームにおいては、問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
今後とも、どうぞよろしくお願いいたします。これまでと同様、GitHub や Stack Overflow での質問やフィードバックの投稿をお待ちしています。
皆様の健康をお祈りします！

Speech SDK 1.10.0: 2020 年 2 月リリース

新機能

Python の新しい 3.8 リリースをサポートするために Python パッケージが追加されしました。
Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 のサポート (C++、C#、Java、Python)。

メモ

ユーザーは、こちらの手順に従って OpenSSL を構成する必要があります。
Debian および Ubuntu に対する Linux ARM32 のサポート。
DialogServiceConnector で、BotFrameworkConfig の省略可能な "ボット ID" パラメーターがサポートされるようになりました。このパラメーターを使用すると、単一の Speech リソースで複数の Direct Line Speech ボットを使用できます。パラメーターの指定がない場合は、既定のボット ([Direct Line Speech チャネルの構成] ページによって決まります) が使用されます。
DialogServiceConnector に SpeechActivityTemplate プロパティが含まれるようになりました。この JSON 文字列の内容は Direct Line Speech ボットに到達すべてのアクティビティでサポートされるさまざまなフィールドを事前設定するために Direct Line Speech によって使用されます。これには、音声認識などのイベントに対する応答で自動的に生成されるアクティビティも含まれます。
TTS で認証にサブスクリプションキーが使用されるようになり、シンセサイザーを作成した後の最初の合成結果の最初のバイト待機時間が短縮されました。
19 のロケールの音声認識モデルが更新され、平均ワードエラー率が 18.6% 下がりました (es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR)。新しいモデルでは、ディクテーション、コールセンターの文字起こし、ビデオのインデックス作成を含む複数の領域にわたる大幅な機能強化が行われています。

バグ修正

JAVA API で Conversation Transcriber が正しく待機しないバグを修正しました。
欠落していた (Get|Set)Property メソッドが AudioConfig に追加されました。
接続に失敗したときに audioDataStream を停止できない TTS バグを修正しました。
リージョンなしでエンドポイントを使用すると、会話トランスレーターで USP エラーが発生します。
ユニバーサル Windows アプリケーションでの ID の生成で、適切に一意の GUID アルゴリズムが使用されるようになりました。これまでは、大規模なインタラクションでしばしば競合を発生させるスタブ実装に意図せずに既定で設定されていました。

サンプル

Unity マイクとプッシュモードストリーミングで Speech SDK を使用するための Unity サンプル

その他の変更点

Linux 用の OpenSSL 構成ドキュメントが更新されました

Speech SDK 1.9.0:2020 年 1 月のリリース

新機能

マルチデバイスの会話: 複数のデバイスを同じ音声またはテキストベースの会話に接続し、それらの間で送信されるメッセージを必要に応じて翻訳します。詳しくは、こちらの記事をご覧ください。
Android の .aar パッケージ用のキーワード認識サポートが追加され、x86 と x64 のフレーバーのサポートが追加されました。
Objective-C: SendMessage および SetMessageProperty メソッドが Connection オブジェクトに追加されました。こちらのドキュメントを参照してください。
TTS C++ api で、合成テキスト入力として std::wstring がサポートされるようになり、SDK に渡す前に wstring を string に変換する必要がなくなりました。詳細については、こちらを参照してください。
C#:言語 ID とソース言語構成を使用できるようになりました。
JavaScript:カスタムメッセージをコールバック Connection として音声サービスからパススルーする機能を receivedServiceMessage オブジェクトに追加しました。
JavaScript: オンプレミスのコンテナーとソブリンクラウドでの使用を容易にするために、FromHost API のサポートが追加されました。こちらのドキュメントを参照してください。
JavaScript: NODE_TLS_REJECT_UNAUTHORIZED からの投稿により、が適用されるようになりました。詳細については、こちらを参照してください。

重大な変更

OpenSSL はバージョン 1.1.1b に更新され、Linux の Speech SDK コアライブラリに静的にリンクされています。これにより、システムの OpenSSL ディレクトリに受信トレイ /usr/lib/ssl がインストールされていない場合に、中断が発生する可能性があります。この問題を回避するには、Speech SDK ドキュメントにあるドキュメントを確認してください。
音声データが 2 分を超えた場合に WordLevelTimingResult.Offset にアクセスできるように、C# int に返されるデータ型を long から WordLevelTimingResults に変更しました。
PushAudioInputStream および PullAudioInputStream は、作成時にオプションで指定された AudioStreamFormat に基づいて wav ヘッダー情報を音声サービスに送信するようになりました。お客様は、サポートされるオーディオ入力の形式を使用する必要があります。他の形式では、最適な認識結果が得られないか、その他の問題が発生する可能性があります。

バグ修正

上記の「重大な変更」にある OpenSSL の更新情報を参照してください。 Linux と Java の断続的なクラッシュとパフォーマンスの問題 (高負荷でのロックの競合) の両方を修正しました。
Java:コンカレンシーの高いシナリオでのオブジェクトクロージャが改善されました。
NuGet パッケージを再構築しました。 lib フォルダーの下にある Microsoft.CognitiveServices.Speech.core.dll と Microsoft.CognitiveServices.Speech.extension.kws.dll の 3 つのコピーを削除し、NuGet パッケージを小さく、速くダウンロードできるようにし、いくつかの C++ ネイティブアプリをコンパイルするために必要なヘッダーを追加しました。
こちらのクイックスタートサンプルを修正しました。これらは、Linux、macOS、Windows で「microphone not found」(マイクが見つかりません) という例外を表示せずに終了していました。
こちらのサンプルのような特定のコードパスでの長い音声認識結果による SDK のクラッシュを修正しました。
こちらのお客様の問題に対処するために、Azure Web アプリ環境の SDK デプロイエラーを修正しました。
複数の <voice> タグまたは <audio> タグを使用して、この顧客問題に対処する際の TTS エラーを修正しました。
SDK が中断から回復されたときの TTS 401 エラーを修正しました。
JavaScript:euirim からの投稿により、オーディオデータの循環インポートを修正しました。
JavaScript: 1.7 で追加されたサービスプロパティの設定のサポートが追加されました。
JavaScript: 接続エラーにより WebSocket の再接続試行が連続して失敗する可能性がある問題を修正しました。

サンプル

Android 用のキーワード認識サンプルをこちらに追加しました。
サーバーシナリオ用の TTS サンプルをこちらに追加しました。
C# と C++ 用のマルチデバイス会話のクイックスタートをこちらに追加しました。

その他の変更点

Android の SDK コアライブラリのサイズが最適化されています。
1\.9.0 以降の SDK で、会話の文字起こしの声紋バージョンフィールドで int と string の両方の型がサポートされます。

Speech SDK 1.8.0: 2019-November リリース

新機能

オンプレミスコンテナーとソブリンクラウドでの使用を容易にするために FromHost() API を追加しました。
音声認識のソース言語識別 (Java および C++) を追加しました
音声認識でしかるべきソース言語を指定するための SourceLanguageConfig オブジェクトを追加しました (Java および C++)
NuGet パッケージと Unity パッケージを通じて、Windows (UWP)、Android、iOS で新たに KeywordRecognizer を使用できるようになりました
非同期バッチで会話の文字起こしを行うための Remote Conversation Java API を追加しました。

重大な変更

会話の文字起こし機能が名前空間 Microsoft.CognitiveServices.Speech.Transcription の下に移動されました。
会話の文字起こし機能の一部のメソッドが、新しい Conversation クラスに移されました。
32 ビット (ARMv7 および x86) iOS のサポートが終了しました。

バグ修正

有効な音声サービスのサブスクリプションキーなしでローカル KeywordRecognizer を使用した場合に発生するクラッシュを修正しました

サンプル

KeywordRecognizer の Xamarin サンプル
KeywordRecognizer の Unity サンプル
自動ソース言語識別の C++ および Java サンプル

Speech SDK 1.7.0: 2019-September リリース

新機能

ユニバーサル Windows プラットフォーム (UWP)、Android、iOS での Xamarin のベータサポートが追加されました
Unity の iOS サポートが追加されました
Android、iOS、Linux での ALaw、Mulaw、FLAC に対する Compressed 入力のサポートが追加されました
メッセージをサービスに送信するための SendMessageAsync が Connection クラスに追加されました
メッセージのプロパティを設定するための SetMessageProperty が Connection クラスに追加されました
TTS で Java (JRE と Android)、Python、Swift、Objective-C に対するバインドが追加されました
TTS で macOS、iOS、Android に対する再生のサポートが追加されました。
TTS に対して「単語の境界」情報が追加されました。

バグ修正

Unity 2019 for Android での IL2CPP のビルドの問題が修正されました
wav ファイルの入力が正しく処理されない、間違った形式のヘッダーに関する問題が修正されました
一部の接続プロパティで UUID が一意ではない問題が修正されました
Swift バインドでの NULL 値許容指定子に関するいくつかの警告が修正されました (小さなコード変更が必要な場合があります)
ネットワークに負荷がかかると WebSocket 接続が異常終了する原因となっていたバグが修正されました
DialogServiceConnector によって使用される印象 ID が重複することがある原因であった Android の問題が修正されました
複数ターン相互作用を通した接続の安定性と、Canceled でエラーが発生したときの (DialogServiceConnector イベント経由による) エラーの報告が向上しました
DialogServiceConnector セッションの開始により、アクティブな ListenOnceAsync() の間に StartKeywordRecognitionAsync() を呼び出すなど、イベントが正しく提供されるようになりました
DialogServiceConnector アクティビティの受信に関連するクラッシュが対処されました

サンプル

Xamarin のクイックスタート
Linux Arm64 の情報で CPP のクイックスタートを更新しました
iOS の情報で Unity のクイックスタートを更新しました

Speech SDK 1.6.0: 2019-June リリース

サンプル

UWP および Unity 上の Text to Speech 用のクイックスタートサンプル
iOS 上の Swift 用のクイックスタートサンプル
音声および意図の認識と翻訳用の Unity サンプル
DialogServiceConnector のクイックスタートサンプルが更新されました

機能強化/変更

Dialog 名前空間:
- SpeechBotConnector の名前が DialogServiceConnector に変更されました
- BotConfig の名前が DialogServiceConfig に変更されました
- BotConfig::FromChannelSecret() は DialogServiceConfig::FromBotSecret() に再マッピングされました
- 既存のすべての Direct Line Speech クライアントは、名前の変更後も引き続きサポートされます
TTS REST アダプターが更新され、プロキシ、固定接続がサポートされるようになりました
無効なリージョンが渡されたときのエラーメッセージを改善しました
Swift/Objective-C:
- エラー報告の改善: エラーが発生する可能性のあるメソッドが、2 つのバージョンで存在するようになりました。エラー処理のために NSError オブジェクトを公開するものと、例外を発生させるものです。前者は Swift に公開されます。この変更を既存の Swift コードに適応させる必要があります。
- イベント処理を改善しました

バグ修正

オーディオがレンダリングを完了するまで待たずに、SpeakTextAsync が制御を戻していた TTS の問題を修正しました
言語の完全サポートを可能にするために、C# での文字列のマーシャリングを修正しました
サンプルで net461 ターゲットフレームワークを使用してコアライブラリを読み込むときの .NET Core アプリの問題を修正しました
サンプルでネイティブライブラリを出力フォルダーに展開するときに発生する場合がある問題を修正しました
Web ソケットを確実に閉じるための修正を行いました
Linux で高負荷時に接続を開いたときに発生する可能性があるクラッシュを修正しました
macOS 用のフレームワークバンドルの欠落しているメタデータを修正しました
Windows での pip install --user に関する問題を修正しました

Speech SDK 1.5.1

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

バグ修正

会話の文字起こしで使用する FromSubscription を修正しました。
音声アシスタントのキーワードスポッティングのバグを修正しました。

Speech SDK 1.5.0:2019-May リリース

新機能

キーワードスポッティング機能 (KWS) が Windows と Linux で利用できるようになりました。 KWS の機能は任意の種類のマイクでも動作する可能性がありますが、公式の KWS サポートは、現時点では Azure Kinect DK ハードウェアまたは Speech Devices SDK 内のマイクアレイに限定されています。
フレーズヒント機能は、この SDK を介して利用できます。詳細については、このページを参照してください。
会話の文字起こし機能は、この SDK を介して利用できます。
Direct Line Speech チャネルを使用する音声アシスタントのサポートを追加します。

サンプル

SDK でサポートされている新機能または新サービスのサンプルを追加しました。

機能強化/変更

サービスの動作や結果を調整するために、冒涜的な表現のマスキングなど、さまざまなレコグナイザープロパティを追加しました。
レコグナイザー FromEndpoint を作成した場合でも、標準の構成プロパティを使用してレコグナイザーを構成できるようになりました。
Objective-C: OutputFormat プロパティが SPXSpeechConfiguration に追加されました。
SDK は、Linux ディストリビューションとして Debian 9 をサポートするようになりました。

バグ修正

テキスト読み上げで音声リソースが早すぎに破棄される問題を修正しました。

Speech SDK 1.4.2

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

Speech SDK 1.4.1

これは、JavaScript のみのリリースです。機能は追加されていません。以下の修正が行われました。

Web パックでHTTPS プロキシエージェントが読み込まれないようにしました。

Speech SDK 1.4.0: 2019 年 4 月リリース

新機能

SDK で、ベータ版としてテキスト読み上げサービスがサポートされるようになりました。 Windows および Linux デスクトップの C++ および C# からサポートされます。詳細については、テキスト読み上げの概要に関する記事を参照してください。
SDK は、ストリーム入力ファイルとして MP3 および Opus/OGG オーディオファイルをサポートするようになりました。この機能は、Linux の C++ と C# からのみ使用でき、現在はベータ版です (詳しくはこちら)。
Java、.NET Core、C++、Objective-C 用の Speech SDK で、macOS がサポートされるようになりました。 Objective-C での MacOS のサポートは、現在ベータ版です。
iOS:iOS (Objective-C) 用の Speech SDK が、CocoaPod としても公開されるようになりました。
JavaScript:入力デバイスとしての既定以外のマイクのサポート。
JavaScript:Node.js に対するプロキシのサポート。

サンプル

macOS の C++ および Objective-C での Speech SDK の使用のサンプルが追加されました。
テキスト読み上げサービスの使用方法を示すサンプルが追加されました。

機能強化/変更

Python: 認識結果の追加のプロパティが、properties プロパティで公開されるようになりました。
開発とデバッグの追加サポートでは、SDK のログ記録と診断情報をログファイルにリダイレクトすることができます (詳細についてはこちら)。
JavaScript:オーディオ処理のパフォーマンスが向上しました。

バグ修正

Mac/iOS: 音声サービスへの接続を確立できないときに、長時間待機が発生するバグを修正しました。
Python: Python コールバックでの引数のエラー処理が向上しました。
JavaScript: RequestSession で終了した音声の正しくない状態レポートが修正されました。

Speech SDK 1.3.1:2019 年 2 月更新

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

バグ修正

マイク入力を使用する際のメモリリークを修正しました。ストリームベースの入力やファイル入力には影響しません。

Speech SDK 1.3.0: 2019-February リリース

新機能

Speech SDK では、AudioConfig クラスによって入力マイクの選択がサポートされます。これにより、既定以外のマイクから、Speech サービスに、音声データをストリーミングできます。詳しくは、オーディオ入力デバイスの選択に関する記事をご覧ください。この機能は、JavaScript からはまだ使用できません。
Speech SDK では、ベータ版で Unity がサポートされるようになりました。 GitHub サンプルリポジトリの問題セクションでフィードバックをお送りください。このリリースでは、Windows x86 と x64 (デスクトップまたはユニバーサル Windows プラットフォームアプリケーション) および Android (ARM32/64、x86) での Unity がサポートされています。詳しくは、Unity のクイックスタートに関する記事をご覧ください。
(以前のリリースで提供されていた) Microsoft.CognitiveServices.Speech.csharp.bindings.dll ファイルは不要になりました。この機能はコア SDK に統合されました。

サンプル

サンプルリポジトリで次の新しいコンテンツを利用できます。

AudioConfig.FromMicrophoneInput のその他のサンプル
意図認識と翻訳に関する追加の Python サンプル。
iOS での Connection オブジェクトの使用に関する追加サンプル。
オーディオ出力での翻訳に関する追加の Java サンプル。
Batch Transcription REST API の使用に関する新しいサンプル。

機能強化/変更

パイソン
- SpeechConfig でのパラメーター検証とエラーメッセージが強化されました。
- Connection オブジェクトのサポートを追加します。
- Windows での 32 ビット Python (x86) のサポート。
- Python 用 Speech SDK がベータ版ではなくなりました。
iOS
- SDK のビルド対象が iOS SDK バージョン 12.1 になりました。
- SDK が、iOS バージョン 9.2 以降をサポートするようになりました。
- リファレンスドキュメントが改善され、いくつかのプロパティ名が修正されました。
JavaScript
- Connection オブジェクトのサポートを追加します。
- バンドルされている JavaScript の型定義ファイルが追加されました
- 語句ヒントの最初のサポートと実装。
- 認識のためのサービスJSONでプロパティのコレクションを返す
Windows の DLL に、バージョンリソースが含まれるようになりました。
認識エンジン FromEndpoint を作成する場合は、エンドポイント URL に直接パラメーターを追加できます。 FromEndpoint を使用した場合、標準の構成プロパティを通じて認識エンジンを構成することはできません。

バグ修正

空のプロキシユーザー名とプロキシパスワードが、正しく処理されていませんでした。このリリースでは、プロキシユーザー名とプロキシパスワードを空の文字列に設定した場合、プロキシに接続したときにそれらが送信されません。
SDK によって作成された SessionId が、一部の言語/環境で本当にランダムではないことがありました。乱数ジェネレーターの初期化を追加してこの問題を解決しました。
認可トークンの処理が向上します。承認トークンを使用する場合は、 SpeechConfig で指定し、API キーを空のままにします。その後、通常どおり認識エンジンを作成します。
場合によっては、Connection オブジェクトが正しく解放されませんでした。この問題は修正されています。
JavaScript のサンプルは、翻訳合成のためのオーディオ出力を Safari 上でもサポートするように修正されました。

Speech SDK 1.2.1

これは、JavaScript のみのリリースです。機能は追加されていません。以下の修正が行われました。

speech.end ではなく turn.end でストリームの終了が発生します。
現在の送信が失敗した場合に、次の送信がスケジュールされなかった、オーディオポンプのバグを修正しました。
認証トークンでの継続的な認識を修正しました。
別の認識エンジン/エンドポイントのバグ修正。
ドキュメントの改善。

Speech SDK 1.2.0:2018-December リリース

新機能

パイソン
- このリリースで、Python サポート (3.5 以降) のベータ版を使用できるようになりました。詳しくは、こちら (../../quickstart-python.md) をご覧ください。
JavaScript
- Speech SDK for JavaScript はオープンソースで提供されています。ソースコードは GitHubから入手できます。
- Node.js のサポートを開始しました。詳細については、こちらを参照してください。
- 音声セッションの長さの制限がなくなり、再接続は背後で自動的に実行されるようになります。
Connection オブジェクト
- Recognizer から、Connection オブジェクトにアクセスできます。このオブジェクトを使用すると、サービスの接続を明示的に開始し、接続イベントと切断イベントをサブスクライブすることができます (この機能は、JavaScript と Python からはまだ使用できません)。
Ubuntu 18.04 のサポート。
アンドロイド
- APK 生成時の ProGuard サポートが有効になりました。

改善

内部スレッドの使用方法を改善し、スレッド、ロック、相互排他の数を減らしました。
エラー報告や情報を改善しました。一部のケースでは、エラーメッセージがまったく伝達されていませんでした。
最新のモジュールを使用するように JavaScript の開発依存関係を更新しました。

バグ修正

RecognizeAsync の型の不一致によるメモリリークを修正しました。
場合によっては、例外がリークしていました。
翻訳イベント引数のメモリリークを修正しました。
長時間実行中のセッションでの再接続に関するロックの問題を修正しました。
翻訳が失敗した場合に最終的な結果が失われる可能性がある問題を修正しました。
C#:メインスレッドで async 操作が待機されていない場合、非同期タスクが完了する前に認識機能が破棄される可能性がありました。
Java:Java VM がクラッシュする原因となる問題を修正しました。
Objective-C: RecognizingIntent ではなく RecognizedIntent が返されるという列挙型のマッピングを修正しました。
JavaScript:SpeechConfig で既定の出力形式を 'simple' に設定します。
JavaScript:JavaScript と他の言語の config オブジェクトのプロパティ間にある不整合を解消しました。

サンプル

いくつかのサンプルを更新および修正しました (たとえば、翻訳のための出力音声など)。
サンプルリポジトリに Node.js サンプルを追加しました。

Speech SDK 1.1.0

新機能

Android x86 または x64 のサポート。
プロキシのサポート: SpeechConfig オブジェクトで、プロキシ情報 (ホスト名、ポート、ユーザー名、パスワード) を設定する関数を呼び出せるようになりました。この機能は iOS ではまだ利用できません。
強化されたエラーコードとメッセージ。認識でエラーが返された場合、これは既に Reason (取り消されたイベントの場合) またはCancellationDetails (認識結果) を Error に設定します。取り消されたイベントに、2 つのメンバー ErrorCode と ErrorDetails が含まれるようになりました。サーバーによって、報告されたエラーと一緒に追加のエラー情報が返された場合、これを新しいメンバーで使用できるようになります。

改善

認識エンジンの構成に検証が追加され、エラーメッセージが追加されました。
オーディオファイル中の長時間のサイレント状態の処理が強化されました。
NuGet パッケージ: .NET Framework プロジェクトの場合、AnyCPU 構成でビルドされることを防ぎます。

バグ修正

認識エンジンで見つかったいくつかの例外を修正しました。さらに例外がキャッチされ、Canceled イベントに変換されます。
プロパティ管理のメモリリークを修正しました。
オーディオ入力ファイルが認識エンジンをクラッシュする可能性があるバグを修正しました。
セッションがイベントを停止した後でイベントが受信されることがあるバグを修正しました。
スレッド処理の一部の競合状態を修正しました。
クラッシュの原因となる iOS の互換性の問題を修正しました。
Android のマイクのサポートのための安定性の向上。
JavaScript の認識エンジンが認識言語を無視するバグを修正しました。
JavaScript で (場合によっては) EndpointId の設定を妨げるバグを修正しました。
JavaScript の AddIntent のパラメーターの順序を変更し、不足している AddIntent JavaScript 署名を追加します。

サンプル

プルおよびプッシュストリームの使用のための C++ と C# のサンプルをサンプルリポジトリに追加しました。

Speech SDK 1.0.1

信頼性の向上とバグ修正

認識エンジンの破棄での競合状態によって致命的なエラーが発生する可能性を修正しました
未設定のプロパティによって致命的なエラーが発生する可能性を修正しました。
新しいエラーとパラメーターのチェックを追加しました。
Objective-C: NSString での名前のオーバーライドによって致命的なエラーが発生する可能性を修正しました。
Objective-C: API の可視性を調整しました
JavaScript:イベントとそのペイロードに関して修正しました。
ドキュメントの改善。

サンプルリポジトリに、JavaScript の新しいサンプルを追加しました。

Azure AI Speech SDK 1.0.0: 2018 年 9 月リリース

新機能

iOS での Objective-C のサポート。 iOS での Objective-C のクイックスタートに関するページをご覧ください。
ブラウザーでの JavaScript のサポート。 JavaScript のクイックスタートに関するページをご覧ください。

重大な変更

このリリースでは、重大な変更がいくつか行われています。詳細については、こちらのページを参照してください。

Azure AI Speech SDK 0.6.0: 2018 年 8 月リリース

新機能

Speech SDK で構築された UWP アプリは、Windows アプリ認定キット (WACK) に合格できるようになりました。 UWP のクイックスタートに関するページをご覧ください。
Linux (Ubuntu 16.04 x 64) 上の .NET Standard 2.0 のサポート。
試験段階: Windows (64 ビット) および Linux (Ubuntu 16.04 x 64) での Java 8 サポート。 Java ランタイム環境のクイックスタートに関するページをご覧ください。

機能の変更点

接続エラーに関する追加エラーの詳細情報が公開されました。

重大な変更

Java (Android) で、SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 関数にパスパラメーターが不要になりました。サポートされているすべてのプラットフォームでパスが自動的に検出されるようになりました。
Java および C# のプロパティ EndpointUrl の get-accessor が削除されました。

バグ修正

Java で、翻訳認識エンジンの音声合成結果が実装されるようになりました。
非アクティブなスレッドの原因となったり、未使用の開いたソケット数の増加の原因となったりするバグが修正されました。
実行時間の長い認識が伝送の途中で終了する問題が修正されました。
認識エンジンのシャットダウン時の競合状態を修正しました。

Azure AI Speech SDK 0.5.0: 2018 年 7 月リリース

新機能

Android プラットフォーム (API 23: Android 6.0 Marshmallow 以降) をサポートします。 Android クイックスタートを参照してください。
Windows 上の .NET Standard 2.0 をサポートします。 .NET Core クイックスタートを確認してください。
試験段階: Windows 上での UWP のサポート (バージョン 1709 以降)。
- UWP のクイックスタートに関するページをご覧ください。
- Speech SDK で構築された UWP アプリは、まだ Windows アプリ認定キット (WACK) に合格していないことに注意してください。
自動再接続を使用して、実行時間の長い認識をサポートします。

機能の変更点

StartContinuousRecognitionAsync() は、実行時間の長い認識をサポートします。
認識結果に含まれるフィールドが増えました。認識されたテキストのオーディオの開始からのオフセットと期間 (どちらも単位はティック)、および認識状態を表す追加の値 (InitialSilenceTimeout や InitialBabbleTimeout など) です。
ファクトリインスタンスを作成するための AuthorizationToken をサポートします。

重大な変更

認識イベント: NoMatch のイベントの種類は、Error イベントにマージされました。
C# での SpeechOutputFormat は、C++ との整合性を維持するために OutputFormat に名前が変更されました。
AudioInputStream インターフェイスのいくつかのメソッドの戻り値の型が若干変更されました。
- Java では、read メソッドが long の代わりに int を返すようになりました。
- C# では、Read メソッドが uint の代わりに int を返すようになりました。
- C++ では、Read および GetFormat メソッドが size_t の代わりに int を返すようになりました。
C++: オーディオ入力ストリームのインスタンスを shared_ptr としてのみ渡すことができるようになりました。

バグ修正

RecognizeAsync() がタイムアウトしたときの結果にある正しくない戻り値が修正されました。
Windows 上のメディアファンデーションライブラリへの依存関係が削除されました。 SDK で Core Audio API が使用されるようになりました。
ドキュメントの修正: サポートされるリージョンを説明するためのリージョンページが追加されました。

既知の問題

Android 用の Speech SDK では、翻訳のための音声合成の結果が報告されません。この問題は次のリリースで修正される予定です。

Azure AI Speech SDK 0.4.0: 2018 年 8 月リリース

機能の変更点

オーディオインプットストリーム

認識エンジンでは、オーディオソースとしてストリームを利用できるようになりました。詳細については、関連するハウツーガイドを参照してください。
出力形式の詳細

SpeechRecognizer を作成するときに、Detailed または Simple 出力形式を要求できます。 DetailedSpeechRecognitionResult には、信頼度スコア、認識されるテキスト、生の語彙形式、正規化形式、および不適切な内容がマスクされた正規化形式が含まれます。

重大な変更

C# で SpeechRecognitionResult.Text から SpeechRecognitionResult.RecognizedText に変更されました。

バグ修正

シャットダウン中に USP レイヤーで発生する可能性のあるコールバックの問題を修正しました。
認識エンジンがオーディオ入力ファイルを使用した場合、ファイルハンドルが必要以上に長く保持されていました。
メッセージポンプと認識エンジンの間の複数のデッドロックが削除されました。
サービスの応答がタイムアウトしたときに、NoMatch の結果を発生させます。
Windows のメディアファンデーションライブラリは、遅延読み込みされます。このライブラリは、マイク入力の場合のみ必要です。
オーディオデータのアップロードの速度が、元の音声速度の約 2 倍に制限されます。
Windows では、C# .NET アセンブリには厳密な名前が指定されるようになりました。
ドキュメントの修正: Region は、認識エンジンを作成するための必須情報です。

他のサンプルも追加されており、常に更新されます。最新のサンプルセットについては、Speech SDK のサンプルの GitHub リポジトリを参照してください。

Azure AI Speech SDK 0.2.12733: 2018 年 5 月リリース

このリリースは、Azure AI Speech SDK の最初のパブリックプレビューリリースです。

Speech CLI 1.46.0: 2025-9 月リリース

Speech SDK 1.46.0 を使用するように更新されました

新機能

なし

バグ修正

なし

Speech CLI 1.45.0: 2025年7月リリース

Speech SDK 1.45.0 を使用するように更新

新機能

なし

バグ修正

なし

Speech CLI 1.44: 2025 年 5 月リリース

新機能

Microsoft Entra トークン資格情報による認証のサポートを追加しました。
高速文字起こし API のサポートを追加しました。

バグ修正

ファイルからセミコロンで区切られた入力 URL と入力ファイル/URL リストが機能しない問題を修正しました。

Speech CLI 1.43: 2025-3 月リリース

新機能

.NET 8 を使用するように SPX を更新しました。

バグ修正

オンプレミスのバッチシナリオで SPX Docker コンテナーが動作しない問題を修正しました。

Speech CLI 1.40.0: 2024 年 8 月リリース

Speech SDK 1.40.0 を使用するように更新

新機能

なし

バグ修正

なし

Speech CLI 1.38.0: 2024 年 6 月リリース

Speech SDK 1.38.0 を使用するように更新

新機能

なし

バグ修正

なし

Speech CLI 1.37.0: 2024 年 4 月リリース

Speech SDK 1.37.0 を使用するように更新されました

新機能

なし

バグ修正

なし

Speech CLI 1.36.0: 2024 年 3 月リリース

Speech SDK 1.36.0 を使用するように更新されました

新機能

なし

バグ修正

なし

Speech CLI 1.35.0: 2024 年 2 月のリリース

Speech SDK 1.35.0 を使用するように更新されました

新機能

なし

バグ修正

JMESPath 依存関係を最新バージョンに更新

Speech CLI 1.34.0: 2023 年 11 月リリース

Speech SDK 1.34.0 を使用するように更新されました

Speech CLI 1.33.0: 2023 年 10 月リリース

Speech SDK 1.33.0 を使用するように更新

Speech CLI 1.31.0: 2023 年 8 月リリース

Speech SDK 1.31.0 を使用するように更新されました

Speech CLI 1.30.0: 2023 年 7 月リリース

音声 SDK 1.30.0 を使用するように更新されました

Speech CLI 1.29.0: 2023 年 6 月リリース

音声 SDK 1.29.0 を使用するように更新されました

Speech CLI 1.28.0: 2023 年 5 月のリリース

音声 SDK 1.28.0 を使用するように更新されました

音声 CLI 1.27.0: 2023 年 4 月のリリース

更新

音声 SDK 1.27.0 を使用するように更新されました
カスタム音声認識とバッチ音声認識で v3.1 REST API を使用するように、既定のエンドポイントを更新。

バグ修正

クエリパラメーターの解析/構成方法に関連する修正。

Speech CLI 1.26.0: 2023 年 3 月リリース

Speech SDK 1.26.0 を使用するように更新されました。

Speech CLI 1.25.0: 2023 年 1 月のリリース

Speech SDK 1.25.0 を使用するように更新されました。

Speech CLI 1.24.0: 2022 年 10 月リリース

Speech SDK 1.24.0 が使用されます。

新機能

すべての spx イベントに対して JMESPath クエリをサポートするように "spx check" が拡張されました

バグ修正

JMESPath クエリの評価に対する堅牢性のための、さまざまな機能強化
リソースに制約があるマシンで発生する可能性がある、ファイル書き込みの切り捨てに関する修正

Speech CLI 1.23.0: 2022 年 7 月リリース

Speech SDK 1.23.0 を使用します。

新機能

キャプションの改善 (--output vtt および --output srt) 大きな結果の分割(最大 37 文字、3 行)
文書化された spx synthesize--format オプション (spx help synthesize format を参照)
spx csr コマンド/オプションの大部分を文書化しました (spx help csr をご覧ください)
spx csr model copy コマンドを追加しました (spx help csr model copy を参照)
JMES クエリを使用した --check result オプションを追加しました (spx help check result 参照)
無効なコマンドオプションを指定したときのエラーメッセージを改善しました
.NET Core 3.1 から .NET 6.0 に移行しました。 Speech CLI を実行するには、 .NET 6.0 ランタイム (またはそれ以降) をインストールする必要があります。

バグ修正

すべての URL を更新して言語を削除しました (例: "en-US")
すべてのケースで正しく報告されるようにバージョン情報を修正しました (以前は空白の場合がありました)

Speech CLI 1.22.0: 2022 年 6 月リリース

Speech SDK 1.22.0 を使用します。

新機能

ユーザーが Azure Web ポータルに移動せずに Speech リソースキーを作成するのを支援する spx init コマンドを追加しました。
音声 Docker コンテナーに Azure CLI が含まれるようになったため、spx init コマンドがそのまま動作します。
待機時間の計算時に SPX をより便利にするために、タイムスタンプをイベント出力オプションとして追加しました。

Speech CLI 1.21.0: 2022 年 4 月のリリース

Speech SDK 1.21.0 を使用します。

新機能

WEBVTT キャプションの生成
- --output vtt に spx translate のサポートを追加しました
- 既定の VTT ファイル名をオーバーライドする --output vtt file FILENAME がサポートされます。
- 標準出力に書き込みを行う --output vtt file - がサポートされます。
- 対象言語ごとに個別の VTT ファイルが作成されます (例: --target en;de;fr)
SRT キャプションの生成
- --output srt、spx recognize、spx intent に対して spx translate のサポートが追加されました
- 既定の SRT ファイル名をオーバーライドする --output srt file FILENAME がサポートされます。
- 標準出力に書き込みを行う --output srt file - がサポートされます。
- spx translate で、対象言語ごとに個別の SRT ファイルが作成されます (例: --target en;de;fr)

バグ修正

WEBVTT 期間出力で hh:mm:ss.fff 形式が正しく使用されるように修正されました。

Speech CLI 1.20.0: 2022 年 1 月のリリース

新機能

話者認識
- spx profile enroll と spx speaker [identify/verify] で、マイク入力をサポートするようになりました
意図認識 (spx intent)
- --keyword FILE.table
- --pattern および --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once、--once+、--continuous (現在は continuous が既定値)
- --output all/each connection EVENT
- --output all/each connection message (例: text、path)
CLI コンソール出力の期待値確認/作成
- すべてのコマンドでの --expect PATTERN と --not expect PATTERN のサポート
- 予想されるパターンの作成を支援する --auto expect
SDK ログの出力予想チェック/作成
- すべてのコマンドでの --log expect PATTERN と --not log expect PATTERN のサポート
- すべてのコマンドでの --log auto expect [FILTER] のサポート
- --log FILE および spx profile での spx speaker のサポート
オーディオファイル入力
- すべてのコマンドでの --format ANY のサポート
- --file - のサポート (標準入力からの読み取り、パイプシナリオの有効化)
オーディオファイル出力
- --audio output - 標準出力への書き込み、パイプシナリオの有効化
出力ファイル
- --output all/each file - 標準出力への書き込み
- --output batch file - 標準出力への書き込み
- --output vtt file - 標準出力への書き込み
- --output json file - spx csr コマンドと spx batch コマンドでの標準出力への書き込み
出力プロパティ
- --output […] result XXX property (PropertyId または文字列)
- --output […] connection message received XXX property (PropertyId または文字列)
- --output […] recognizer XXX property (PropertyId または文字列)
Azure WebJob の統合
- spx webjob がサブコマンドパターンに従うようになりました
- サブコマンドのパターンを反映するように、WebJobのヘルプを更新しました（spx help webjobを参照）

バグ修正

--output vtt FILE と --output batch FILE の両方が同時に使用されたときのバグを修正しました
spx [...] --zip ZIPFILENAME に、すべてのシナリオに必要なすべてのバイナリが含まれるようになりました (存在する場合)
spx profile および spx speaker コマンドが、キャンセル時に詳細なエラー情報を返すようになりました

2021 年 5 月リリース

新機能

プロファイル、話者 ID、話者認証のサポートが追加されました - コマンドラインから spx profile と spx speaker を試してください。
また、ダイアログのサポートも追加しました - コマンドラインから spx dialog を試してください。
spx のヘルプを改善しました。 GitHub の問題を開いて、このしくみについてフィードバックをお寄せください。
.NET ツールのインストールのサイズを小さくしました。

COVID-19 簡易検査

継続的なパンデミックでは、エンジニアが自宅で作業する必要が続いているので、パンデミック前の手動検証スクリプトは、構成の少ない少数のデバイスでテストするために減少し、環境固有のバグが通過する可能性が高くなる可能性があります。大きな自動化のセットを使用して、厳格な検証をまだ行っています。万が一、何かを見逃した場合には、GitHub でお知らせください。
皆様の健康をお祈りします！

2021年 3月リリース

新機能

意図認識用の spx intent コマンドを追加し、spx recognize intent が置き換わります。
認識とインテントが Azure 関数を使用して、spx recognize --wer url <URL> を使用して単語誤り率を計算できるようになりました。
認識では、spx recognize --output vtt file <FILENAME> を使用して、結果を VTT ファイルとして出力できるようになりました。
重要なキー情報がデバッグまたは詳細出力で伏字で表示されるようになりました。
バッチ文字起こし作成で、コンテンツフィールドの URL チェックとエラーメッセージを追加しました。

COVID-19 簡易検査

2021 年 1 月のリリース

新機能

Speech CLI が NuGet パッケージとして使用できるようになり、シェルやコマンドラインから呼び出すことができる .NET グローバルツールとして .NET CLI を使用してインストールできます。
Custom Speech DevOps テンプレートリポジトリが、Custom Speech ワークフローに Speech CLI を使用するように更新されました。

COVID-19 簡易検査

2020年10月リリース

SPX は、コードを記述せずに Speech サービスを使用するためのコマンドラインインターフェイスです。最新バージョンは、こちらからダウンロードできます。

新機能

spx csr dataset upload --kind audio|language|acoustic – URL からだけではなく、ローカルデータからデータセットを作成します。
spx csr evaluation create|status|list|update|delete – 新しいモデルを正しいベースラインおよびその他のモデルと比較します。
spx * list – ページなしの体験をサポートします（--top X や --skip X は不要です）。
spx * --http header A=B – カスタムヘッダーをサポートします (カスタム認証用として Office に追加済み)。
spx help – テキストとバックティックテキストの色分け (青) を改善しました。

2020 年 6 月リリース

CLI 内ヘルプ検索機能が追加されました。
- spx help find --text TEXT
- spx help find --topic NAME
新しくデプロイされた v3.0 Batch および Custom Speech API と連携するように更新されました。
- spx help batch examples
- spx help csr examples

COVID-19 簡易検査

過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。万が一、何かを見逃した場合には、GitHub でお知らせください。
皆様の健康をお祈りします！

Speech CLI (別名 SPX): 2020 年 5 月のリリース

SPX は、コマンドラインから認識、合成、翻訳、バッチ文字起こし、およびカスタム音声管理を実行するための新しいコマンドラインツールです。これを使用して、音声サービスをテストしたり、実行する必要がある音声サービスタスクをスクリプト化したりできます。ツールをダウンロードし、こちらのドキュメントを参照してください。

2025 年 11 月リリース

新しい HD 音声のパブリックプレビュー

ロケール (BCP-47)	音声名
`en-GB`	`en-GB-Ada:DragonHDLatestNeural` (女性)
`en-GB`	`en-GB-Ollie:DragonHDLatestNeural` (男性)
`es-MX`	`es-MX-Tristan:DragonHDLatestNeural` (男性)
`es-MX`	`es-MX-Ximena:DragonHDLatestNeural` (女性)
`fr-CA`	`fr-CA-Sylvie:DragonHDLatestNeural` (女性)
`fr-CA`	`fr-CA-Thierry:DragonHDLatestNeural` (男性)
`ko-KR`	`ko-KR-Hyunsu:DragonHDLatestNeural` (男性)
`ko-KR`	`ko-KR-SunHi:DragonHDLatestNeural` (女性)

以前の 33 個の HD 音声が v2.0 に更新され、品質が向上し、バグが修正されました

ロケール (BCP-47)	音声名
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (男性)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Jane:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (男性)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (男性)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (女性)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (男性)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (女性)
`it-IT`	`it-IT-Alessio:DragonHDLatestNeural` (男性)
`it-IT`	`it-IT-Isabella:DragonHDLatestNeural` (女性)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (男性)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (女性)
`pt-BR`	`pt-BR-Macerio:DragonHDLatestNeural` (男性)
`pt-BR`	`pt-BR-Thalita:DragonHDLatestNeural` (女性)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (女性)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (男性)

メモ

この更新後、 en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural & en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeuralを呼び出すときに問題が発生した場合は、音声名を en-US-MultiTalker-Ava-Andrew:DragonHDv1.2Neural に更新してください。 en-US-MultiTalker-Ava-Steffan:DragonHDv1.2Neural

2025 年 8 月のリリース

新しい HD 音声のパブリックプレビュー

ロケール (BCP-47)	音声名
`it-IT`	`it-IT-Alessio:DragonHDLatestNeural` (男性)
`it-IT`	`it-IT-Isabella:DragonHDLatestNeural` (女性)
`pt-BR`	`pt-BR-Macerio:DragonHDLatestNeural` (男性)
`pt-BR`	`pt-BR-Thalita:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Jane:DragonHDLatestNeural` (女性)

2025 年 7 月のリリース

パブリックプレビューの Personal Voice を v2.1 にアップグレード

新しい “DragonV2.1” モデルでは、より良い発音精度を維持しながら、より現実的で安定した韻律を提供し、音声の自然さを向上させています。

2025 年 6 月リリース

VoiceLive API の更新

GenAI モデルのサポート: GPT-4.1、GPT-4.1 Mini、Phi-4 mini、Phi-4 マルチモーダルモデルがネイティブにサポートされるようになりました。
その他のカスタマイズ機能のサポート
Azure セマンティック VAD は、GPT-Realtime と GPT-4o-Mini-Realtime をサポートするように拡張されています。
その他のリージョンでの可用性

選択した en-US 音声での音声変換機能のパブリックプレビュー

この機能に対し、次の音声を使用できるようになりました。

ロケール (BCP-47)	音声名
`en-US`	`en-US-Adam:MultilingualNeural` (男性)
`en-US`	`en-US-Amanda:MultilingualNeural` (女性)
`en-US`	`en-US-Andrew:MultilingualNeural` (男性)
`en-US`	`en-US-Ava:MultilingualNeural` (女性)
`en-US`	`en-US-Brandon:MultilingualNeural` (男性)
`en-US`	`en-US-Brian:MultilingualNeural` (男性)
`en-US`	`en-US-Christopher:MultilingualNeural` (男性)
`en-US`	`en-US-Cora:MultilingualNeural` (女性)
`en-US`	`en-US-Davis:MultilingualNeural` (男性)
`en-US`	`en-US-Derek:MultilingualNeural` (男性)
`en-US`	`en-US-Dustin:MultilingualNeural` (男性)
`en-US`	`en-US-EchoTurbo:MultilingualNeural` (男性)
`en-US`	`en-US-Emma:MultilingualNeural` (女性)
`en-US`	`en-US-Evelyn:MultilingualNeural` (女性)
`en-US`	`en-US-FableTurbo:MultilingualNeural` (ニュートラル)
`en-US`	`en-US-Jenny:MultilingualNeural` (女性)
`en-US`	`en-US-Lewis:MultilingualNeural` (男性)
`en-US`	`en-US-Lola:MultilingualNeural` (女性)
`en-US`	`en-US-Nancy:MultilingualNeural` (女性)
`en-US`	`en-US-NovaTurbo:MultilingualNeural` (女性)
`en-US`	`en-US-OnyxTurbo:MultilingualNeural` (男性)
`en-US`	`en-US-Phoebe:MultilingualNeural` (女性)
`en-US`	`en-US-Ryan:MultilingualNeural` (男性)
`en-US`	`en-US-Samuel:MultilingualNeural` (男性)
`en-US`	`en-US-Serena:MultilingualNeural` (女性)
`en-US`	`en-US-ShimmerTurbo:MultilingualNeural` (女性)
`en-US`	`en-US-Steffan:MultilingualNeural` (男性)

2025 年 5 月のリリース

VoiceLive API のパブリックプレビュー

音声エージェントを構築するための単一的な統合 API を提供する Azure AI Speech 機能。今回パブリックプレビューで利用できるようになった、この新しい API では、好みの基本モデルを使用して、低遅延でスケーラブルな音声による対話をサポートできます。

2025 年 4 月リリース

新しい HD 音声のパブリックプレビュー

次の HD 音声をプレビューで利用できるようになりました。

ロケール (BCP-47)	音声名
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (ニュートラル)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (女性)
`en-US`	`en-US-AshTurboMultilingualNeural` (男性)

2025 年 3 月リリース

一部の HD 音声の一般提供

次の HD 音声が一般提供されるようになりました。

ロケール (BCP-47)	音声名
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (男性)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (男性)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (男性)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (女性)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (男性)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (女性)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (男性)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (女性)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (女性)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (男性)

ポッドキャストシナリオ用のマルチトーカー音声 (プレビュー)

ロケール (BCP-47)	音声名
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (ニュートラル)

新しい HD 音声 (プレビュー)

ロケール (BCP-47)	音声名
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (女性) - ポッドキャスト用に最適化
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (男性) - ポッドキャスト用に最適化

Dragon HD Flash モデル (プレビュー)

ロケール (BCP-47)	音声名
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (女性)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (女性)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (女性、フリートーク用に最適化)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (男性)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (男性)

2025 年 2 月のリリース

HD 音声の更新 (プレビュー)

現在 13 個の HD 音声が更新され、多言語音声がサポートされました。

ロケール (BCP-47)	音声名
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (男性) - フリートーク用に最適化
`en-US`	`en-US-Emma:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (女性) - フリートーク用に最適化
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (女性)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (男性)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (女性)

新しい HD 音声 (プレビュー)

さらに 14 の HD 音声を追加しました

ロケール (BCP-47)	音声名
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (女性)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (男性)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (女性)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (女性)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (男性)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (女性)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (男性)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (女性)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (男性)

新しい多言語音声の概要 (プレビュー)

感情サポートを使用して、 en-US にさらに 4 つの多言語音声を追加しました。

ロケール (BCP-47)	音声名	スタイル
`en-US`	`DerekMultilingualNeural` (男性)	`empathetic`、 `excited`、 `relieved`、 `shy`
`en-US`	`PhoebeMultilingualNeural` (女性)	`empathetic`、 `sad`、 `serious`
`en-US`	`DavisMultilingualNeural` (男性)	`empathetic`、 `funny`、 `relieved`
`en-US`	`NancyMultilingualNeural` (女性)	`excited`、`friendly`、`funny`、`relieved`、`shy`

Azure AI Foundry Models の Azure OpenAI のターボ音声 (一般提供)

次の 6 つのターボ音声が一般提供されるようになりました。

ロケール (BCP-47)	音声名
`en-US`	`en-US-AlloyTurboMultilingualNeural` (男性)
`en-US`	`en-US-EchoTurboMultilingualNeural` (男性)
`en-US`	`en-US-FableTurboMultilingualNeural` (ニュートラル)
`en-US`	`en-US-NovaTurboMultilingualNeural` (女性)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (男性)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (女性)

音声品質の改善 (一般提供)

16 個の音声の品質が向上しました。

ロケール (BCP-47)	音声名
`ar-EG`	`ar-EG-ShakirNeural` (男性)
`ca-ES`	`ca-ES-EnricNeural` (男性)
`en-IE`	`en-IE-EmilyNeural` (女性)
`fi-FI`	`fi-FI-HarriNeural` (男性)
`fi-FI`	`fi-FI-SelmaNeural` (女性)
`fr-CH`	`fr-CH-FabriceNeural` (女性)
`hr-HR`	`hr-HR-GabrijelaNeural` (女性)
`nl-NL`	`nl-NL-MaartenNeural` (男性)
`pt-PT`	`pt-PT-RaquelNeural` (女性)
`ro-RO`	`ro-RO-AlinaNeural` (女性)
`sv-SE`	`sv-SE-MattiasNeural` (男性)
`sv-SE`	`sv-SE-SofieNeural` (女性)
`vi-VN`	`vi-VN-HoaiMyNeural` (女性)
`vi-VN`	`vi-VN-NamMinhNeural` (男性)
`zh-HK`	`zh-HK-HiuMaanNeural` (女性)
`zh-HK`	`zh-HK-WanLungNeural` (男性)

マルチスタイルの埋め込み Jenny (一般提供)

en-US-JennyNeuralにのスタイルのサポートが追加されました。クラウドと同じスタイルがサポートされています。次のスタイルがサポートされています: angry、assistant、chat、cheerful、customerservice、excited、friendly、hopeful、newscast、sad、shouting、terrified、unfriendly、whispering。

2025 年 1 月のリリース

カスタムアバターのトレーニング

Speech Studio でカスタムアバターをトレーニングできるようになりました。以前は、Microsoft がカスタムアバターをトレーニングするのを待つ必要がありました。

カスタムアバターを作成する方法の詳細については、カスタムテキスト読み上げアバターの作成に関するページを参照してください。

2024 年 10 月のリリース

標準音声

パブリックプレビューで、次の 4 つのターボバージョンの Azure OpenAI 音声が導入されました: en-US-EchoTurboMultilingualNeural、en-US-FableTurboMultilingualNeural、en-US-OnyxTurboMultilingualNeural、en-US-ShimmerTurboMultilingualNeural。 Azure OpenAI 音声のターボバージョンには、Azure OpenAI 音声と同様の音声ペルソナがありますが、追加機能もサポートされています。ターボ音声は、他の Azure AI Speech 音声と同様に、SSML 要素の完全なセットと、単語の境界などのより多くの機能をサポートします。詳しくは、言語と音声の完全な一覧をご覧ください。

次の音声が一般提供になりました。

ロケール (BCP-47)	音声名
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

標準高解像度 (HD) 音声

Azure AI 音声高解像度 (HD) 音声は、パブリックプレビューで利用できます。 HD 音声は、コンテンツを理解し、入力テキスト内の感情を自動的に検出し、センチメントに合わせてリアルタイムで話すトーンを調整できます。 HD 音声は、ニューラル (および HD 以外の) 音声からの一貫した音声ペルソナを維持し、強化された機能を通じてさらに多くの価値を提供します。詳細については、「Azure AI 音声高解像度 (HD) 音声とは」を参照してください。

カスタムニューラル音声

以前は、一部のロケールは、トレーニングレシピの V3 でのみサポートされていました。これらのロケールでは V9 もサポートされ、トレーニング品質の向上と機能の拡張が可能になりました。これらのロケールについては、次の表を参照してください。

ロケール (BCP-47)	言語
`ar-EG`	アラビア語 (エジプト)
`ar-SA`	アラビア語 (サウジアラビア)
`ca-ES`	カタロニア語
`cs-CZ`	チェコ語 (チェコ)
`da-DK`	デンマーク語 (デンマーク)
`de-AT`	ドイツ語 (オーストリア)
`de-CH`	ドイツ語 (スイス)
`el-GR`	ギリシャ語 (ギリシャ)
`en-IN`	英語 (インド)
`fi-FI`	フィンランド語 (フィンランド)
`fr-CH`	フランス語 (スイス)
`he-IL`	ヘブライ語 (イスラエル)
`hi-IN`	ヒンディー語 (インド)
`hu-HU`	ハンガリー語 (ハンガリー)
`ms-MY`	マレー語 (マレーシア)
`nb-NO`	ノルウェー語 (ブークモール) (ノルウェー)
`nl-NL`	オランダ語 (オランダ)
`pl-PL`	ポーランド語 (ポーランド)
`pt-PT`	ポルトガル語 (ポルトガル)
`ro-RO`	ルーマニア語 (ルーマニア)
`ru-RU`	ロシア語 (ロシア)
`sk-SK`	スロバキア語 (スロバキア)
`sv-SE`	スウェーデン語 (スウェーデン)
`th-TH`	タイ語 (タイ)
`r-TR`	トルコ語 (Türkiye)
`vi-VN`	ベトナム語 (ベトナム)
`zh-HK`	中国語 (広東語、繁体字)
`zh-TW`	中国語 (台湾標準中国語、繁体字)

カスタムニューラル音声 Pro では、次の新しいロケールがサポートされるようになりました。
- en-NZ: 英語 (ニュージーランド)
- es-CL: スペイン語 (チリ)
- es-US: スペイン語 (米国)
- ta-MY: タミル語 (マレーシア)
サポートされているロケールの完全な一覧については、カスタムニューラル音声の言語一覧を参照してください。

多言語機能では、ソースロケールとして次の新しいロケールがサポートされるようになりました。

ロケール (BCP-47)	言語
`da-DK`	デンマーク語 (デンマーク)
`de-AT`	ドイツ語 (オーストリア)
`de-CH`	ドイツ語 (スイス)
`de-DE`	ドイツ語 (ドイツ)
`en-CA`	英語 (カナダ)
`fi-FI`	フィンランド語 (フィンランド)
`fr-CH`	フランス語 (スイス)
`hu-HU`	ハンガリー語 (ハンガリー)
`ms-MY`	マレー語 (マレーシア)
`nb-NO`	ノルウェー語 (ブークモール) (ノルウェー)
`pt-PT`	ポルトガル語 (ポルトガル)
`sv-SE`	スウェーデン語 (スウェーデン)
`tr-TR`	トルコ語 (Türkiye)
`ta-IN`	タミール語 (インド)
`zh-HK`	中国語 (広東語、繁体字)

サポートされているロケールの完全な一覧については、カスタムニューラル音声の言語一覧を参照してください。

マルチスタイルの音声機能では、次の新しいロケールがサポートされるようになりました。

ロケール (BCP-47)	言語
`ar-EG`	アラビア語 (エジプト)
`ar-SA`	アラビア語 (サウジアラビア)
`ca-ES`	カタロニア語
`cs-CZ`	チェコ語 (チェコ)
`da-DK`	デンマーク語 (デンマーク)
`de-AT`	ドイツ語 (オーストリア)
`de-CH`	ドイツ語 (スイス)
`de-DE`	ドイツ語 (ドイツ)
`el-GR`	ギリシャ語 (ギリシャ)
`en-AU`	英語 (オーストラリア)
`en-CA`	英語 (カナダ)
`en-GB`	英語 (イギリス)
`en-IN`	英語 (インド)
`es-ES`	スペイン語（スペイン）
`es-MX`	スペイン語 (メキシコ)
`fi-FI`	フィンランド語 (フィンランド)
`fr-CA`	フランス語 (カナダ)
`fr-CH`	フランス語 (スイス)
`fr-FR`	フランス語 (フランス)
`he-IL`	ヘブライ語 (イスラエル)
`hi-IN`	ヒンディー語 (インド)
`hu-HU`	ハンガリー語 (ハンガリー)
`it-IT`	イタリア語 (イタリア)
`ko-KR`	韓国語 (韓国)
`ms-MY`	マレー語 (マレーシア)
`nb-NO`	ノルウェー語 (ブークモール) (ノルウェー)
`nl-BE`	オランダ語 (ベルギー)
`nl-NL`	オランダ語 (オランダ)
`pl-PL`	ポーランド語 (ポーランド)
`pt-BR`	ポルトガル語 (ブラジル)
`pt-PT`	ポルトガル語 (ポルトガル)
`ro-RO`	ルーマニア語 (ルーマニア)
`ru-RU`	ロシア語 (ロシア)
`sk-SK`	スロバキア語 (スロバキア)
`sv-SE`	スウェーデン語 (スウェーデン)
`th-TH`	タイ語 (タイ)
`tr-TR`	トルコ語 (Türkiye)
`vi-VN`	ベトナム語 (ベトナム)
`zh-HK`	中国語 (広東語、繁体字)
`zh-TW`	中国語 (台湾標準中国語、繁体字)

サポートされているロケールの完全な一覧については、カスタムニューラル音声の言語一覧を参照してください。

2024 年 9 月のリリース

標準音声

次のロケールで、新しい音声のサポートと一般提供を追加しました。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`as-IN`	アッサム語 (インド)	`as-IN-YashicaNeural` (女性) `as-IN-PriyomNeural` (男性)
`or-IN`	オディア語 (インド)	`or-IN-SubhasiniNeural` (女性) `or-IN-SukantNeural` (男性)
`pa-IN`	パンジャーブ語 (インド)	`pa-IN-OjasNeural` (男性) `pa-IN-VaaniNeural` (女性)

この表にある 1 つの音声は一般提供されており、'en-IN' ロケールのみをサポートしています。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-IN`	英語 (インド)	`en-IN-AashiNeural` (女性)

この表の 5 つの音声は一般提供されており、"en-IN" と "hi-IN" の両方のロケールがサポートされています。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-IN`	英語 (インド)	`en-IN-AaravNeural` (男性) `en-IN-AnanyaNeural` (女性) `en-IN-KavyaNeural` (女性) `en-IN-KunalNeural` (男性) `en-IN-RehaanNeural` (男性)
`hi-IN`	ヒンディー語 (インド)	`hi-IN-AaravNeural` (男性) `hi-IN-AnanyaNeural` (女性) `hi-IN-KavyaNeural` (女性) `hi-IN-KunalNeural` (男性) `hi-IN-RehaanNeural` (男性)

音声のスタイルと役割

newscast と cheerful の音声の empathetic、en-IN-NeerjaNeural、hi-IN-SwaraNeural スタイルのサポートを追加しました。

次の音声に新しいスタイルを追加しました。

es-MX-DaliaNeural: whispering、sad、cheerful
fr-FR-DeniseNeural: whispering、sad、excited
it-IT-IsabellaNeural: whispering、 sad、 excited、 cheerful
pt-PT-RaquelNeural: whispering、 sad
de-DE-ConradNeural: sad、 cheerful
en-GB-RyanNeural: whispering、 sad
es-MX-JorgeNeural: whispering、 sad、 excited、 cheerful
fr-FR-HenriNeural: whispering、sad、excited
it-IT-DiegoNeural: sad、excited、cheerful
es-ES-AlvaroNeural: cheerful、 sad
ko-KR-InjoonNeural: sad

詳細については、「音声のスタイルとロール」を参照してください。

2024 年 8 月のリリース

標準音声

パブリックプレビューでは、新しい多言語音声が導入されています。詳しくは、言語と音声の完全な一覧をご覧ください。

新しい多言語音声

ロケール	Language	ジェンダー	音声名
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-AdamMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-AmandaMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-DerekMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-LewisMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-LolaMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-PhoebeMultilingualNeural（エン-ユーエス-フィービー多言語神経ネットワーク）
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-SamuelMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-SerenaMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-DustinMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-イヴリンマルチリンガルニューラル
es-ES	スペイン語（スペイン）	男性	es-ES-TristanMultilingualNeural
fr-FR	フランス語 (フランス)	男性	fr-FR-Lucienマルチリンガルニューラル
ポルトガル語（ブラジル）	ポルトガル語 (ブラジル)	男性	pt-BR-マセリオ・マルチリンガル・ニューラル
zh-CN	中国語 (標準、簡体字)	男性	zh-CN-YunfanMultilingualNeural
zh-CN	中国語 (標準、簡体字)	男性	zh-CN-YunxiaoMultilingualNeural
zh-CN	中国語 (標準、簡体字)	男性	zh-CN-Yunyiマルチリンガルニューラル

多言語音声のモノリンガルモデルが更新され、自然性が向上しました

ロケール	Language	ジェンダー	音声名
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-NancyMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-ブランドンマルチリンガルニューラル
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-ChristopherMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-CoraMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-DavisMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-SteffanMultilingualNeural
es-ES	スペイン語（スペイン）	女性	es-ES-XimenaMultilingualNeural
it-IT	イタリア語 (イタリア)	男性	it-IT-GiuseppeMultilingualNeural
ko-KR	韓国語 (韓国)	男性	ko-KR-HyunsuMultilingualNeural

次の現行の多言語音声を強化して、品質を向上しています。

ロケール	Language	ジェンダー	音声名
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	男性	en-US-AndrewMultilingualNeural
英語の表記: en-US 日本語の表記: ja-JP	英語 (米国)	女性	en-US-AvaMultilingualNeural

3 つの多言語音声でスタイルがサポートされるようになりました。詳細については、「音声のスタイルとロール」を参照してください。
- en-US-SerenaMultilingualNeural: empathetic、excited、friendly、shy、serious、relieved、sad。
- en-US-AndrewMultilingualNeural: empathetic および relieved。
- zh-CN-XiaoxiaoMultilingualNeural: affectionate、cheerful、empathetic、excited、poetry-reading、sorry、story。

2024 年 7 月リリース

テキスト読み上げアバター (一般提供)

テキスト読み上げアバターの一般提供を開始しました。詳細については、テキスト読み上げアバターに関する記事を参照してください。

標準音声

パブリックプレビューでは、2 つのターボバージョンの Azure OpenAI 音声 (en-US-AlloyTurboMultilingualNeural と en-US-NovaTurboMultilingualNeural) が導入されています。 Azure OpenAI 音声のターボバージョンには、Azure OpenAI 音声と同様の音声ペルソナがありますが、追加機能もサポートされています。ターボ音声は、他の Azure AI Speech 音声と同様に、SSML 要素の完全なセットと、単語の境界などのより多くの機能をサポートします。詳しくは、言語と音声の完全な一覧をご覧ください。
パブリックプレビューでは、zh-CN-YunfanMultilingualNeural と zh-CN-YunxiaoMultilingualNeural の 2 つの新しい多言語音声が導入されています。詳しくは、言語と音声の完全な一覧をご覧ください。

埋め込み型ニューラル音声

en-US-JennyMultilingual 音声は運用環境でリリースされ、デバイス上のエクスペリエンスのために最大 24 ロケールがサポートされます。サポートされているロケールについては、次の表を参照してください。

ロケール	Language
`da-DK`	デンマーク語 (デンマーク)
`de-DE`	ドイツ語 (ドイツ)
`en-AU`	英語 (オーストラリア)
`en-GB`	英語 (イギリス)
`en-IN`	英語 (インド)
`en-US`	英語 (米国)
`es-ES`	スペイン語（スペイン）
`es-MX`	スペイン語 (メキシコ)
`fr-CA`	フランス語 (カナダ)
`fr-FR`	フランス語 (フランス)
`he-IL`	ヘブライ語 (イスラエル)
`it-IT`	イタリア語 (イタリア)
`ja-JP`	日本語 (日本)
`ko-KR`	韓国語 (韓国)
`nb-NO`	ノルウェー語 (ブークモール) (ノルウェー)
`nl-NL`	オランダ語 (オランダ)
`pl-PL`	ポーランド語 (ポーランド)
`pt-PT`	ポルトガル語 (ポルトガル)
`sv-SE`	スウェーデン語 (スウェーデン)
`th-TH`	タイ語 (タイ)
`tr-TR`	トルコ語 (Türkiye)
`zh-CN`	中国語 (標準、簡体字)
`zh-HK`	中国語 (広東語、繁体字)
`zh-TW`	中国語 (台湾標準中国語、繁体字)

2024 年 6 月リリース

標準音声

特定のリージョン (東アジア、東南アジア、米国東部、米国西部、インド中部) で利用可能な 6 種類の新しい音声が、パブリックプレビューで導入されました。

ロケール	Language	テキスト読み上げ音声
`or-IN`	オディア語 (インド)	`or-IN-SubhasiniNeural` (女性)
`or-IN`	オディア語 (インド)	`or-IN-SukantNeural` (男性)
`pa-IN`	パンジャーブ語 (インド)	`pa-IN-VaaniNeural` (女性)
`pa-IN`	パンジャーブ語 (インド)	`pa-IN-OjasNeural` (男性)
`as-IN`	アッサム語 (インド)	`as-IN-YashicaNeural` (女性)
`as-IN`	アッサム語 (インド)	`as-IN-PriyomNeural` (男性)

詳しくは、言語と音声の完全な一覧をご覧ください。

テキスト読み上げ機能付きアバター

テキスト読み上げアバターは、東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国西部 2 の各リージョンをサポートするようになりました。詳細については、Speech サービスのリージョンに関するページを参照してください。

2024 年 5 月のリリース

パーソナル音声 (GA)

パーソナル音声が一般提供になりました。 Personal Voice を使うと、自分 (またはアプリケーションのユーザー) の声から AI が生成したレプリケーションを、数秒で取得できます。音声プロンプトとして 1 分間のスピーチサンプルを提供すると、それを使用し、100 以上のロケールで 90 以上の言語に対応した音声が生成されます。詳細については、「パーソナル音声の概要」を参照してください。

標準音声

パブリックプレビューで 8 つの新しい多言語音声を導入: en-GB-AdaMultilingualNeural、en-GB-OllieMultilingualNeural、es-ES-ArabellaMultilingualNeural、es-ES-IsidoraMultilingualNeural、it-IT-AlessioMultilingualNeural、it-IT-IsabellaMultilingualNeural、it-IT-MarcelloMultilingualNeural、pt-BR-ThalitaMultilingualNeural。詳しくは、言語と音声の完全な一覧をご覧ください。
パブリックプレビューでコールセンターシナリオ用に最適化された 2 つの新しい en-US 音声 (en-US-LunaNeural と en-US-KaiNeural) を導入。詳しくは、言語と音声の完全な一覧をご覧ください。

2024 年 4 月リリース

テキスト読み上げ機能付きアバター

これで自分のアバターに静的な背景画像を設定できるようになりました。この機能を利用するには、avatarConfig.backgroundImage プロパティを使用し、目的のイメージを指す URL を指定するだけです。詳細については、「バッチ合成のアバタープロパティ」を参照してください。

2024 年 3 月のリリース

標準音声

en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、de-DE-FlorianMultilingualNeural、de-DE-SeraphinaMultilingualNeural、fr-FR-RemyMultilingualNeural、fr-FR-VivienneMultilingualNeural、zh-CN-XiaoxiaoMultilingualNeuralの 9 つの多言語音声がすべてのリージョンで一般公開されています。詳しくは、言語と音声の完全な一覧をご覧ください。
パブリックプレビュー用に新しい多言語音声である ja-JP-MasaruMultilingualNeural が導入されました。詳しくは、言語と音声の完全な一覧をご覧ください。
追加の更新:
- en-US-RyanMultilingualNeural がすべてのリージョンで一般公開されています。
- en-US-JennyMultilingualV2Neural がすべてのリージョンで一般公開されており、en-US-JennyMultilingualNeural と統合されます。
- 米国東部、西ヨーロッパ、東南アジアの 3 つの新しいスタイルを使用して、更新された en-IN-NeerjaNeural と hi-IN-SwaraNeural でプレビューを利用できます。
- インド中部で利用可能な新しい女性の声のプレビュー: en-IN-KavyaNeural、en-IN-AnanyaNeural、en-IN-AashiNeural、hi-IN-KavyaNeural、および hi-IN-AnanyaNeural。

テキスト読み上げ機能付きアバター

リアルタイムアバターに対する Azure Communication Services (ACS) TURN の依存関係を削除しました。この変更を反映するようにサンプルコードも更新されました。
テキスト読み上げアバターの価格を公開しました。詳細については、価格に関するページをご覧ください。アバターの価格は、その機能が利用可能なサービスリージョンでのみ表示されることに注意してください。

2024 年 2 月のリリース

OpenAI の音声

Azure AI 音声サービスは、米国中北部およびスウェーデン中部のリージョンで OpenAI テキスト読み上げの音声がサポートしています。 Azure AI 音声の音声と同様、OpenAI テキスト読み上げ音声では、高品質の音声合成を実現し、書かれたテキストを自然な音声に変換します。これにより、没入型で対話形式のユーザーエクスペリエンスの可能性が広がります。詳細については、「OpenAI テキスト読み上げの音声とは」を参照してください。

メモ

OpenAI テキスト読み上げ音声は、 Azure OpenAI でも使用できます。
この更新プログラムでは、Azure AI Speech を使用して標準音声の価格を調整しました。更新された価格については、こちらをご覧ください。

パーソナルボイス

パーソナル音声機能で DragonLatestNeural および PhoenixLatestNeural モデルがサポートされるようになりました。これらの新しいモデルでは、合成音声の自然さが向上し、プロンプトの音声が持つ音声の特徴により似たものになります。詳細については、「アプリケーションに Personal Voice を統合する」を参照してください。

2023 年 12 月のリリース

カスタム音声 API

Custom Voice API は、プロフェッショナルおよび個人用のカスタムニューラル音声モデルを作成および管理するために使用できます。

カスタムニューラル音声

新しくトレーニングされた音声モデルでモデルのバージョンに関係なく 48 kHz のサンプルレートがサポートされるようになりました。以前にトレーニング済みの音声モデルでは、サンプルレートを 48 kHz に強化するには、エンジンのバージョンを少なくとも 2023.11.13.0 バージョンにアップグレードする必要があります。

標準音声

パブリックプレビュー用に新しい多言語音声が導入されました。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`de-DE`	ドイツ語 (ドイツ)	`de-DE-FlorianMultilingualNeural` (男性)
`de-DE`	ドイツ語 (ドイツ)	`de-DE-SeraphinaMultilingualNeural` (女性)
`en-US`	英語 (米国)	`en-US-AvaMultilingualNeural` (女性)
`en-US`	英語 (米国)	`en-US-EmmaMultilingualNeural` (女性)
`fr-FR`	フランス語 (フランス)	`fr-FR-RemyMultilingualNeural` (男性)
`en-US`	英語 (米国)	`en-US-BrianMultilingualNeural` (男性)
`en-US`	英語 (米国)	`en-US-AndrewMultilingualNeural` (男性)
`fr-FR`	フランス語 (フランス)	`fr-FR-VivienneMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaoxiaoMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaochenMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-YunyiMultilingualNeural` (男性)

いくつかの中国語の方言とアクセントをサポートするパブリックプレビュー用の新しい zh-CN-XiaoxiaoDialectsNeural 音声を紹介します。

音声名	第二言語	方言/アクセント
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	中国語 (陝西中原方言、簡体字)
	`zh-CN-sichuan`	中国語 (南西部標準中国語、簡体字)
	`zh-CN-shanxi`	中国語 (山西アクセントの標準中国語、簡体字)
	`nan-CN`	中国語 (福建、簡体字)
	`zh-CN-anhui`	中国語 (江淮標準中国語安徽、簡体字)
	`zh-CN-hunan`	中国語 (湖南アクセントの標準中国語、簡体字)
	`zh-CN-gansu`	中国語 (蘭銀標準中国語甘粛、簡体字)
	`zh-CN-shandong`	中国語 (冀魯官話、簡体)
	`zh-CN-henan`	中国語 (中原官話河南、簡体) 河南アクセント
	`zh-CN-liaoning`	中国語 (東北官話、簡体)
	`zh-TW`	中国語 (台湾標準中国語、繁体字)

2023 年 11 月のリリース

パーソナルボイス

Personal Voice は次のリージョンでプレビュー段階です: 西ヨーロッパ、米国東部、東南アジア。 Personal Voice (プレビュー) を使用すると、AI が生成したユーザー (またはアプリケーションのユーザー) の音声のレプリケーションを数秒で取得できます。音声プロンプトとして 1 分間のスピーチサンプルを提供すると、それを使用し、100 以上のロケールで 90 以上の言語に対応した音声が生成されます。

詳細については、「Personal Voice」を参照してください。

テキスト読み上げ機能付きアバター

テキスト読み上げアバターは、次のリージョンでプレビュー段階です: 米国西部 2、西ヨーロッパ、東南アジア。

テキスト読み上げアバターは、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します (標準のアバターまたはカスタムのテキスト読み上げアバター)。テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオコンテンツの作成ができます。

詳細については、「テキスト読み上げアバター」、「透明性のためのメモ」、「音声とアバターのタレント」に関する開示を参照してください。

カスタムニューラル音声

クロス言語音声用の 24 個の新しいロケールのサポートが追加されました。詳しくは、言語の完全な一覧をご覧ください。

標準音声

パブリックプレビュー用に新しい音声が導入されました。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`de-DE`	ドイツ語 (ドイツ)	`SeraphinaNeural` (女性)
`es-ES`	スペイン語（スペイン）	`XimenaNeural` (女性)
`fr-CA`	フランス語 (カナダ)	`ThierryNeural` (男性)
`fr-FR`	フランス語 (フランス)	`VivienneNeural` (女性)
`it-IT`	イタリア語 (イタリア)	`GiuseppeNeural` (男性)
`ko-KR`	韓国語 (韓国)	`HyunsuNeural` (男性)
`pt-BR`	ポルトガル語 (ブラジル)	`ThalitaNeural` (女性)

バグ修正および品質の向上を含むモデルの更新:

ロケール (BCP-47)	Language	テキスト読み上げ音声
`es-ES`	スペイン語（スペイン）	`AlvaroNeural` (男性)
`en-GB`	英語 (イギリス)	`RyanNeural` (男性)
`ko-KR`	韓国語 (韓国)	`InjoonNeural` (男性)

詳しくは、言語と音声の完全な一覧をご覧ください。

2023 年 10 月のリリース

カスタムニューラル音声

カスタムニューラル音声 Pro で 12 個の新しいロケールのサポートが追加されました。詳しくは、言語の完全な一覧をご覧ください。

2023 年 9 月のリリース

標準音声

パブリックプレビュー用に新しい音声が導入されました。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-EmmaNeural` (女性)
`en-US`	英語 (米国)	`en-US-AndrewNeural` (男性)
`en-US`	英語 (米国)	`en-US-BrianNeural` (男性)

詳しくは、言語と音声の完全な一覧をご覧ください。

埋め込み型ニューラル音声

こちらの 147 個すべてのロケール (fa-IR、ペルシャ語 (イラン) を除く) は、選択した 1 つの女性または 1 つの男性の音声ですぐに使用できます。

2023 年 8 月リリース

カスタムニューラル音声

最新の CNV Lite トレーニングレシピバージョンがリリースされました。このリリースでは、言語モジュールの品質についていくつかの機能強化が行われています。 Speech Studio をお試しください。

2023 年 7 月リリース

カスタムニューラル音声

マルチスタイルの音声は一般提供されています。
マルチスタイルの音声用のパブリックプレビューで、2 つの新しいロケール (ja-JP と zh-CN) が追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。さまざまな言語のプリセットスタイルリストを参照してください。
クロス言語音声は一般提供されています。
クロス言語音声用の 2 つの新しいロケール (id-ID と nl-NL) が追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。

標準音声

パブリックプレビュー用の新しい en-US 性別に依存しない音声の導入:

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-BlueNeural` (ニュートラル)

パブリックプレビュー用に新しい多言語音声が導入されました。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-JennyMultilingualV2Neural` (女性)
`en-US`	英語 (米国)	`en-US-RyanMultilingualNeural` (男性)

多言語音声 en-US-JennyMultilingualV2Neural および en-US-RyanMultilingualNeural は、入力テキストの言語を自動検出します。ただし、<lang> 要素を使用して、これらの音声の読み上げ言語を調整することはできます。

これらの新しい多言語音声では、41 の言語およびアクセント (Arabic (Egypt)、Arabic (Saudi Arabia)、Catalan、Czech (Czechia)、Danish (Denmark)、German (Austria)、German (Switzerland)、German (Germany)、English (Australia)、English (Canada)、English (United Kingdom)、English (Hong Kong SAR)、English (Ireland)、English (India)、English (United States)、Spanish (Spain)、Spanish (Mexico)、Finnish (Finland)、French (Belgium)、French (Canada)、French (Switzerland)、French (France)、Hindi (India)、Hungarian (Hungary)、Indonesian (Indonesia)、Italian (Italy)、Japanese (Japan)、Korean (Korea)、Norwegian Bokmål (Norway)、Dutch (Belgium)、Dutch (Netherlands)、Polish (Poland)、Portuguese (Brazil)、Portuguese (Portugal)、Russian (Russia)、Swedish (Sweden)、Thai (Thailand)、Turkish (Türkiye)、Chinese (Mandarin, Simplified)、Chinese (Cantonese, Traditional)、Chinese (Taiwanese Mandarin, Traditional)) で読み上げることができます。

これらの多言語音声では、break、emphasis、silence、sub などの特定の SSML 要素は完全にサポートされていません。

重要

en-US-JennyMultilingualV2Neural 音声は、パブリックプレビューで評価目的のためにのみ一時的に提供されています。これは、今後削除される予定です。

英語以外の言語で読み上げるには、en-US-JennyMultilingualNeural 音声の現在の実装で <lang xml:lang> 要素を設定する必要があります。 en-US-JennyMultilingualNeural 音声は、2023 年第 4 四半期中に、<lang xml:lang> 要素を設定しなくても入力テキストの言語で読み上げるように更新される予定です。これは、en-US-JennyMultilingualV2Neural 音声と同等になります。

次の音声のパブリックプレビューに新機能が導入されました:

セルビア語 (セルビア) sr-RS の音声のラテン語入力を追加: sr-latn-RS-SophieNeural および sr-latn-RS-NicholasNeural。
アルバニア語（アルバニア）sq-AL の音声に英語の発音サポートを追加しました: sq-AL-AnilaNeuralおよびsq-AL-IlirNeural.

2023 年 5 月リリース

Audio Content Creation

話すスタイルとマルチスタイルのカスタム音声を使用するすべての標準音声は、スタイルの程度の調整をサポートします。
単語を読み上げて録音することで、単語の発音を修正できるようになりました。音素は録音から自動的に認識できます。 読み上げによる認識機能は、パブリックプレビュー段階です。

2023 年 4 月のリリース

標準音声

これらの音声の次の機能は、パブリックプレビューから GA に移行されました。

スタイル	テキスト読み上げ音声
style="chat"	`en-GB-RyanNeural`、`es-MX-JorgeNeural`、`it-IT-IsabellaNeural`
スタイル="明るい"	`en-GB-RyanNeural`、`en-GB-SoniaNeural`、`es-MX-JorgeNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural`、`it-IT-IsabellaNeural`
スタイル="悲しい"	`en-GB-SoniaNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural`

hi-IN、ta-IN、te-IN の音声の英語の発音を改善し、パブリックプレビューリージョンでフライト化しています

詳細については、言語と音声の一覧を参照してください。

2023 年 3 月のリリース

新機能

音声合成マークアップ言語 (SSML) が更新され、デバイス上の特定のシナリオに合わせて合成音声出力の品質を最適化するオーディオ効果プロセッサ要素がサポートされるようになりました。音声合成マークアップに関するページで詳細を確認してください。

カスタムニューラル音声

nl-BE Pro でロケールのサポートが追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。

標準音声

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-AU`	英語 (オーストラリア)	`en-AU-AnnetteNeural` (女性) `en-AU-CarlyNeural` (女性) `en-AU-DarrenNeural` (男性) `en-AU-DuncanNeural` (男性) `en-AU-ElsieNeural` (女性) `en-AU-FreyaNeural` (女性) `en-AU-JoanneNeural` (女性) `en-AU-KenNeural` (男性) `en-AU-KimNeural` (女性) `en-AU-NeilNeural` (男性) `en-AU-TimNeural` (男性) `en-AU-TinaNeural` (女性) `en-AU-WilliamNeural` (男性)
`en-GB`	英語 (イギリス)	`en-GB-RyanNeural` (男性) `en-GB-SoniaNeural` (女性)
`es-ES`	スペイン語（スペイン）	`es-ES-AbrilNeural` (女性) `es-ES-ArnauNeural` (男性) `es-ES-DarioNeural` (男性) `es-ES-EliasNeural` (男性) `es-ES-EstrellaNeural` (女性) `es-ES-IreneNeural` (女性) `es-ES-LaiaNeural` (女性) `es-ES-LiaNeural` (女性) `es-ES-NilNeural` (男性) `es-ES-SaulNeural` (男性) `es-ES-TeoNeural` (男性) `es-ES-TrianaNeural` (女性) `es-ES-VeraNeural` (女性)
`es-MX`	スペイン語 (メキシコ)	`es-MX-JorgeNeural` (男性)
`fr-FR`	フランス語 (フランス)	`fr-FR-HenriNeural` (男性)
`it-IT`	イタリア語 (イタリア)	`it-IT-IsabellaNeural` (女性)
`ja-JP`	日本語 (日本)	`ja-JP-AoiNeural` (女性) `ja-JP-DaichiNeural` (男性) `ja-JP-MayuNeural` (女性) `ja-JP-NaokiNeural` (男性) `ja-JP-ShioriNeural` (女性)

cheerful 音声を使用した de-DE-ConradNeural スタイルのサポートが追加されました。

2023 年 2 月のリリース

標準音声

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaomengNeural` (女性) `zh-CN-XiaoyiNeural` (女性) `zh-CN-XiaozhenNeural` (女性) `zh-CN-YunfengNeural` (男性) `zh-CN-YunhaoNeural` (男性) `zh-CN-YunjianNeural` (男性) `zh-CN-YunxiaNeural` (男性) `zh-CN-YunzeNeural` (男性)
`zh-CN-henan`	中国語 (中原官話河南、簡体) 河南アクセント	`zh-CN-henan-YundengNeural` (男性)

2022 年 12 月のリリース

バッチ合成 REST API (プレビュー)

バッチ合成 API は現在パブリックプレビュー段階です。その一般提供が開始された後、Long Audio API は非推奨となります。詳細については、バッチ合成 API への移行に関する記事を参照してください。

2022 年 11 月のリリース

標準音声 (GA)

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`es-MX`	スペイン語 (メキシコ)	`es-MX-BeatrizNeural` (女性) `es-MX-CandelaNeural` (女性) `es-MX-CarlotaNeural` (女性) `es-MX-CecilioNeural` (男性) `es-MX-GerardoNeural` (男性) `es-MX-LarissaNeural` (女性) `es-MX-LibertoNeural` (男性) `es-MX-LucianoNeural` (男性) `es-MX-MarinaNeural` (女性) `es-MX-NuriaNeural` (女性) `es-MX-PelayoNeural` (男性) `es-MX-RenataNeural` (女性) `es-MX-YagoNeural` (男性)
`it-IT`	イタリア語 (イタリア)	`it-IT-BenignoNeural` (男性) `it-IT-CalimeroNeural` (男性) `it-IT-CataldoNeural` (男性) `it-IT-FabiolaNeural` (女性) `it-IT-FiammaNeural` (女性) `it-IT-GianniNeural` (男性) `it-IT-ImeldaNeural` (女性) `it-IT-IrmaNeural` (女性) `it-IT-LisandroNeural` (男性) `it-IT-PalmiraNeural` (女性) `it-IT-PierinaNeural` (女性) `it-IT-RinaldoNeural` (男性)
`pt-BR`	ポルトガル語 (ブラジル)	`pt-BR-BrendaNeural` (女性) `pt-BR-DonatoNeural` (男性) `pt-BR-ElzaNeural` (女性) `pt-BR-FabioNeural` (男性) `pt-BR-GiovannaNeural` (女性) `pt-BR-HumbertoNeural` (男性) `pt-BR-JulioNeural` (男性) `pt-BR-LeilaNeural` (女性) `pt-BR-LeticiaNeural` (女性) `pt-BR-ManuelaNeural` (女性) `pt-BR-NicolauNeural` (男性) `pt-BR-ValerioNeural` (男性) `pt-BR-YaraNeural` (女性)

カスタムニューラル音声

カスタムニューラル音声では、次のロケールのサポートが追加されています。詳しくは、言語と音声の完全な一覧をご覧ください。

カスタムニューラル音声 Pro で fr-BE ロケールのサポートが追加されました。
カスタムニューラル音声 Lite で es-ES ロケールのサポートが追加されました。

2022 年 10 月のリリース

標準音声 (GA)

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`eu-ES`	バスク語	`eu-ES-AinhoaNeural` (女性) `eu-ES-AnderNeural` (男性)
`hy-AM`	アルメニア語 (アルメニア)	`hy-AM-AnahitNeural` (女性) `hy-AM-HaykNeural` (男性)

標準音声 (プレビュー)

次の音声が、パブリックプレビューで使用できるようになりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	Language	テキスト読み上げ音声
`en-AU`	英語 (オーストラリア)	`en-AU-AnnetteNeural` (女性) `en-AU-CarlyNeural` (女性) `en-AU-DarrenNeural` (男性) `en-AU-DuncanNeural` (男性) `en-AU-ElsieNeural` (女性) `en-AU-FreyaNeural` (女性) `en-AU-JoanneNeural` (女性) `en-AU-KenNeural` (男性) `en-AU-KimNeural` (女性) `en-AU-NeilNeural` (男性) `en-AU-TimNeural` (男性) `en-AU-TinaNeural` (女性)
`es-ES`	スペイン語（スペイン）	`es-ES-AbrilNeural` (女性) `es-ES-AlvaroNeural` (男性) `es-ES-ArnauNeural` (男性) `es-ES-DarioNeural` (男性) `es-ES-EliasNeural` (男性) `es-ES-EstrellaNeural` (女性) `es-ES-IreneNeural` (女性) `es-ES-LaiaNeural` (女性) `es-ES-LiaNeural` (女性) `es-ES-NilNeural` (男性) `es-ES-SaulNeural` (男性) `es-ES-TeoNeural` (男性) `es-ES-TrianaNeural` (女性) `es-ES-VeraNeural` (女性)
`ja-JP`	日本語 (日本)	`ja-JP-AoiNeural` (女性) `ja-JP-DaichiNeural` (男性) `ja-JP-MayuNeural` (女性) `ja-JP-NaokiNeural` (男性) `ja-JP-ShioriNeural` (女性)
`ko-KR`	韓国語 (韓国)	`ko-KR-BongJinNeural` (男性) `ko-KR-GookMinNeural` (男性) `ko-KR-JiMinNeural` (女性) `ko-KR-SeoHyeonNeural` (女性) `ko-KR-SoonBokNeural` (女性) `ko-KR-YuJinNeural` (女性)
`wuu-CN`	中国語 (呉語、簡体字)	`wuu-CN-XiaotongNeural` (女性) `wuu-CN-YunzheNeural` (男性)
`yue-CN`	中国語 (広東語、簡体字)	`yue-CN-XiaoMinNeural` (女性) `yue-CN-YunSongNeural` (男性)

TTS 音声の一般的な更新

fil-PH-AngeloNeural と fil-PH-BlessicaNeural の音声の品質が向上しました。
es-CL スペイン語 (チリ) と uz-UZ ウズベク語 (ウズベキスタン) ロケールの音声についてテキスト正規化ルールが更新されます。
sq-AL アルバニア語 (アルバニア) と az-AZ アゼルバイジャン語 (アゼルバイジャン) ロケールの音声について英語文字のスペルが追加されました。
zh-HK-WanLungNeural 音声の英語発音が改善されました。
nl-NL-MaartenNeural と pt-BR-AntonioNeural の音声の質問のトーンが改善されました。
次の音声で英語の発音を向上させる <lang ="en-US"> タグのサポートを追加しました: de-DE-ConradNeural、de-DE-KatjaNeural、es-ES-AlvaroNeural、es-MX-DaliaNeural、es-MX-JorgeNeural、fr-CA-SylvieNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-DiegoNeural、it-IT-IsabellaNeural。
次の音声での style="chat" タグのサポートが追加されました: en-GB-RyanNeural、es-MX-JorgeNeural、it-IT-IsabellaNeural。
次の音声での style="cheerful" タグのサポートが追加されました: en-GB-RyanNeural、en-GB-SoniaNeural、es-MX-JorgeNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-IsabellaNeural。
次の音声での style="sad" タグのサポートが追加されました: en-GB-SoniaNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural。

2022 年 9 月のリリース

標準音声

すべての標準音声は、48kHz サンプルレートで高忠実度の音声にアップグレードされています。

2022 年 8 月のリリース

標準音声

パブリックプレビューで新しい音声をリリースしました。

英語 (米国) の音声: en-US-AIGenerate1Neural および en-US-AIGenerate2Neural。
中国語のリージョン言語に対応した音声: zh-CN-henan-YundengNeural、zh-CN-shaanxi-XiaoniNeural、および zh-CN-shandong-YunxiangNeural。

詳細については、言語と音声の一覧を参照してください。

2022 年 7 月のリリース

標準音声

パブリックプレビューで、zh-CN 中国語 (標準中国語、簡体字) の新しい 5 つの音声と en-US 英語 (米国) の新しい音声 1 つを追加しました。言語と音声の完全な一覧を参照してください。

Language	ロケール	ジェンダー	音声名	スタイルのサポート
中国語 (標準、簡体字)	`zh-CN`	女性	`zh-CN-XiaomengNeural` ^{[新規作成]}	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	女性	`zh-CN-XiaoyiNeural` ^{[新規作成]}	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	女性	`zh-CN-XiaozhenNeural` ^{[新規作成]}	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	男性	`zh-CN-YunxiaNeural` ^{[新規作成]}	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	男性	`zh-CN-YunzeNeural` ^{[新規作成]}	SSML の使用により、全般、複数のスタイルを使用可能
英語 (米国)	`en-US`	男性	`en-US-RogerNeural` ^{[新規作成]}	全般

新たに追加されたニューラル音声でサポートされているスタイルと役割。

Voice	スタイル	話し方の強度	役割
zh-CN-XiaomengNeural ^{パブリックプレビュー}	`chat`	サポートされています
zh-CN-XiaoyiNeural ^{パブリックプレビュー}	`affectionate`、 `angry`、 `cheerful`、 `disgruntled`、 `embarrassed`、 `fearful`、 `gentle`、 `sad`、 `serious`	サポートされています
zh-CN-XiaozhenNeural ^{パブリックプレビュー}	`angry`、`cheerful`、`disgruntled`、`fearful`、`sad`、`serious`	サポートされています
zh-CN-YunxiaNeural ^{パブリックプレビュー}	`angry`、`calm`、`cheerful`、`fearful`、`sad`	サポートされています
zh-CN-YunzeNeural ^{パブリックプレビュー}	`angry`、 `calm`、 `cheerful`、 `depressed`、 `disgruntled`、 `documentary-narration`、 `fearful`、 `sad`、 `serious`	サポートされています	サポートされています

ビセームを活用して顔の位置を取得する

デザインした 3D キャラクターの顔を動かすためのブレンドシェイプのサポートが追加されました。詳細については、口形素を使用して顔の位置を取得する方法に関する記事をご覧ください。
口形素要素をサポートするように SSML が更新されました。「音声合成マークアップ」をご覧ください。

2022 年 6 月のリリース

標準音声

ニューラルテキスト読み上げ用に 9 の新しい言語とバリアントを追加しました。

Language	ロケール	ジェンダー	音声名	スタイルのサポート
アラビア語 (レバノン)	`ar-LB`	女性	`ar-LB-LaylaNeural` ^{[新規作成]}	全般
アラビア語 (レバノン)	`ar-LB`	男性	`ar-LB-RamiNeural` ^{[新規作成]}	全般
アラビア語 (オマーン)	`ar-OM`	女性	`ar-OM-AyshaNeural` ^{[新規作成]}	全般
アラビア語 (オマーン)	`ar-OM`	男性	`ar-OM-AbdullahNeural` ^{[新規作成]}	全般
アゼルバイジャン語 (アゼルバイジャン)	`az-AZ`	女性	`az-AZ-BabekNeural` ^{[新規作成]}	全般
アゼルバイジャン語 (アゼルバイジャン)	`az-AZ`	男性	`az-AZ-BanuNeural` ^{[新規作成]}	全般
ボスニア語 (ボスニア・ヘルツェゴビナ)	`bs-BA`	女性	`bs-BA-VesnaNeural` ^{[新規作成]}	全般
ボスニア語 (ボスニア・ヘルツェゴビナ)	`bs-BA`	男性	`bs-BA-GoranNeural` ^{[新規作成]}	全般
グルジア語 (グルジア)	`ka-GE`	女性	`ka-GE-EkaNeural` ^{[新規作成]}	全般
グルジア語 (グルジア)	`ka-GE`	男性	`ka-GE-GiorgiNeural` ^{[新規作成]}	全般
モンゴル語 (モンゴル)	`mn-MN`	女性	`mn-MN-YesuiNeural` ^{[新規作成]}	全般
モンゴル語 (モンゴル)	`mn-MN`	男性	`mn-MN-BataaNeural` ^{[新規作成]}	全般
ネパール語 (ネパール)	`ne-NP`	女性	`ne-NP-HemkalaNeural` ^{[新規作成]}	全般
ネパール語 (ネパール)	`ne-NP`	男性	`ne-NP-SagarNeural` ^{[新規作成]}	全般
アルバニア語 (アルバニア)	`sq-AL`	女性	`sq-AL-AnilaNeural` ^{[新規作成]}	全般
アルバニア語 (アルバニア)	`sq-AL`	男性	`sq-AL-IlirNeural` ^{[新規作成]}	全般
タミール語 (マレーシア)	`ta-MY`	女性	`ta-MY-KaniNeural` ^{[新規作成]}	全般
タミール語 (マレーシア)	`ta-MY`	男性	`ta-MY-SuryaNeural` ^{[新規作成]}	全般

en-GB 英語 (イギリス)、fr-FR フランス語 (フランス)、de-DE ドイツ語 (ドイツ) の 36 の音声がパブリックプレビューから一般提供へ:

Language	ロケール	ジェンダー	音声名	スタイルのサポート
英語 (イギリス)	`en-GB`	女性	`en-GB-AbbiNeural`	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-BellaNeural`	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-HollieNeural`	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-MaisieNeural`	全般、子供の声
英語 (イギリス)	`en-GB`	女性	`en-GB-OliviaNeural`	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-SoniaNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-AlfieNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-ElliotNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-EthanNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-NoahNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-OliverNeural`	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-ThomasNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-BrigitteNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-CelesteNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-CoralieNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-EloiseNeural`	全般、子供の声
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-JacquelineNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-JosephineNeural`	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-YvetteNeural`	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-AlainNeural`	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-ClaudeNeural`	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-JeromeNeural`	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-MauriceNeural`	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-YvesNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-AmalaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-ElkeNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-GiselaNeural`	全般、子供の声
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-KlarissaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-LouisaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-MajaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-TanjaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-BerndNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-ChristophNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KasperNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KillianNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KlausNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-RalfNeural`	全般

es-MX スペイン語 (メキシコ)、it-IT イタリア語 (イタリア)、pt-BR ポルトガル語 (ブラジル) の 40 の新しい音声、および zh-CN 中国語 (標準中国語、簡体字中国語) の 2 つのアクセントをパブリックプレビューで追加:

Language	ロケール	ジェンダー	音声名	スタイルのサポート
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-BeatrizNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-CarlotaNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-NuriaNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-RenataNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-LarissaNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-CandelaNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	女性	`es-MX-MarinaNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-FiammaNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-IrmaNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-FabiolaNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-PalmiraNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-ImeldaNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	女性	`it-IT-PierinaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-ElzaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-ManuelaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-BrendaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-LeilaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-YaraNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-GiovannaNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	女性	`pt-BR-LeticiaNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-CecilioNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-LibertoNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-LucianoNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-PelayoNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-YagoNeural` ^{[新規作成]}	全般
スペイン語 (メキシコ)	`es-MX`	男性	`es-MX-GerardoNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-BenignoNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-CataldoNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-LisandroNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-CalimeroNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-RinaldoNeural` ^{[新規作成]}	全般
イタリア語 (イタリア)	`it-IT`	男性	`it-IT-GianniNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-DonatoNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-HumbertoNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-FabioNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-JulioNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-ValerioNeural` ^{[新規作成]}	全般
ポルトガル語 (ブラジル)	`pt-BR`	男性	`pt-BR-NicolauNeural` ^{[新規作成]}	全般
中国語 (標準、簡体字)	`zh-CN-sichuan`	男性	`zh-CN-sichuan-YunxiSichuanNeural` ^{[新規作成]}	標準的な四川のアクセント
中国語 (標準、簡体字)	`zh-CN-liaoning`	女性	`zh-CN-liaoning-XiaobeiNeural` ^{[新規作成]}	一般、遼寧アクセント

en-SG-LunaNeural と en-SG-WayneNeural の品質向上
48kHzの出力をパブリックプレビューでen-US-JennyNeural、en-US-AriaNeural、zh-CN-XiaoxiaoNeuralがサポートしています。

カスタムニューラル音声

データの問題をオンラインで修正できるようになりました。「Speech Studio でデータの問題を解決する方法」の詳細を確認してください。
トレーニングレシピバージョンが追加されました。詳細については、音声モデルのトレーニングレシピバージョンの選択に関するページを参照してください。

オーディオコンテンツ作成ツール

改ページがサポートされるようになりました。
作業ファイルページで、名前、ファイルの種類、更新時刻によるグローバルな並べ替えが可能になりました。

2022 年 5 月のリリース

標準音声

英語 (米国) の多様性を強化するために、パブリックプレビューで複数のスタイルで 5 つの新しい音声をリリースしました。言語と音声の完全な一覧を参照してください。
Angry のパブリックプレビューで、これらの新しいスタイル Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified、Whispering および en-US-AriaNeural をサポートします。
Angry、Cheerful のパブリックプレビューで、これらの新しいスタイル Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified、Whispering、en-US-GuyNeural および en-US-JennyNeural をサポートします。
Excited のパブリックプレビューで、これらの新しいスタイル Friendly、Hopeful、Shouting、Unfriendly、Terrified、Whispering および en-US-SaraNeural をサポートします。「音声のスタイルと役割」を参照してください。
パブリックプレビューで新しい音声 zh-CN-YunjianNeural、zh-CN-YunhaoNeural、zh-CN-YunfengNeural をリリースしました。言語と音声の完全な一覧を参照してください。
sports-commentary のパブリックプレビューで 2 つの新しいスタイル sports-commentary-excited、zh-CN-YunjianNeural をサポートします。「音声のスタイルと役割」を参照してください。
advertisement-upbeat のパブリックプレビューで 1 つの新しいスタイル zh-CN-YunhaoNeural をサポートします。「音声のスタイルと役割」を参照してください。
cheerful のスタイル sad と fr-FR-DeniseNeural はすべてのリージョンで一般提供されています。
SSML は、en-US および en-AU の音声の MathML 要素をサポートするように更新されました。音声合成マークアップに関するページで詳細を確認してください。

カスタムニューラル音声

音声モデルのトレーニング中にトレーニングを取り消すことができるようになりました。詳細については、トレーニングを取り消す方法に関するページを参照してください。
モデルを複製 (音声モデルの名前を変更) できるようになりました。詳細については、音声モデルの名前を変更する方法に関するページを参照してください。
独自のテストスクリプトを追加して音声モデルをテストできるようになりました。詳細については、テストスクリプトをアップロードする方法に関するページを参照してください。
音声モデルのエンジンバージョンを更新できるようになりました。詳細については、モデルのエンジンバージョンを更新する方法に関するページを参照してください。
サポートされるトレーニングリージョンが増えました。リージョンのサポートに関するページを参照してください。
カスタムニューラル音声 Lite で 10 個のロケールがサポートされるようになりました (プレビュー)。言語のサポートに関するページを参照してください。

オーディオコンテンツ作成ツール

Audio Content Creation ツールをサインインせずに試すことができるようになりました。
音素を調整するためのレイアウトが改良されました。
パフォーマンスの強化: 一度にアップロードされるファイルの最大数 (200) が指定されました。
パフォーマンスの強化: ディレクトリの最大階層レベル (5 レベル) が指定されました。

2022 年 3 月のリリース

標準音声

パブリックプレビューで、Cheerful を使った Sad および fr-FR-DeniseNeural スタイルのサポートが追加されました。「音声のスタイルと役割」を参照してください。
パブリックプレビューで切断されたコンテナーの標準音声をリリースしました。「切断された環境での Docker コンテナーの使用」を参照してください。

カスタムニューラル音声

ロールベースのアクセス制御をサポートしました。詳細については、「Speech Studio での Azure ロールベースのアクセス制御」を参照してください。
プライベートエンドポイントと仮想ネットワークサービスエンドポイントをサポートしました。詳細については、「Speech サービスでプライベートエンドポイントを使用する方法」を参照してください。

オーディオコンテンツ作成ツール

Free レベル (F0) リソースのファイルサイズとコンカレンシー制限を更新し、エクスペリエンスが Speech SDK および API と一致するようにしました。「Speech サービスのクォータと制限」を参照してください。

2022 年 2 月のリリース

カスタムニューラル音声

パブリックプレビューでカスタムニューラル音声 Lite をリリースしました。詳細については、カスタムニューラル音声 Lite に関するページを参照してください。
言語のサポートを 49 ロケールに拡張しました。言語のサポートに関するページを参照してください。
サポートされるリージョンとデータセンターの数が増えました。リージョンのサポートに関するページを参照してください。

オーディオコンテンツ作成ツール

音声をダウンロードする場合の出力の長さの制限を削除しました。

2022 年 1 月のリリース

新しい言語と音声

ニューラルテキスト読み上げ用に 10 の新しい言語とバリアントを追加しました。

Language	ロケール	ジェンダー	音声名	スタイルのサポート
ベンガル語 (インド)	`bn-IN`	女性	`bn-IN-TanishaaNeural` ^{[新規作成]}	全般
ベンガル語 (インド)	`bn-IN`	男性	`bn-IN-BashkarNeural` ^{[新規作成]}	全般
アイスランド語 (アイスランド)	`is-IS`	女性	`is-IS-GudrunNeural` ^{[新規作成]}	全般
アイスランド語 (アイスランド)	`is-IS`	男性	`is-IS-GunnarNeural` ^{[新規作成]}	全般
カンナダ語 (インド)	`kn-IN`	女性	`kn-IN-SapnaNeural` ^{[新規作成]}	全般
カンナダ語 (インド)	`kn-IN`	男性	`kn-IN-GaganNeural` ^{[新規作成]}	全般
カザフ語 (カザフスタン)	`kk-KZ`	女性	`kk-KZ-AigulNeural` ^{[新規作成]}	全般
カザフ語 (カザフスタン)	`kk-KZ`	男性	`kk-KZ-DauletNeural` ^{[新規作成]}	全般
ラオ (ラオス)	`lo-LA`	女性	`lo-LA-KeomanyNeural` ^{[新規作成]}	全般
ラオ (ラオス)	`lo-LA`	男性	`lo-LA-ChanthavongNeural` ^{[新規作成]}	全般
マケドニア語 (北マケドニア共和国)	`mk-MK`	女性	`mk-MK-MarijaNeural` ^{[新規作成]}	全般
マケドニア語 (北マケドニア共和国)	`mk-MK`	男性	`mk-MK-AleksandarNeural` ^{[新規作成]}	全般
マラヤーラム語 (インド)	`ml-IN`	女性	`ml-IN-SobhanaNeural` ^{[新規作成]}	全般
マラヤーラム語 (インド)	`ml-IN`	男性	`ml-IN-MidhunNeural` ^{[新規作成]}	全般
パシュトゥー語 (アフガニスタン)	`ps-AF`	女性	`ps-AF-LatifaNeural` ^{[新規作成]}	全般
パシュトゥー語 (アフガニスタン)	`ps-AF`	男性	`ps-AF-GulNawazNeural` ^{[新規作成]}	全般
セルビア語 (セルビア、キリル文字)	`sr-RS`	女性	`sr-RS-SophieNeural` ^{[新規作成]}	全般
セルビア語 (セルビア、キリル文字)	`sr-RS`	男性	`sr-RS-NicholasNeural` ^{[新規作成]}	全般
シンハラ語 (スリランカ)	`si-LK`	女性	`si-LK-ThiliniNeural` ^{[新規作成]}	全般
シンハラ語 (スリランカ)	`si-LK`	男性	`si-LK-SameeraNeural` ^{[新規作成]}	全般

利用可能なすべての音声の一覧については、言語サポートに関するページを参照してください。

プレビュー段階の新しい音声

プレビューで、en-GB、fr-FR、および de-DE の新しい音声を追加しました。

Language	ロケール	ジェンダー	音声名	スタイルのサポート
英語 (イギリス)	`en-GB`	女性	`en-GB-AbbiNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-BellaNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-HollieNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	女性	`en-GB-OliviaNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	少女	`en-GB-MaisieNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-AlfieNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-ElliotNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-EthanNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-NoahNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-OliverNeural` ^{[新規作成]}	全般
英語 (イギリス)	`en-GB`	男性	`en-GB-ThomasNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-BrigitteNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-CelesteNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-CoralieNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-JacquelineNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-JosephineNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	女性	`fr-FR-YvetteNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	少女	`fr-FR-EloiseNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-AlainNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-ClaudeNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-JeromeNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-MauriceNeural` ^{[新規作成]}	全般
フランス語 (フランス)	`fr-FR`	男性	`fr-FR-YvesNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-AmalaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-ElkeNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-KlarissaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-LouisaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-MajaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	女性	`de-DE-TanjaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	少女	`de-DE-GiselaNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-BerndNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-ChristophNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KasperNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KillianNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-KlausNeural` ^{[新規作成]}	全般
ドイツ語 (ドイツ)	`de-DE`	男性	`de-DE-RalfNeural` ^{[新規作成]}	全般

利用可能なすべての音声の一覧については、言語サポートに関するページを参照してください。

発音の正確性

すべてのhe-ILの音声で英語の単語の発音が改善されました。
cs-CZ と da-DK の単語レベルの発音の正確性が向上しました。
アラビア語の分音記号とヘブライ語のニクッドの処理が改善されました。
ja-JP のエンティティの読み取りが改善されました。

Speech Studio

カスタムニューラル音声: バッチ API (長いオーディオ API) を使用した追加のモデルテストを有効にしました
Audio Content Creation: より多くの出力形式を有効にしました。

2021 年 10 月のリリース

新しい言語と音声

ニューラルテキスト読み上げ用に 49 の新しい言語と 98 個の音声を追加しました。

af-ZA アフリカーンス語 (南アフリカ) の Adri、af-ZA アフリカーンス語 (南アフリカ) の Willem、am-ET アムハラ語 (エチオピア) の Mekdes、am-ET アムハラ語 (エチオピア) の Ameha、ar-AE アラビア語 (アラブ首長国連邦) の Fatima、ar-AE アラビア語 (アラブ首長国連邦) の Hamdan、ar-BH アラビア語 (バーレーン) の Laila、ar-BH アラビア語 (バーレーン) の Ali、ar-DZ アラビア語 (アルジェリア) の Amina、ar-DZ アラビア語 (アルジェリア) の Ismael、ar-IQ アラビア語 (イラク) の Rana、ar-IQ アラビア語 (イラク) の Bassel、ar-JO アラビア語 (ヨルダン) の Sana、ar-JO アラビア語 (ヨルダン) の Taim、ar-KW アラビア語 (クウェート) の Noura、ar-KW アラビア語 (クウェート) の Fahed、ar-LY アラビア語 (リビア) の Iman、ar-LY アラビア語 (リビア) の Omar、ar-MA アラビア語 (モロッコ) の Mouna、ar-MA アラビア語 (モロッコ) の Jamal、ar-QA アラビア語 (カタール) の Amal、ar-QA アラビア語 (カタール) の Moaz、ar-SY アラビア語 (シリア) の Amany、ar-SY アラビア語 (シリア) の Laith、ar-TN アラビア語 (チュニジア) の Reem、ar-TN アラビア語 (チュニジア) の Hedi、ar-YE アラビア語 (イエメン) の Maryam、ar-YE アラビア語 (イエメン) の Saleh、bn-BD バングラ語 (バングラデシュ) の Nabanita、bn-BD バングラ語 (バングラデシュ) の Pradeep、en-KE 英語 (ケニア) の Asilia、en-KE 英語 (ケニア) の Chilemba、en-NG 英語 (ナイジェリア) の Ezinne、en-NG 英語 (ナイジェリア) の Abeo、en-TZ 英語 (タンザニア) の Imani、en-TZ 英語 (タンザニア) の Elimu、es-BO スペイン語 (ボリビア) の Sofia、es-BO スペイン語 (ボリビア) の Marcelo、es-CL スペイン語 (チリ) の Catalina、es-CL スペイン語 (チリ) の Lorenzo、es-CR スペイン語 (コスタリカ) の Maria、es-CR スペイン語 (コスタリカ) の Juan、es-CU スペイン語 (キューバ) の Belkys、es-CU スペイン語 (キューバ) の Manuel、es-DO スペイン語 (ドミニカ共和国) の Ramona、es-DO スペイン語 (ドミニカ共和国) の Emilio、es-EC スペイン語 (エクアドル) の Andrea、es-EC スペイン語 (エクアドル) の Luis、es-GQ スペイン語 (赤道ギニア) の Teresa、es-GQ スペイン語 (赤道ギニア) の Javier、es-GT スペイン語 (グアテマラ) の Marta、es-GT スペイン語 (グアテマラ) の Andres、es-HN スペイン語 (ホンジュラス) の Karla、es-HN スペイン語 (ホンジュラス) の Carlos、es-NI スペイン語 (ニカラグア) の Yolanda、es-NI スペイン語 (ニカラグア) の Federico、es-PA スペイン語 (パナマ) の Margarita、es-PA スペイン語 (パナマ) の Roberto、es-PE スペイン語 (ペルー) の Camila、es-PE スペイン語 (ペルー) の Alex、es-PR スペイン語 (プエルトリコ) の Karina、es-PR スペイン語 (プエルトリコ) の Victor、es-PY スペイン語 (パラグアイ) の Tania、es-PY スペイン語 (パラグアイ) の Mario、es-SV スペイン語 (エルサルバドル) の Lorena、es-SV スペイン語 (エルサルバドル) の Rodrigo、es-UY スペイン語 (ウルグアイ) の Valentina、es-UY スペイン語 (ウルグアイ) の Mateo、es-VE スペイン語 (ベネズエラ) の Paola、es-VE スペイン語 (ベネズエラ) の Sebastian、fa-IR ペルシャ語 (イラン) の Dilara、fa-IR ペルシャ語 (イラン) の Farid、fil-PH フィリピン語 (フィリピン) の Blessica、fil-PH フィリピン語 (フィリピン) の Angelo、gl-ES ガリシア語の Sabela、gl-ES ガリシア語の Roi、jv-ID ジャワ語 (インドネシア) の Siti、jv-ID ジャワ語 (インドネシア) の Dimas、km-KH クメール語 (カンボジア) の Sreymom、km-KH クメール語 (カンボジア) の Piseth、my-MM ミャンマー語 (ミャンマー) の Nilar、my-MM ミャンマー語 (ミャンマー) の Thiha、so-SO ソマリ語 (ソマリア) の Ubax、so-SO ソマリ語 (ソマリア) の Muuse、su-ID スンダ語 (インドネシア) の Tuti、su-ID スンダ語 (インドネシア) の Jajang、sw-TZ スワヒリ語 (タンザニア) の Rehema、sw-TZ スワヒリ語 (タンザニア) の Daudi、ta-LK タミル語 (スリランカ) の Saranya、ta-LK タミル語 (スリランカ) の Kumar、ta-SG タミル語 (シンガポール) の Venba、ta-SG タミル語 (シンガポール) の Anbu、ur-IN ウルドゥー語 (インド) の Gul、ur-IN ウルドゥー語 (インド) の Salman、uz-UZ ウズベク語 (ウズベキスタン) の Madina、uz-UZ ウズベク語 (ウズベキスタン) の Sardor、zu-ZA ズールー語 (南アフリカ) の Thando、zu-ZA ズールー語 (南アフリカ) の Themba。

2021 年 9 月のリリース

en-US 英語 (米国) の新しいチャットボット音声: Sara はくだけた話し方をする若い女性を表わし、チャットボットのシナリオに最適です。
ja-JP 日本語音声 Nanami の新しいスタイルを追加: Nanami では、3 つの新しいスタイルとしてチャット、カスタマーサービス、陽気な雰囲気を使用できるようになりました。
発音全般の改善: id-ID の Ardi、th-TH の Premwadee、da-DK の Christel、vi-VN の HoaiMy と NamMinh。
プレビューの zh-CN 中国語 (北京官話、中国) に 2 つの新しい音声: 自然な音声とカスタマーサービスのシナリオに最適化された Xiaochen と Xiaoyan。

2021 年 7 月のリリース

ニューラルテキスト読み上げの更新

ヘブライ語での発音エラーが 20% 減りました。

Speech Studio の更新

カスタムニューラル音声: トレーニングパイプラインが UniTTSv3 に更新されたことにより、モデルの品質が向上する一方で、音響モデルのトレーニング時間は 50% 短縮されました。
Audio Content Creation: "エクスポート" のパフォーマンスの問題と、カスタムニューラル音声選択のバグを修正しました。

2021 年 6 月のリリース

Speech Studio の更新

カスタムニューラル音声: カスタムニューラル音声のトレーニングが、東南アジアをサポートするように拡張されました。データのアップロード状態チェックをサポートする新機能がリリースされました。
Audio Content Creation: カスタム辞書をサポートする新しい機能がリリースされました。この機能を使用すると、ユーザーは辞書ファイルを簡単に作成し、オーディオ出力用にカスタマイズされた発音を定義できます。

2021 年 5 月のリリース

ニューラル TTS 用に追加された新しい言語と音声

10 個の新しい言語の導入 - ニューラル TTS 言語の一覧に、次の 10 個の新しいロケールの 20 個の新しい音声が追加されています。en-HK 英語 (香港) の Yan、en-HK 英語 (香港) の Sam、en-NZ 英語 (ニュージーランド) の Molly、en-NZ 英語 (ニュージーランド) の Mitchell、en-SG 英語 (シンガポール) の Luna、en-SG 英語 (シンガポール) の Wayne、en-ZA 英語 (南アフリカ) の Leah、en-ZA 英語 (南アフリカ) の Luke、gu-IN グジャラート語 (インド) の Dhwani、gu-IN グジャラート語 (インド) の Niranjan、mr-IN マラーティー語 (インド) の Aarohi、mr-IN マラーティー語 (インド) の Manohar、es-AR スペイン語 (アルゼンチン) の Elena、es-AR スペイン語 (アルゼンチン) の Tomas、es-CO スペイン語 (コロンビア) の Salome、es-CO スペイン語 (コロンビア) の Gonzalo、es-US スペイン語 (米国) の Paloma、es-US スペイン語 (米国) の Alonso、sw-KE スワヒリ語 (ケニア) の Zuri、sw-KE スワヒリ語 (ケニア) の Rafiki。
11 個の新しい en-US 音声 (プレビュー段階) - 11 個の新しいen-US 音声 (プレビュー段階) が米国英語に追加されています。これらは、Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob です。
5 つの zh-CN 中国語 (標準、簡体字) の音声が一般公開に - 5 つの中国語 (標準、簡体字) の音声がプレビューから一般公開に変更されました。これらは、Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui です。これで、これらの音声がすべてのリージョンで利用できるようになりました。 Yunxi には、チャットボットや音声エージェントに適した新しい "アシスタント" スタイルが追加されています。 Xiaomo の音声スタイルは、より自然で特徴的なものになるように洗練されています。

2021 年 4 月のリリース

ニューラルテキスト読み上げが 21 のリージョンで利用可能に

12 の新しいリージョンが追加 - ニューラルテキスト読み上げは、Japan East、Japan West、Korea Central、North Central US、North Europe、South Central US、Southeast Asia、UK South、west Central US、West Europe、West US、West US 2 の 12 の新しいリージョンで利用できるようになりました。サポートされている 21 のリージョンの完全な一覧については、こちらをご覧ください。

2021 年 3 月のリリース

ニューラル TTS 用に追加された新しい言語と音声

6 つの新しい言語の導入 - ニューラル TTS 言語の一覧に、次の 6 つの新しいロケールの 12 個の新しい音声が追加されています。cy-GB ウェールズ語 (イギリス) の Nia、cy-GB ウェールズ語 (イギリス) の Aled、en-PH英語 (フィリピン) の Rosa、en-PH 英語 (フィリピン) の James、fr-BE フランス語 (ベルギー) の Charline、fr-BE フランス語 (ベルギー) の Gerard、nl-BE オランダ語 (ベルギー) の Dena、nl-BE オランダ語 (ベルギー) の Arnaud、uk-UA ウクライナ語 (ウクライナ) の Polina、uk-UA ウクライナ語 (ウクライナ) の Ostap、ur-PK ウルドゥー語 (パキスタン) の Uzma、ur-PK、ウルドゥー語 (パキスタン) の Asad。
5 つの言語がプレビューから GA へ - 11 月に導入された次の 5 つのロケールの 10 個の音声が一般提供になりました。et-EE エストニア語 (エストニア) の Kert、ga-IE アイルランド語 (アイルランド) の Colm、lv-LV ラトビア語 (ラトビア) の Nils、lt-LT リトアニア語 (リトアニア) の Leonas、mt-MT マルタ語 (マルタ) の Joseph。
フランス語 (カナダ) の新しい男性の音声の追加 - fr-CA フランス語 (カナダ) で新しい音声 Antoine が利用できます。
品質向上 - hu-HU ハンガリー語で 48.17%、nb-NO ノルウェー語で 52.76%、nl-NL オランダ語 (オランダ) で 22.11% の発音エラー率の低減。

このリリースでは、60 言語またはロケールの計 142 個のニューラル音声がサポートされています。さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。完全なリストについては、言語サポートに関するページを参照してください。

キャラクターをアニメーション化するためのフェイシャルポーズイベントの取得

ニューラルテキスト読み上げに口形素イベントが含まれるようになりました。口形素イベントを使用すると、ユーザーは、合成された音声と共に頭部姿勢のシーケンスを取得できます。口形素は、2D および 3D のアバターモデルの動きを制御するために使用でき、合成された音声に口の動きを一致させます。現在、口形素イベントは en-US-AriaNeural 音声でのみ使用できます。

音声合成マークアップ言語 (SSML) に bookmark 要素を追加

bookmark 要素を使用すると、SSML にカスタムマーカーを挿入して、オーディオストリーム内の各マーカーのオフセットを取得できます。これは、テキストまたはタグのシーケンス内の特定の場所を参照するために使用できます。

2021 年 2 月のリリース

カスタムニューラル音声の GA

カスタムニューラル音声は、2 月に次の 13 言語で一般提供されています。中国語 (標準、簡体字)、英語 (オーストラリア)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (カナダ)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、韓国語 (韓国)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ)、スペイン語 (スペイン)。カスタムニューラル音声とは何かと、責任を持ってそれを使用する方法について詳細を確認してください。カスタムニューラル音声機能の利用には登録が必要です。Microsoft の適格性基準に基づき、Microsoft がアクセスを制限することがあります。制限付きアクセスの詳細を確認してください。

2020 年 12 月のリリース

GAおよびプレビューでの新しいニューラルボイス

以下の 51 の音声が新しくリリースされ、54 言語/ロケールのニューラル音声の合計が 129 になりました。

GA ロケールの 46 の新しい音声: ar-EG アラビア語 (エジプト) の Shakir、ar-SA アラビア語 (サウジアラビア) の Hamed、bg-BG ブルガリア語 (ブルガリア) の Borislav、ca-ES カタロニア語の Joana、cs-CZ チェコ語 (チェコ共和国) の Antonin、da-DK デンマーク語 (デンマーク) の Jeppe、de-AT ドイツ語 (オーストリア) の Jonas、de-CH ドイツ語 (スイス) の Jan、el-GR ギリシャ語 (ギリシャ) の Nestoras、en-CA 英語 (カナダ) の Liam、en-IE 英語 (アイルランド) の Connor、en-IN ヒンディー語 (インド) の Madhur、en-IN テルグ語 (インド) の Mohan、en-IN 英語 (インド) の Prabhat、en-IN タミル語 (インド) の Valluvar、es-ES カタロニア語の Enric、et-EE エストニア語 (エストニア) の Kert、fi-FI フィンランド語 (フィンランド) の Harri、fi-FI フィンランド語 (フィンランド) の Selma、fr-CH フランス語 (スイス) の Fabrice、ga-IE アイルランド語 (アイルランド) の Colm、he-IL ヘブライ語 (イスラエル) の Avri、hr-HR クロアチア語 (クロアチア) の Srecko、hu-HU ハンガリー語 (ハンガリー) の Tamas、id-ID インドネシア語 (インドネシア) の Gadis、lt-LT リトアニア語 (リトアニア) の Leonas、lv-LV ラトビア語 (ラトビア) の Nils、ms-MY マレー語 (マレーシア) の Osman、mt-MT マルタ語 (マルタ) の Joseph、nb-NO ノルウェー語 (ブークモール、ノルウェー) の Finn、nb-NO ノルウェー語 (ブークモール、ノルウェー) の Pernille、nl-NL オランダ語 (オランダ) の Fenna、nl-NL オランダ語 (オランダ) の Maarten、pl-PL ポーランド語 (ポーランド) の Agnieszka、pl-PL ポーランド語 (ポーランド) の Marek、pt-BR ポルトガル語 (ブラジル) の Duarte、pt-PT ポルトガル語 (ポルトガル) の Raquel、ro-RO ルーマニア語 (ルーマニア) の Emil、ru-RU ロシア語 (ロシア) の Dmitry、ru-RU ロシア語 (ロシア) の Svetlana、sk-SK スロバキア語 (スロバキア) の Lukas、sl-SI スロベニア語 (スロベニア) の Rok、sv-SE スウェーデン語 (スウェーデン) の Mattias、sv-SE スウェーデン語 (スウェーデン) の Sofie、th-TH タイ語 (タイ) の Niwat、tr-TR トルコ語 (トルコ) の Ahmet、vi-VN ベトナム語 (ベトナム) の NamMinh、zh-TW 台湾標準中国語 (台湾) の HsiaoChen、zh-TW 台湾標準中国語 (台湾) の YunJhe、zh-HK 広東語 (香港特別行政区) の HiuMaan、zh-HK 広東語 (香港特別行政区) の WanLung。
プレビュー段階のロケールの 5 つの新しい音声: et-EE エストニア語 (エストニア) の Kert、ga-IE アイルランド語 (アイルランド) の Colm、lv-LV ラトビア語 (ラトビア) の Nils、lt-LT リトアニア語 (リトアニア) の Leonas、mt-MT マルタ語 (マルタ) のJoseph。

このリリースでは、54 言語/ロケールの計 129 のニューラル音声がサポートされています。さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。完全なリストについては、言語サポートに関するページを参照してください。

Audio Content Creation の更新

音声選択の UI が改良され、音声カテゴリと音声の詳細な説明が表示されるようになりました。
さまざまな言語のすべてのニューラル音声でイントネーションのチューニングが有効になりました。
ブラウザーの言語に基づいて UI の言語が自動的に設定されます。
StyleDegree のすべてのニューラル音声に対して zh-CN コントロールが有効になりました。 Audio Content Creation ツールのページにアクセスして、新機能をご確認ください。

zh-CN の音声の更新

zh-CNのすべてのニューラル音声が、英語に対応するように更新されました。
zh-CN のすべてのニューラル音声において、イントネーションの調整が有効になりました。 SSML または Audio Content Creation ツールを使用して、最適なイントネーションに調整できます。
zh-CN のすべてのマルチスタイルニューラル音声が更新され、StyleDegree コントロールがサポートされました。感情の強さ (弱または強) を調整できます。
zh-CN-YunyeNeural が更新され、さまざまな感情を表現する複数のスタイルがサポートされました。

2020 年 11 月のリリース

プレビュー段階の新しいロケールと音声

ニューラルテキスト読み上げポートフォリオに、5 つの新しい音声と言語が導入されています。これらは次のとおりです。Grace マルタ語 (マルタ)、Ona リトアニア語 (リトアニア)、Anu エストニア語 (エストニア)、Orla アイルランド語 (アイルランド)、Everita ラトビア語 (ラトビア)
複数のスタイルとロールがサポートされている zh-CN の新しい 5 つの音声: Xiaohan、Xiaomo、Xiaorui、Xiaoxuan、および Yunxi。

これらの音声は、次の 3 つの Azure リージョンにおいてパブリックプレビューで利用できます: EastUS、SouthEastAsia、WestEurope

ニューラルテキスト読み上げコンテナーの GA

ニューラルテキスト読み上げコンテナーを使用すると、開発者は、特定のセキュリティとデータガバナンスの要件に応じて、独自の環境で最も自然なデジタル音声を使用して音声合成を行うことができます。 Speech コンテナーのインストール方法を確認してください。

新機能

Custom Voice: ユーザーは、一方のリージョンから他方へ音声モデルをコピーできます。エンドポイントの中断と再開がサポートされています。こちらから Azure Portal にアクセスします。
SSML の silence タグがサポートされています。
一般的な TTS 音声品質の改良点: nb-NO の単語レベルの発音精度が向上しました。発音エラーが 53% 削減されました。

詳細については、こちらの技術ブログを参照してください。

2020 年 10 月のリリース

新機能

Jenny は、新しい newscast スタイルをサポートしています。 SSML での読み上げスタイルの使用方法を参照してください。
ニューラル音声が HiFiNet ボコーダーにアップグレードされ、オーディオの忠実度が向上し合成速度が速くなりました。これは、ビデオ翻訳、オーディオブック、またはオンライン教材など、ハイファイオーディオまたは長時間の対話に依存するシナリオを使用するお客様に役立ちます。 Tech コミュニティブログで、ストーリーの詳細を確認し、音声のサンプルをお聴きください。
Custom Voice と Audio Content Creation Studio が 17 ロケールにローカライズされました。ユーザーは、操作しやすくするために、UI をローカル言語に簡単に切り替えることができます。
Audio Content Creation: XiaoxiaoNeural のスタイル度のコントロールが追加されました。カスタマイズされた中断機能を改良し、50 ミリ秒単位の逐次中断が含まれるようにしました。

一般的な TTS 音声品質の改善

pl-PL での単語レベルの発音精度が向上しました。(エラー率の低減: 51%) および fi-FI (エラー率の低下: 58%)
辞書シナリオに対して、ja-JP での 1 つの単語の読み取りを改善しました。発音エラーが 80% 削減されました。
zh-CN-XiaoxiaoNeural: センチメント/CustomerService/Newscast/Cheerful/Angry スタイルの音声品質を改善しました。
zh-CN: 児化 (アル化) の発音と明るい声色を改善し、空間韻律を改良しました。これにより、明瞭度が大幅に向上します。

2020 年 9 月のリリース

新機能

ニューラルテキスト読み上げ
- 新たに 18 言語/ロケールにサポートを拡張しました。 対象となるのは、ブルガリア語、チェコ語、ドイツ語 (オーストリア)、ドイツ語 (スイス)、ギリシャ語、英語 (アイルランド)、フランス語 (スイス)、ヘブライ語、クロアチア語、ハンガリー語、インドネシア語、マレー語、ルーマニア語、スロバキア語、スロベニア語、タミール語、テルグ語、およびベトナム語です。
- 既存の言語を充実させるために、新たに 14 音声をリリースしました。 言語と音声の完全な一覧を参照してください。
- en-US と zh-CN の音声での新しい読み上げスタイル。 英語 (米国) の新しい音声である Jenny は、チャットボット、カスタマーサービス、およびアシスタントの各スタイルをサポートしています。 zh-CN の音声である XiaoXiao では、新たに 10 の読み上げスタイルを使用できます。さらに、XiaoXiao ニューラル音声では、StyleDegree チューニングがサポートされています。 SSML での読み上げスタイルの使用方法を参照してください。
コンテナー: ニューラルテキスト読み上げコンテナーがパブリックプレビューでリリースされました。14 言語で 16 音声を使用できます。 詳細については、ニューラルテキスト読み上げ用の音声コンテナーのデプロイ方法に関する記事を参照してください

Ignite 2020 での TTS 更新プログラムの発表の全内容を参照してください。

2020 年 8 月のリリース

新機能

ニューラルテキスト読み上げ: en-US の Aria の音声に新しいスタイルの話し方が追加。 AriaNeural は、ニュースを読むときのニュースキャスターのように聞こえます。 'newscast-formal' スタイルの方がより真面目に聞こえるのに対し、'newscast-casual' スタイルの方はよりリラックスしてくだけた感じです。 SSML での読み上げスタイルの使用方法を参照してください。
Custom Voice: トレーニングデータの品質を自動的にチェックするための新機能がリリースされました。データをアップロードすると、システムによってオーディオとトランスクリプトデータのさまざまな側面が調べられ、問題が自動的に修正またはフィルター処理されて、音声モデルの品質が向上します。ここでは、オーディオとスクリプトの形式に加え、オーディオの音量、ノイズレベル、音声の発音の正確さ、音声と正規化されたテキスト間の調整、オーディオのサイレント状態についても説明します。
Audio Content Creation: より強力な音声チューニングとオーディオ管理機能を可能にする一連の新機能。
- 発音: 発音チューニング機能は、最新の音素セットに更新されています。ライブラリから適切な音素要素を選択し、選択した単語の発音を洗練することができます。
- ダウンロード:オーディオの "ダウンロード" または "エクスポート" 機能は、段落によるオーディオ生成をサポートするように強化されています。複数のオーディオ出力を生成しながら、同じファイルまたは SSML でコンテンツを編集することができます。 "ダウンロード" のファイル構造も改良されています。すべてのオーディオファイルを 1 つのフォルダーに簡単に取り込むことができるようになりました。
- タスクの状態: 複数ファイルのエクスポートエクスペリエンスが向上しました。これまでは、複数のファイルをエクスポートするときに、いずれかのファイルにエラーが発生すると、タスク全体が失敗していました。しかし今は、他のすべてのファイルが正常にエクスポートされます。タスクレポートは、より詳細で構造化された情報で拡充されています。すべての失敗したファイルと文のログをレポートで確認できるようになりました。
- SSML ドキュメント: すべてのチューニング機能の使用方法に関するルールを確認できるように、SSML ドキュメントにリンクされています。
Voice List API が更新され、ユーザーフレンドリな表示名と、ニューラル音声でサポートされている読み上げスタイルが含まれるようになりました。

一般的な TTS 音声品質の改善

単語レベルの発音エラー率が低減しました。ru-RU はエラーが 56% 減少し、sv-SE はエラーが 49% 減少しました。
en-USニューラル音声のポリフォニーの単語の読み上げが 40% 改良されました。ポリフォニー単語の例には、"read"、"live"、"content"、"record"、"object" などがあります。
fr-FR での質問口調がより自然になりました。 MOS (Mean Opinion Score) の向上: +0.28
次の音声のボコーダーを更新したことで、忠実性が向上し、全体のパフォーマンスが 40% 向上しました。

ロケール Voice

en-GB Mia

es-MX ダリア

fr-CA シルヴィ

fr-FR デニス

ja-JP ななみ

ko-KR ソンヒ

ロケール	Voice
`en-GB`	Mia
`es-MX`	ダリア
`fr-CA`	シルヴィ
`fr-FR`	デニス
`ja-JP`	ななみ
`ko-KR`	ソンヒ

バグ修正

Audio Content Creation ツールのいくつかのバグを修正しました
- 自動更新に関する問題を修正しました。
- 東南アジアリージョンの zh-CN の音声スタイルに関する問題を修正しました。
- "break" タグによるエクスポートエラー、句読点のエラーなど、安定性の問題を修正しました。

2025 年 10 月のリリース

Speech SDK のフレーズリストの重み付けコントロール

リアルタイム文字起こしで Speech SDK を使用する場合に、音声認識の結果に対するフレーズリストの影響を制御できるようになりました。新しいフレーズリストの重み付け機能を使用すると、0.0 (無効) から 2.0 (最大の影響) の間でバイアスレベルを設定して、既定の辞書に対して受信される優先度フレーズリスト用語の量を微調整できます。詳細については、「フレーズリストを使用して認識精度を向上させる」を参照してください。

2025 年 8 月のリリース

高速文字起こしでサポートされる新しいロケール

高速文字起こしにおいて、いくつかの en- バリアント (12 ロケール)、 es- バリアント (19 ロケール)、 ar- バリアント (13 ロケール) を含む、追加のロケールがサポートされるようになりました。詳細については、「音声テキスト変換でサポートされている言語」を参照してください。

2025 年 7 月のリリース

音声テキスト変換モデルの改善

英語モデル (en-* を除くすべての en-IN モデル) が更新され、新しい VAD (音声アクティビティ検出) が組み込まれ、これにより待ち時間が 100 ミリ秒以上短縮されました。これは、待ち時間を短縮することを目的として、正確性と無音のセグメント化に (肯定的と否定的の両面の) 影響を与える可能性があります。今後数か月で、さらに対応する言語が拡張される予定です。

2025 年 6 月リリース

発音評価モデルの改善

Microsoft では、ta-IN および ms-MY 用に、発音評価モデルへの大幅なアップグレードをロールアウトしました。お客様は、ピアソン相関係数 (PCC) において顕著な飛躍をご確認いただけます。これは、評価がより正確で信頼できるようになったことを意味します。

これらの更新されたモデルは、前と同様に、API と Azure AI Foundry プレイグラウンドを通じて使用する準備ができています。

音声テキスト変換モデルの改善

、de-DE、en-US、en-GB、es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR ロケールのzh-CNにおける音声テキスト変換モデルの正確性は、それぞれ 10% から 25% 向上しており、特にエンティティの読みやすさと認識性が改善しています。

2025 年 5 月のリリース

音声テキスト変換モデルの改善

ta-IN、te-IN、en-IN、hu-HUロケールの音声テキスト変換モデルでは、正確性がそれぞれ 5% から 10% 向上しています。また、 ta-IN モデルと te-IN モデルのゴーストワードの約 20 倍の削減も行います。

高速文字起こし API - 多言語音声文字起こし

オーディオファイルで多言語コンテンツを継続的かつ正確に文字起こしするには、高速文字起こし API を使用してロケールコードを指定することなく、最新の多言語モデルを使用できるようになりました。詳細については、高速文字起こしでの多言語文字起こしに関する説明を参照してください。

高速文字起こしでサポートされる新しいロケール

高速文字起こしでは、fi-FI、he-IL、id-ID、pl-PL、pt-PT、sv-SEなどの追加ロケールがサポートされるようになりました。詳細については、音声テキスト変換でサポートされている言語に関するページを参照してください。

2025 年 4 月リリース

発音評価

de-DE、es-MX、it-IT、ja-JP、ko-KR、pt-BRなど、これらのロケールの発音評価モデルが大幅に改善されたことをお知らせします。これらの機能強化により、ピアソン相関係数 (PCC) が大幅に進歩し、より正確で信頼性の高い評価が保証されます。

以前と同様に、モデルは API と Azure AI Foundry プレイグラウンドを通じて利用できます。

2025 年 3 月リリース

会話の文字起こしマルチチャンネルダイアライゼーション (廃止)

2025 年 3 月 28 日に、会話の文字起こしのマルチチャネルダイアリゼーションが廃止されます。

ダイアライゼーションを伴う音声テキスト変換を引き続き使用するには、代わりに次の機能を使用します。

これらの音声テキスト変換機能では、単一チャネルオーディオのダイアライゼーションのみがサポートされます。会話の文字起こしマルチチャンネルダイアライゼーションで使用したマルチチャンネルオーディオは、サポートされません。

2025 年 1 月のリリース

新機能 - セマンティックセグメント化

新機能、セマンティックセグメント化のリリースを発表いたします。この機能は、デコーダー内に句読点モジュールを統合しており、セマンティック情報に基づくオーディオのセグメント化を行うので、より論理的かつ正確なセグメント化境界を実現します。主な利点:

セグメント化精度の向上: この機能は、セマンティック情報を使用することで、入力オーディオに一時停止がないことが原因でセグメントが長くなるのを大幅に低減します。
セグメント化不足による待機時間の短縮: 音声認識の全体的な待機時間が短縮され、最も長い 5% のセグメントにおいて、その長さが 40% から 60% 減少します。
過剰セグメント化の軽減: この機能では、より優れた文を形成できる場合にセグメント化を遅らせることで、過剰なセグメント化を防ぐのにも役立ちます。

サポートされるロケール:

英語 (en-US、en-GB)
中国語 (zh-CN、zh-HK)
日本語 (ja-JP)
韓国語 (ko-KR)
ドイツ語 (de-DE)
フランス語 (fr-FR)
イタリア語 (it-IT)
スペイン語 (es-ES、es-MX)
ヒンディー語 (hi-IN)
ポルトガル語 (pt-BR、pt-PT)
トルコ語 (tr-TR)
ロシア語 (ru-RU)
タイ語 (th-TH)
インドネシア語 (id-ID)

実装の詳細については、「音声を認識する方法」のドキュメントで、「セマンティックセグメンテーション」セクションを参照してください。

リアルタイム音声テキスト変換 - 新しい英語モデルのリリース

さまざまなパフォーマンスメトリックを大幅に改善する、最新の英語音声モデル (en-US、en-CA) のリリースを発表します。以下は、このリリースでの主なハイライトです。

アクセシビリティの強化: Microsoft の内部アクセシビリティテストセットにおいて単語エラー率 (WER) の 36% 削減を達成し、発話に困難を抱える人々からの音声認識の精度と信頼性を高めしました。
ゴーストワードの削減: ゴーストワード開発セットでは 90%、他のゴーストワードデータセット全体では 63% から 100% の範囲でゴーストワードを低減させるので、文字起こしの明瞭さと精度が大幅に向上します。

この新しいモデルでは、エンティティ認識や書き出された文字の認識の向上など、全体的なパフォーマンスも向上しています。

これらの進歩により、より正確で効率的かつ満足のいくエクスペリエンスが、すべてのユーザーに提供されることが期待されます。この新しいモデルは、API と Azure AI Foundry プレイグラウンド経由でご利用いただけます。この機能をさらに改善するために、フィードバックも歓迎しています。

2024 年 11 月のリリース

Speech to Text REST API バージョン 2024-11-15

Speech to Text REST API バージョン 2024-11-15 が一般提供リリースとなりました。詳細については、「Speech to Text REST API リファレンスドキュメント」と「Speech to Text REST API ガイド」を参照してください。

メモ

Speech to Text REST API バージョン 2024-05-15-preview は非推奨となっています。

高速文字起こし (GA)

ファストトランスクリプションは、Speech to Text REST API バージョン 2024-11-15 を介して一般提供されました。ファストトランスクリプションを使用すると、高速度係数を使用して、正確かつ同期的にオーディオファイルをテキストに文字起こしできます。実際のオーディオの時間よりも高速にオーディオを文字起こしできます。詳細については、ファストトランスクリプション API ガイドを参照してください。

2024 年 10 月のリリース

リアルタイムの音声テキスト変換 (2 か国語対応)

es-US の 2 か国語モデルにより、スペイン語の短い用語の認識品質が大幅に向上しました。モデルは 2 か国語対応で、英語もサポートしています。英語認識の品質も向上しています。

ビデオ翻訳 (プレビュー)

ビデオ翻訳 API がパブリックプレビューで利用できるようになりました。詳細については、「ビデオ翻訳を使用する方法」を参照してください。

2024 年 9 月のリリース

リアルタイムの音声テキスト変換

リアルタイム音声テキスト変換で、次の言語に対して、より高品質な新しいモデルがリリースされました。

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PYes-AR/es-DO/es-UY/es-CRes-VE/es-NI/es-HN/es-PRes-CO/es-CL/es-CU/es-PE/es-PA/es-GTes-GQ

ファストトランスクリプション (プレビュー)

ファストトランスクリプションのモノラルチャンネルオーディオファイルで、複数のスピーカーを認識および分離するためのダイアライゼーションがサポートされるようになりました。詳細については、ファストトランスクリプション API ガイドに関するページを参照してください。

2024 年 8 月のリリース

言語学習 (プレビュー)

言語学習がパブリックプレビューで利用できるようになりました。対話型言語学習によって、学習エクスペリエンスがより魅力的で効果的になります。詳細については、「発音評価を使用した対話型言語学習」を参照してください。

発音評価

音声の発音評価では、一般提供されている 33 の言語がサポートされるようになりました。また、これら各言語は、すべての音声テキスト変換リージョンで利用できます。詳細については、完全な発音評価の言語リストを参照してください。

Language	ロケール (BCP-47)
アラビア語 (エジプト)	`ar-EG`
アラビア語 (サウジアラビア)	`ar-SA`
カタロニア語	`ca-ES`
中国語 (広東語、繁体字)	`zh-HK`
中国語 (標準、簡体字)	`zh-CN`
中国語 (台湾標準中国語、繁体字)	`zh-TW`
デンマーク語 (デンマーク)	`da-DK`
オランダ語 (オランダ)	`nl-NL`
英語 (オーストラリア)	`en-AU`
英語 (カナダ)	`en-CA`
英語 (インド)	`en-IN`
英語 (イギリス)	`en-GB`
英語 (米国)	`en-US`
フィンランド語 (フィンランド)	`fi-FI`
フランス語 (カナダ)	`fr-CA`
フランス語 (フランス)	`fr-FR`
ドイツ語 (ドイツ)	`de-DE`
ヒンディー語 (インド)	`hi-IN`
イタリア語 (イタリア)	`it-IT`
日本語 (日本)	`ja-JP`
韓国語 (韓国)	`ko-KR`
マレー語 (マレーシア)	`ms-MY`
ノルウェー語 (ブークモール) (ノルウェー)	`nb-NO`
ポーランド語 (ポーランド)	`pl-PL`
ポルトガル語 (ブラジル)	`pt-BR`
ポルトガル語 (ポルトガル)	`pt-PT`
ロシア語 (ロシア)	`ru-RU`
スペイン語 (メキシコ)	`es-MX`
スペイン語（スペイン）	`es-ES`
スウェーデン語 (スウェーデン)	`sv-SE`
タミール語 (インド)	`ta-IN`
タイ語 (タイ)	`th-TH`
ベトナム語 (ベトナム)	`vi-VN`

2024 年 7 月リリース

ファストトランスクリプション API (プレビュー)

ファストトランスクリプションがパブリックプレビューで利用できるようになりました。ファストトランスクリプションを使用すると、高速度係数を使用して、正確かつ同期的にオーディオファイルをテキストに文字起こしできます。実際のオーディオの時間よりも高速にオーディオを文字起こしできます。詳細については、ファストトランスクリプション API ガイドを参照してください。

ヒント

Azure AI Foundry ポータルでファストトランスクリプションを試してみてください。

2024 年 6 月リリース

Speech to Text REST API v3.2 の一般提供

Speech to Text REST API バージョン 3.2 が一般提供になりました。 Speech to Text REST API v3.2 の詳細については、「Speech to Text REST API v3.2 リファレンスドキュメント」と「Speech to Text REST API ガイド」を参照してください。

メモ

プレビューバージョン 3.2-preview.1 および 3.2-preview.2 は、2024 年 9 月に廃止されています。

Speech to Text REST API v3.1 は、今後発表される日に廃止されます。音声テキスト変換 REST API v3.0 は、2026 年 3 月 31 日に廃止されます。アップグレードの詳細については、Speech to Text REST API の v3.0 から v3.1 および v3.1 から v3.2 への移行ガイドを参照してください。

2024 年 5 月のリリース

ビデオ翻訳 (プレビュー)

現在、ビデオ翻訳はパブリックプレビューで利用できます。ビデオ翻訳は、複数の言語でビデオをシームレスに翻訳および生成できる Azure AI 音声の機能です。この機能は、世界中の多様な視聴者に対応するためにビデオコンテンツをローカライズするのに役立ちます。 Vlog、教育、ニュース、エンタープライズトレーニング、広告、映画、テレビ番組など、さまざまなユースケースでイマーシブでローカライズされたビデオを効率的に作成できます。詳細については、「ビデオ翻訳の概要」を参照してください。

発音評価

音声発音評価で、一般提供されている 24 個の言語がサポートされるようになりました (1 つの新しい言語が追加されました)。パブリックプレビューではさらに 7 つの言語を利用できます。詳細については、発音評価の完全な言語リストを参照してください。

2024 年 4 月リリース

自動多言語音声翻訳 (プレビュー)

自動多言語音声翻訳は、パブリックプレビューで利用できます。この革新的な機能は、言語の壁を克服する方法に革命を起こし、多様な言語環境間のシームレスなコミュニケーションのための比類のない機能を提供しています。

キーハイライト

未指定の入力言語: 多言語の音声翻訳では、さまざまな言語でオーディオを受信できます。また、想定される入力言語を指定する必要はありません。これは、事前設定を必要とせずに、グローバルコンテキスト間で理解し、共同作業を行う貴重な機能になります。
言語の切り替え: 多言語音声翻訳を使用すると、同じセッション中に複数の言語を話すことができ、それをすべて同じターゲット言語に翻訳できます。入力言語が変更された場合に、セッションを再起動したり、他のアクションを実行したりする必要はありません。

しくみ

旅行通訳: 多言語音声翻訳は、外国の目的地を訪れる観光客の優先言語で情報と支援を提供することで、経験を向上させることができます。ホテルのコンシェルジュサービス、ガイド付きツアー、ビジターセンターでは、このテクノロジを利用して、多様な言語的ニーズに対応できます。
国際会議: 多言語音声翻訳は、ライブ翻訳されたキャプションを使用してさまざまな言語を話す可能性のある異なる地域の参加者間のコミュニケーションを容易にすることができます。出席者は、自分の母国語で話すことができます。指定しなくても、シームレスな理解とコラボレーションを実現できます。
教育会議: 多文化教室やオンライン学習環境では、多言語音声翻訳が学生と教師の言語の多様性をサポートできます。各学生またはインストラクターの言語を指定しなくても、シームレスなコミュニケーションと参加が可能になります。

アクセス方法

詳細な概要については、「音声翻訳の概要」を参照してください。また、「音声を翻訳する方法」のコードサンプルを参照できます。この新機能は、1.37.0 以降のすべての SDK バージョンで完全にサポートされています。

ダイアライゼーション (GA) を使用したリアルタイム音声テキスト変換

ダイアライゼーションを使用したリアルタイム音声テキスト変換が一般提供されるようになりました。

ダイアライゼーションを使用して会話に参加するさまざまな話者を区別する音声テキスト変換アプリケーションを作成できます。リアルタイムダイアライゼーションの詳細については、「リアルタイムダイアライゼーションのクイックスタート」を参照してください。

音声テキスト変換モデルの更新

リアルタイム音声テキスト変換で、二か国語機能を備えた新しいモデルがリリースされました。 en-IN モデルでは、英語とヒンディー語の両方の二か国語シナリオがサポートされ、精度が向上しました。アラビア語ロケール (ar-AE、ar-BH、ar-DZ、ar-IL、ar-IQ、ar-KW、ar-LB、ar-LY、ar-MA、ar-OM、ar-PS、ar-QA、ar-SA、ar-SY、ar-TN、ar-YE) には英語の二か国語サポートが追加されました。精度が向上しており、コールセンターのサポートが受けられます。

バッチ文字起こしは、以下のロケールに新しいアーキテクチャのモデルを提供しています: es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN。これらのモデルでは、読みやすさとエンティティ認識が大幅に強化されています。

2024 年 3 月のリリース

ささやき一般提供 (GA)

Azure AI 音声を使用した Whisper 音声テキスト変換モデルが一般公開になりました。

Azure AI Foundry モデルで Azure AI Speech と Azure OpenAI を使用するタイミングの詳細については、「ささやきモデルとは」を参照してください。

2024 年 2 月のリリース

発音評価

音声発音評価で、一般提供されている 23 個の言語がサポートされるようになりました (5 つの新しい言語が追加されました)。パブリックプレビューではさらに 3 つの言語を利用できます。詳細については、発音評価の完全な言語リストを参照してください。

フレーズリスト

次のロケールにフレーズリストのサポートを追加しました: ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。

2023 年 11 月のリリース

二か国語の音声モデリングを紹介します。

私たちは、リアルタイム音声モデリングである二か国語音声モデリングへの画期的な追加機能を発表できることを嬉しく思います。この大幅な機能強化により、音声モデルは、英語やスペイン語、英語、フランス語などの二か国語ペアをシームレスにサポートできます。この機能を使用すると、ユーザーはリアルタイムの対話中に言語を簡単に切り替え、コミュニケーションエクスペリエンスの向上に取り組む上で重要な瞬間を示すことができます。

主な特長は以下のとおりです。

二か国語サポート: 最新のリリースでは、ユーザーはリアルタイムの音声操作中に、英語とスペイン語をシームレスに切り替えることができます。この機能は、これら 2 つの言語間で頻繁に移行する二か国語の話者に対応するように調整されています。
強化されたユーザーエクスペリエンス: 職場、自宅、またはさまざまなコミュニティ設定で、二か国語の話者はこの機能を便利にお使いいただけます。リアルタイムで英語とスペイン語の両方を理解し、対応するモデルの能力は、効果的で流動的なコミュニケーションのための新たな可能性を開きます。

使用方法:

Speech Service API を呼び出すとき、または Speech Studio で試す場合は、es-US (スペイン語と英語) または fr-CA (フランス語と英語) を選択します。言語を自由に話すか、それらを組み合わせて自由に話すことができます。モデルは動的に適応するように設計されており、両方の言語で正確でコンテキストに対応した応答を提供します。

最新の機能リリースであるシームレスで多言語のコミュニケーションをすぐに利用して、コミュニケーションゲームを強化しましょう。

音声テキスト変換モデルの更新

Microsoft は、弊社の音声モデルにおいて、精度の向上、読みやすさの改善、洗練されたエンティティの認識を約束する重要な更新プログラムを紹介できることを嬉しく思います。このアップグレードでは、拡張されたトレーニングデータセットによって強化された堅牢な新しい構造が採用されているため、全体的なパフォーマンスが著しく向上しています。新しくリリースされた en-US、zh-CN、ja-JP、it-IT、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE、he-IL のモデルが含まれています。

ハイライト:

新しいモデル構造による精度の向上: 再定義されたモデル構造は、より豊富なトレーニングデータセットと組み合わせて、精度レベルを向上し、より正確な音声出力を約束します。
読みやすさの向上: 弊社の最新のモデルは読みやすさを大幅に向上させ、音声コンテンツの一貫性と明瞭性を高めています。
高度なエンティティの認識: エンティティの認識が大幅にアップグレードされ、より正確でニュアンスを汲み取った結果が得られます。

潜在的な影響: これらの進展にもかかわらず、潜在的な影響に注意を向けることは重要です。

カスタム無音タイムアウト機能: カスタム無音タイムアウトを採用しているユーザー (特に設定が低い場合) は、過剰なセグメント化が発生し、単一単語のフレーズが省略される可能性があります。
新しいモデルでは、キーワードプレフィックス機能との互換性の問題が発生する可能性があり、ユーザーは特定のアプリケーションでそのパフォーマンスを評価することをお勧めします。
不要な単語またはフレーズの減少: ユーザーは、音声出力の「ええと」や「えー」などの不要な単語やフレーズが減少していることに気付くかもしれません。
単語のタイムスタンプ期間の不正確さ: 一部の不要な単語にはタイムスタンプ期間が不正確に表示される可能性があり、正確なタイミングに依存するアプリケーションでは注意が必要です。
信頼度スコア分布の変性: 信頼度スコアと関連するしきい値に依存しているユーザーは、分布の潜在的な変性に注意する必要があり、最適なパフォーマンスを得るためには調整が必要です。
フレーズリスト機能の精度の向上は、特定のフレーズの誤認識に影響される可能性があります。

シームレスな移行のために、これらの改善点を確認し、潜在的な問題を考慮することをお勧めします。また、お客様からのフィードバックは、サービスの改善と向上に役立たせていただきます。

発音評価

音声発音評価では、一般提供される 18 個の追加言語がサポートされるようになりました。パブリックプレビューでは 6 つの追加言語がで利用できます。詳細については、発音評価の完全な言語リストを参照してください。
2023 年 11 月 1 日より、発音評価に次の新機能が追加されます: 韻律、文法、語彙、トピック。これらの機能強化は、読み取りと読み上げの両方の評価において、より包括的な言語学習エクスペリエンスを提供することを目的としています。 SDK バージョン 1.35.0 以降にアップグレードして、「発音評価の使用方法」と「Speech Studio での発音評価」の詳細をご覧ください。

2023 年 9 月のリリース

Whisper 公開プレビュー

Azure AI 音声は現在、バッチ文字起こし API を介した OpenAI の Whisper モデルをサポートしています。詳細については、「バッチ文字起こしを作成する」ガイドを参照してください。

メモ

Azure OpenAI では、同期 REST API を使用した音声テキスト変換用の OpenAI のささやきモデルもサポートされています。詳細については、クイックスタートを参照してください。

Azure AI Speech と Azure OpenAI を使用するタイミングの詳細については、「ささやきモデルとは」を参照してください。

Speech to Text REST API v3.2パブリックプレビュー

Speech to Text REST API v3.2 はプレビューで利用できます。 Speech to Text REST API v3.1 は一般提供されています。音声テキスト変換 REST API v3.0 は、2026 年 3 月 31 日に廃止されます。詳細については、Speech to Text REST API v3.0 から v3.1、v3.1 から v3.2 への移行ガイドを参照してください。

2023 年 8 月リリース

新しい音声テキスト変換ロケール:

音声テキスト変換では、次の表に示す 2 つの新しいロケールがサポートされるようになりました。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`pa-IN`	パンジャーブ語 (インド)
`ur-IN`	ウルドゥー語 (インド)

発音評価

音声発音評価では、英語 (カナダ)、英語 (インド)、フランス語 (カナダ) で一般提供される 3 つの追加言語がサポートされるようになり、プレビューでは 3 つの追加言語を利用できます。詳細については、発音評価の完全な言語リストを参照してください。

2023 年 5 月リリース

発音評価

音声発音評価では、ドイツ語 (ドイツ)、日本語 (日本)、スペイン語 (メキシコ) で一般提供される 3 つの追加言語がサポートされるようになりました。プレビューでは 4 つの追加言語がで利用できます。詳細については、発音評価の完全な言語リストを参照してください。
すべてのパブリックリージョンで発音評価に標準の音声テキスト変換コミットメントレベルを使用できるようになりました。標準の Speech to text のコミットメントレベルを購入した場合、発音評価の支出はコミットメントを満たす方向に向けられます。コミットメントレベルの価格に関するページを参照してください。

2023 年 2 月のリリース

発音評価

音声発音評価では、英語 (英国)、英語 (オーストラリア)、フランス語 (フランス)、スペイン語 (スペイン)、中国語 (標準、簡体字) の 5 つの追加言語が一般提供でサポートされるようになりました。その他の言語はプレビューで利用できます。
ストリーミングモードでの発音評価を独自のアプリケーションで使用する方法を示すサンプルコードが追加されました。
- C#: サンプルコードを参照してください。
- C++: サンプルコードを参照してください。
- java: サンプルコードを参照してください。
- javascript: サンプルコードを参照してください。
- Objective-C: サンプルコードを参照してください。
- Python: サンプルコードを参照してください。
- Swift: サンプルコードを参照してください。

カスタム音声

de-AT ロケールに対して音声 + 人間がラベル付けしたトランスクリプトのサポートが追加されます。

2023 年 1 月のリリース

カスタム音声

追加のロケール (ar-BH、ar-DZ、ar-EG、ar-MA、ar-SA、ar-TN、ar-YE、ja-JP) に対して音声 + 人間がラベル付けしたトランスクリプトのサポートが追加されます。

ロケール de-AT に対して構造化テキストの適応のサポートが追加されました。

2022 年 12 月のリリース

音声からテキストへのREST API

Speech-to-text REST API バージョン 3.1 が一般提供になりました。 Speech to text REST API のバージョン 3.0 は廃止される予定です。移行方法について詳しくは、ガイドに関するページを参照してください。

2022 年 10 月のリリース

新しい音声テキスト変換ロケール

ml-IN ロケールでのマラヤーラム語 (インド) のサポートを追加しました。言語の完全な一覧については、こちらを参照してください。

2022 年 7 月のリリース

新しい音声テキスト変換ロケール:

次の表に示す 7 個のロケールを新たに追加しました。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`bs-BA`	ボスニア語 (ボスニア・ヘルツェゴビナ)
`yue-CN`	中国語 (広東語、簡体字)
`zh-CN-sichuan`	中国語 (南西部標準中国語、簡体字)
`wuu-CN`	中国語 (呉語、簡体字)
`ps-AF`	パシュトゥー語 (アフガニスタン)
`so-SO`	ソマリ語 (ソマリア)
`cy-GB`	ウェールズ語 (イギリス)

2022 年 6 月のリリース

新しい音声テキスト変換ロケール:

次の表に示す 10 個のロケールを新たに追加しました。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`sq-AL`	アルバニア語 (アルバニア)
`hy-AM`	アルメニア語 (アルメニア)
`az-AZ`	アゼルバイジャン語 (アゼルバイジャン)
`eu-ES`	バスク語
`gl-ES`	ガリシア語
`ka-GE`	グルジア語 (グルジア)
`it-CH`	イタリア語 (スイス)
`kk-KZ`	カザフ語 (カザフスタン)
`mn-MN`	モンゴル語 (モンゴル)
`ne-NP`	ネパール語 (ネパール)

2022 年 4 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`bn-IN`	ベンガル語 (インド)

2022 年 1 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`af-ZA`	アフリカーンス語 (南アフリカ)
`am-ET`	アムハラ語 (エチオピア)
`de-CH`	ドイツ語 (スイス)
`fr-BE`	フランス語 (ベルギー)
`is-IS`	アイスランド語 (アイスランド)
`jv-ID`	ジャワ語 (インドネシア)
`km-KH`	クメール語 (カンボジア)
`kn-IN`	カンナダ語 (インド)
`lo-LA`	ラオ (ラオス)
`mk-MK`	マケドニア語 (北マケドニア)
`my-MM`	ビルマ語 (ミャンマー)
`nl-BE`	オランダ語 (ベルギー)
`si-LK`	シンハラ語 (スリランカ)
`sr-RS`	セルビア語 (セルビア)
`sw-TZ`	スワヒリ語 (タンザニア)
`uk-UA`	ウクライナ語 (ウクライナ)
`uz-UZ`	ウズベク語 (ウズベキスタン)
`zu-ZA`	ズールー語 (南アフリカ)

2021 年 7 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`ar-DZ`	アラビア語 (アルジェリア)
`ar-LY`	アラビア語 (リビア)
`ar-MA`	アラビア語 (モロッコ)
`ar-TN`	アラビア語 (チュニジア)
`ar-YE`	アラビア語 (イエメン)
`bg-BG`	ブルガリア語 (ブルガリア)
`el-GR`	ギリシャ語 (ギリシャ)
`et-EE`	エストニア語 (エストニア)
`fa-IR`	ペルシア語 (イラン)
`ga-IE`	アイルランド語 (アイルランド)
`hr-HR`	クロアチア語 (クロアチア)
`lt-LT`	リトアニア語 (リトアニア)
`lv-LV`	ラトビア語 (ラトビア)
`mt-MT`	マルタ語 (マルタ)
`ro-RO`	ルーマニア語 (ルーマニア)
`sk-SK`	スロバキア語 (スロバキア)
`sl-SI`	スロベニア語 (スロベニア)
`sw-KE`	スワヒリ語 (ケニア)

2021 年 1 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`ar-AE`	アラビア語 (アラブ首長国連邦)
`ar-IL`	アラビア語 (イスラエル)
`ar-IQ`	アラビア語 (イラク)
`ar-OM`	アラビア語 (オマーン)
`ar-PS`	アラビア語 (パレスチナ自治政府)
`de-AT`	ドイツ語 (オーストリア)
`en-GH`	英語 (ガーナ)
`en-KE`	英語 (ケニア)
`en-NG`	英語 (ナイジェリア)
`en-TZ`	英語 (タンザニア)
`es-GQ`	スペイン語 (赤道ギニア)
`fil-PH`	フィリピノ語 (フィリピン)
`fr-CH`	フランス語 (スイス)
`he-IL`	ヘブライ語 (イスラエル)
`id-ID`	インドネシア語 (インドネシア)
`ms-MY`	マレー語 (マレーシア)
`vi-VN`	ベトナム語 (ベトナム)

2020 年 8 月のリリース

新しい音声テキスト変換ロケール:

音声テキスト変換では、8 月に 26 個の新しいロケールがリリースされました。2 つのヨーロッパ言語 (cs-CZ と hu-HU) と 5 つの英語のロケール、および南米のほとんどの国/地域をカバーする 19 個のスペイン語のロケールです。新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

ロケール	Language
`cs-CZ`	チェコ語 (チェコ共和国)
`en-HK`	英語 (香港特別行政区)
`en-IE`	英語 (アイルランド)
`en-PH`	英語 (フィリピン)
`en-SG`	英語 (シンガポール)
`en-ZA`	英語 (南アフリカ)
`es-AR`	スペイン語 (アルゼンチン)
`es-BO`	スペイン語 (ボリビア)
`es-CL`	スペイン語 (チリ)
`es-CO`	スペイン語 (コロンビア)
`es-CR`	スペイン語 (コスタリカ)
`es-CU`	スペイン語 (キューバ)
`es-DO`	スペイン語 (ドミニカ共和国)
`es-EC`	スペイン語 (エクアドル)
`es-GT`	スペイン語 (グアテマラ)
`es-HN`	スペイン語 (ホンジュラス)
`es-NI`	スペイン語 (ニカラグア)
`es-PA`	スペイン語 (パナマ)
`es-PE`	スペイン語 (ペルー)
`es-PR`	スペイン語 (プエルトリコ)
`es-PY`	スペイン語 (パラグアイ)
`es-SV`	スペイン語 (エルサルバドル)
`es-US`	スペイン語 (米国)
`es-UY`	スペイン語 (ウルグアイ)
`es-VE`	スペイン語 (ベネズエラ)
`hu-HU`	ハンガリー語 (ハンガリー)

2025 年 6 月リリース

ニューラル音声合成 3.11.0

ニューラルテキストを音声バージョン 3.11.0 にリリースしました。

新しいニューラル音声 ( de-DE-SeraphinaMultilingualNeural、 es-ES-XimenaMultilingualNeural、 fi-FI-SelmaNeural、 nb-NO-FinnNeural) のサポートが追加されました。
多言語カスタム辞書のサポートを追加しました。

2025 年 5 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

ニューラルテキスト音声合成 3.10.0

テキスト読み上げの場合:

テキスト読み上げバックエンドとフロントエンドエンジンを最新バージョンに更新しました。
多言語カスタム辞書のサポートを追加しました。
ヘルスチェック機能を改善しました。ヘルスチェックエンドポイントは現在/synthesize/healthです。サービスが正常な場合、このエンドポイントは HTTP 状態 200 を返します。サービスが異常な場合は、HTTP 状態 503 が返されます。
2025 年 3 月/4 月の Microsoft ASP.NET Core セキュリティ更新プログラムのセキュリティの脆弱性に対処するために、基本イメージを AspNet 8.0.16 に更新しました。

2025 年 3 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

ニューラルテキスト読み上げ 3.9.0
音声テキスト変換 5.0.1 (プレビュー)
カスタム音声テキスト変換 5.0.1 (プレビュー)

音声テキスト変換とカスタム音声テキスト変換の場合は、次の機能が含まれています。

新しい音声テキスト変換モデルのサポート
オペレーティングシステムの Azure Linux 3.0 への変更
新しいロケールのサポート: ar-dz、as-in、es-gq or-in、pa-in、ur-in
デコーダーの更新
コンテナーで新しいカスタムモデル (2023 以降) を使用する機能

テキスト読み上げでは、新しいニューラル音声 ( en-GB-OliviaNeural、 en-US-ChristopherNeural 、 nl-NL-FennaNeural) のサポートが追加されました。

2025 年 2 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.18.0
ニューラル音声合成 3.7.0
音声テキスト変換 4.12.0
カスタム音声テキスト変換 4.12.0

リリースのハイライトを次に示します。

機能の更新	音声からテキストへ変換	カスタム音声テキスト変換	ニューラルテキスト読み上げ	音声言語識別
脆弱性の修正	✅	✅	✅	✅
Ubuntu 20.04 から Ubuntu 22.04 に移行された OS	✅	✅	✅	✅
新しいロケール: ar-ly、fr-be、nl-be、uz-uz	✅	✅
更新された nuget パッケージ、Go バージョン	✅	✅
モデルダウンロードの並列化を追加し、モデルのダウンロード時間を短縮	✅	✅	✅

2024年10月リリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.16.0
ニューラル音声合成 3.5.0
- en-us-ariacpuneural を en-us-jessacpuneural へのエイリアスにする
- テキスト読み上げバックエンドエンジンのバージョンを更新する
音声テキスト変換 4.10.0
- ロケール uk-UA のサポートを復元する
- オーディオ内の長時間の無音を扱うように無音設定を修正する
- 非推奨のモデルを置き換えます: cs-CZ、da-DK、en-GB、fr-CA、hu-HU、it-CH、tr-TR、zh-CN-sichuan
カスタム音声テキスト変換 4.10.0

2024年9月リリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.15.0
- 脆弱性を軽減する
ニューラル音声合成 3.4.0
- 新しい音声: en-us-andrewmultilingualneural、en-us-jessaneural、es-us-alonsoneural、es-us-palomaneural、it-it-isabellamultilingualneural
- 脆弱性を軽減する
音声テキスト変換 4.9.0
- 新しいロケール: ar-YE、af-ZA、am-ET、ar-MA、ar-TN、sw-KE、sw-TZ、zu-ZA
- 脆弱性を軽減する
- 非推奨のモデルを更新する
カスタム音声テキスト変換 4.9.0
- 脆弱性を軽減する

2024 年 8 月のリリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.14.0
- .NET 8.0 をアップグレードする
- 脆弱性を軽減する
ニューラル音声合成 3.3.0
- .NET 8.0 をアップグレードする
- 脆弱性を軽減する
音声テキスト変換 4.8.0
- .NET 8.0 をアップグレードする
- 脆弱性を軽減する
- 認識エンジンをアップグレードする
- PropertyId.Speech_SegmentationSilenceTimeoutMs が無視されていた問題を修正します。
- 非推奨のモデルを更新する
- uk-UA ロケールを削除する

2024 年 2 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.6.0
音声テキスト変換 4.6.0
ニューラルテキスト読み上げ 3.1.0

音声テキスト変換コンポーネントを最新にアップグレードします。すべての es ロケールのモデルを最新にアップグレードします。音声テキスト変換のユースケース用のメディア変換バッファーを増やします。

2023年11月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.5.0
音声テキスト変換 4.5.0
ニューラルテキスト読み上げ 2.19.0

2023年10月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.4.0
音声テキスト変換 4.4.0
ニューラル音声合成 2.18.0

リスクの高い脆弱性の問題を多数修正します。

コンテナー内の冗長ログを削除します。

内部メディアコンポーネントを最新のバージョンにアップグレードします。

voiceen-IN-NeerjaNeural のサポートを追加します。

2023年9月リリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.12.0
カスタム音声テキスト変換 4.3.0
音声テキスト変換 4.3.0
ニューラルテキスト読み上げ 2.17.0

カスタム音声テキスト変換と音声テキスト変換を最新のフレームワークにアップグレードします。

脆弱性の問題が修正されました。

voicear-AE-FatimaNeural のサポートを追加します。

2023 年 7 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.1.0
音声テキスト変換 4.1.0
ニューラルテキスト読み上げ 2.15.0

ローカルのカスタムモデルファイルで docker マウントオプションを使用して音声テキスト変換コンテナーを実行する問題が修正されました。

場合によっては、Speech SDK を介した応答で RECOGNIZING イベントが表示されない問題が修正されました。

脆弱性の問題が修正されました。

2023年6月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.0.0
音声テキスト変換 4.0.0
ニューラルテキスト音声変換 2.14.0

オンプレミスの音声テキスト変換イメージが .NET 6.0 にアップグレードされました

en-us、ar-eg、ar-bh、ja-jp、ko-kr などのロケールの表示モデルがアップグレード:されました。

音声テキスト変換のコンテナーコンポーネントをアップグレードして、脆弱性の問題に対処します。

ロケールの音声 de-DE-AmalaNeural、de-AT-IngridNeural、de-AT-JonasNeural、en-US-JennyMultilingualNeural のサポートを追加します。

2023 年 5 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.14.0
音声テキスト変換 3.14.0
ニューラル音声合成 2.13.0

he-IL の句読点の問題を修正しました

脆弱性の問題を修正しました

新しいロケール音声 en-US-MichelleNeural と es-MX-CandelaNeural を追加しました

2023 年 4 月リリース

セキュリティ更新プログラム

脆弱性の問題を修正しました

2023 年 3 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.12.0
音声テキスト変換 3.12.0
音声言語識別 1.11.0
ニューラルテキスト読み上げ 2.11.0

脆弱性の問題を修正しました

tr-TR の大文字化の問題を修正しました

音声テキスト変換の en-US 表示モードをアップグレードしました

ar-AE-HamdanNeural標準音声のサポートを追加します。

2023 年 2 月リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.11.0
音声テキスト変換 3.11.0
ニューラルテキスト読み上げ 2.10.0

脆弱性の問題を修正しました

音声モデルの定期的なアップグレード

新しい Abraic ロケールが追加されました。

ar-IL
ar-PS

ヘブライ語とトルコ語の表示モデルがアップグレードされました

2023 年 1 月のリリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.10.0
音声テキスト変換 3.10.0
ニューラルテキスト読み上げ 2.9.0

仮説モードの問題を修正

HTTP プロキシの問題を修正

カスタム音声テキスト変換コンテナーの切断モード

CNV 切断コンテナーのサポートを TTS フロントエンドに追加

次のロケールの音声を追加:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022年12月リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.9.0
音声テキスト変換 3.9.0
ニューラルテキスト読み上げ 2.8.0

IPv4/IPv6 の問題を修正しました

脆弱性の問題を修正しました

2022年11月リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.8.0
音声テキスト変換 3.8.0
ニューラルテキスト読み上げ 2.7.0

2022年10月リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.7.0
音声テキスト変換 3.7.0
ニューラル音声合成 2.6.0

2022 年 9 月リリース

音声テキスト変換 3.6.0-amd64

最新のモデルバージョンのサポートを追加しました。

次のロケールのサポートを追加しました。

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-ES
he-il
hy-am
イット-チ
ka-ge
kk-KZ
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
ウー - 中国
yue-cn
zh-cn-sichuan

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

カスタム音声テキスト変換 3.6.0-amd64

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

ニューラルテキスト音声合成 v2.5.0

次の標準音声のサポートを追加します。

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

2022 年 5 月リリース

音声言語検出コンテナー v1.9.0-amd64-preview

音声言語検出のバグ修正。

2022 年 3月リリース

カスタム音声テキスト変換コンテナー v3.1.0

表示モデルの取得のサポートを追加しました。

2022 年 1 月のリリース

音声テキスト変換コンテナー v3.0.0

切断された環境でのコンテナー使用のサポートが追加されました。

音声テキスト変換コンテナー v2.18.0

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

Neural-ニューラルテキスト読み上げコンテナー v1.12.0

am-et-amehaneural、am-et-mekdesneural、so-so-muuseneural、so-so-ubaxneuralの標準音声のサポートを追加します。

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-04-28

次の方法で共有

Azure AI 音声の新機能

最近のハイライト

リリース ノート

Speech SDK 1.46: 2025-9 月リリース

新機能:

バグ修正

サンプル

Speech SDK 1.45: 2025 年 7 月リリース

新機能:

バグ修正

サンプル

Speech SDK 1.44.1: パッチ リリース

バグ修正

Speech SDK 1.44: 2025年5月リリースしました

新機能:

バグ修正

サンプル

Speech SDK for JavaScript

新機能:

バグ修正

Speech SDK 1.43: 2025 年 3 月リリース

新機能:

バグ修正

サンプル

Speech SDK 1.42.0: 2024 年 12 月リリース

新機能

バグ修正

サンプル

2024年11月リリース

Visual Studio Code の Azure AI 音声ツールキット拡張機能

テキスト読み上げアバター コード サンプル

Speech SDK 1.41.1: 2024年10月リリース

新機能

バグの修正

重大な変更

Speech SDK 1.40: 2024 8 月リリース

新機能

バグ修正

サンプル

Speech SDK 1.38.0: 2024 年 6 月リリース

新機能

バグ修正

サンプル

Speech SDK 1.37.0: 2024 年 4 月リリース

新機能

バグ修正

サンプル

Speech SDK 1.36.0: 2024 年 3 月のリリース

新機能

バグ修正

サンプル

Speech SDK 1.35.0: 2024 年 2 月のリリース

新機能

バグ修正

サンプル

Speech SDK 1.34.1: 2024 年 1 月のリリース

重大な変更

新機能

バグ修正

Speech SDK 1.34.0: 2023 年 11 月リリース

重大な変更

新機能

バグ修正

サンプル

Speech CLI 1.34.0: 2023 年 11 月リリース

新機能

バグ修正

Speech SDK 1.33.0: 2023 年 10 月リリース

破壊的変更の通知

新機能

バグ修正

サンプル

Speech CLI 1.33.0: 2023 年 10 月リリース

新機能

バグ修正

Speech SDK 1.32.1: 2023 年 9 月リリース

バグ修正

サンプル

Speech SDK 1.31.0: 2023 8 月リリース

リリースノート

Speech SDK 1.44.1: パッチリリース

テキスト読み上げアバターコードサンプル