音声サービスとは

音声サービスでは、音声リソースを使用して、音声テキスト変換とテキスト読み上げの機能が提供されます。音声を高い精度でテキストに文字起こしし、自然に聞こえるテキストを音声に変換し、音声を翻訳し、AI 音声のライブ会話を行うことができます。

音声サービス機能の一部を強調したタイルのイメージ。

カスタム音声を作成したり、ベースボキャブラリに特定の単語を追加したり、独自のモデルを構築したりできます。音声サービスは、クラウドやコンテナーのエッジの任意の場所で実行できます。 Speech CLI、Speech SDK、REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。

音声サービスは、多くの言語、地域、価格で使用できます。

音声のシナリオ

音声サービスの一般的なシナリオは次のとおりです。

キャプション: キャプションを入力オーディオと同期する方法、不適切表現フィルターを適用する方法、部分的な結果を取得する方法、カスタマイズを適用する方法、多言語シナリオで音声言語を識別する方法について学習します。
オーディオコンテンツの作成: ニューラル音声を使用すると、チャットボットや音声エージェントとの対話をより自然で魅力的なものにしたり、電子書籍などのデジタルテキストをオーディオブックに変換したり、カーナビゲーションシステムを強化したりできます。
コールセンター: 通話をリアルタイムで文字起こしするか、通話をバッチ処理して、個人を識別する情報を編集し、感情などの分析情報を抽出して、コールセンターのユースケースに役立てます。
言語学習: 言語学習者に発音評価フィードバックを提供し、リモート学習の会話でのリアルタイムの文字起こしをサポートし、ニューラル音声を使用して教材を読み上げます。
音声ライブ: アプリケーションとエクスペリエンスのための自然で人間のような会話インターフェイスを作成します。音声ライブ機能は、人間とエージェントの実装の間の高速で信頼性の高い対話を提供します。

Teamsでのキャプション、Office 365でのディクテーション、Microsoft Edge ブラウザーでの音声読み上げなど、多くのシナリオで Speech が使われます。

音声サービスが利用されている Microsoft 製品のロゴを表示した画像。

音声機能

以下のセクションでは、Speech の機能の概要と、詳細情報へのリンクを示します。

音声からテキストへ変換

音声テキスト変換を使用して、ストリーミングオーディオのリアルタイム文字起こし、事前に録音されたオーディオファイルの高速文字起こし、大量のオーディオを非同期的に処理するためのバッチ文字起こしのいずれを使用してオーディオをテキストに変換します。

音声に周囲の雑音が含まれている場合や、業界や分野固有の専門用語が大量に含まれている場合は、基本モデルでは不十分な場合があります。このような場合は、音響、言語、および発音データを使用して、カスタム音声モデルを作成してトレーニングできます。カスタム音声モデルは非公開であり、競争上の優位性を提供できます。

テキスト読み上げ

テキスト読み上げを使うと、入力テキストを人間のような合成音声に変換できます。ディープニューラルネットワークを利用した、人間に似た音声であるニューラル音声を使用します。音声合成マークアップ言語 (SSML) を使用して、ピッチ、発音、読み上げ速度、ボリュームなどを微調整します。

標準音声: 非常に自然な、すぐに使える音声。音声ギャラリーの標準音声サンプルを確認し、ビジネスニーズに適した音声を決定します。
カスタム音声:標準の音声だけでなく、ブランドや製品に固有のカスタム音声を作成することもできます。カスタム音声はプライベートであり、競争上の利点を提供できます。ここでカスタム音声サンプルを確認します。

音声翻訳

音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。この機能は、音声間や音声テキスト変換の翻訳に使います。

LLM 音声 (プレビュー)

LLM 音声では現在、次の音声タスクがサポートされています。

transcribe:録音済みのオーディオをテキストに変換します。
translate: 事前に録音されたオーディオを、指定したターゲット言語のテキストに変換します。

LLM 音声では、品質の向上、深いコンテキスト理解、多言語サポート、およびプロンプトチューニング機能を提供する、大規模な言語モデル拡張音声モデルを使用します。高速文字起こしと同じ超高速推論パフォーマンスを共有するため、オーディオファイルからのキャプションと字幕の生成、会議ノートの要約、コールセンターエージェントの支援、ボイスメールの文字起こしなどのユースケースに最適です。

言語識別

言語識別は、サポートされている言語の一覧と照合する際に、オーディオで話されている言語を識別するために使用されます。言語識別は、単独で、または音声テキスト変換認識や音声翻訳と一緒に使用します。

発音評価

発音評価ではスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。言語学習者は、発音評価を使用して練習を行い、即座にフィードバックを得て、発音を改善することができます。そのため、自信を持って話し、発表することができます。

配信とプレゼンス

Azure AI 音声の機能は、クラウドまたはオンプレミスにデプロイできます。

コンテナーを使用すると、コンプライアンス、セキュリティ、またはその他の運用上の理由により、データにいっそう近いところにサービスを持ってくることができます。

ソブリンクラウドでの音声サービスのデプロイは、一部の政府機関とそのパートナーで利用できます。たとえば、Azure Government クラウドは、米国政府のエンティティとそのパートナーが利用できます。 21Vianet によって運営される Microsoft Azure クラウドは、中国で事業を展開している組織で利用できます。詳細については、ソブリンクラウドを参照してください。

音声サービスの設置場所とアクセス方法を示した図。

アプリケーションで Speech を使用する

Speech Studio は、アプリケーションで Azure AI 音声サービスの機能を構築および統合するための UI ベースのツールのセットです。コーディングなしのアプローチを使用して Speech Studio でプロジェクトを作成し、Speech SDK、Speech CLI、または REST API を使用して、アプリケーション内のアセットを参照します。

Speech CLI は、コードを記述せずに Speech サービスを使用するためのコマンドラインツールです。 Speech SDK の主な機能は、Speech CLI で利用できます。また、Speech CLI では、一部の高度な機能とカスタマイズが簡略化されています。

Speech SDK には、Speech サービスの各種機能が多数公開されており、これを使用して音声認識対応アプリケーションを開発できます。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。

Speech SDK は使用できない場合や使用するべきではない場合があります。そのような場合は、REST API を使用して Speech サービスにアクセスできます。たとえば、バッチ文字起こしには REST API を使用します。

概要

多くの一般的なプログラミング言語でのクイックスタートを提供します。それぞれのクイックスタートは、基本的な設計パターンを学び、10 分もかからずにコードを実行できるように作られています。それぞれの機能のクイックスタートについては、次の記事を参照してください。

コードサンプル

Speech サービスのサンプルコードは、GitHub 上で入手できます。これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタムモデルの使用など、一般的なシナリオについて説明されています。 SDK と REST のサンプルを見るには、次のリンクを使用してください。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透明性に関するメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次の方法で共有

音声サービスとは

音声のシナリオ

音声機能

音声からテキストへ変換

テキスト読み上げ

音声翻訳

LLM 音声 (プレビュー)

言語識別

発音評価

配信とプレゼンス

アプリケーションで Speech を使用する

概要

コード サンプル

責任ある AI

音声からテキストへ変換

発音評価

カスタム音声

次のステップ

フィードバック

その他のリソース

コードサンプル