次の方法で共有


わかりやすさに関するメモ

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。

AI システムには、テクノロジだけでなく、それを使う人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。

Microsoft では、AI テクノロジのしくみを理解するのに役立つ "透過性のためのメモ" を提供しています。 これには、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性が含まれています。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

透過性のためのメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、 Microsoft の AI 原則を参照してください

発音評価の概要

Pronunciation Assessment API は、音声入力を受け取って音声の発音を評価し、話し上げられた音声の精度、流暢さ、完全性に関するフィードバックをスピーカーに提供します。 発音評価機能には、音声プロソディ、ボキャブラリの使用法、文法の正確性、トピックの理解のさまざまな側面に関するより包括的なフィードバックも含まれており、言語スキルの詳細な評価を提供します。 スクリプト化された評価とスクリプト化されていない評価の両方がサポートされているため、発音と言語能力を簡単に評価できます。 発音評価では、さまざまな 言語がサポートされています

発音評価を使用すると、言語学習者は、自信を持って話し、発表できるように、練習し、即座にフィードバックを得て、発音を向上させることができます。 教師は、発音評価を使用して、複数の話者の発音をリアルタイムで評価できます。

発音評価の基本

発音評価 API は、ネイティブの専門家が行う音声評価と密接に一致する機械学習ベースのアプローチを使用して、音声評価結果を提供します。 発音、流暢さ、プロソディ、ボキャブラリの使用法、文法の正確性、トピックの理解に関する貴重なフィードバックを提供し、言語スキルを強化し、新しい言語で自信を持ってコミュニケーションを取るのに役立ちます。 発音評価モデルは、ネイティブ スピーカーからの 100,000 時間以上の音声データでトレーニングされました。 ユーザーが参照テキストと比較して語句を見逃したり、繰り返したり、追加したりすると、正確な結果を得ることができます。 また、高度な構成パラメーターを使用して、API を使用する柔軟性をサポートすることもできます たとえば、粒度を設定して、評価の情報の粒度を変更できます。 (詳細については、 サンプル コードの詳細を参照してください)。

発音評価では、発音とコンテンツの複数の側面 (精度、流暢性、完全性、プロソディティ、ボキャブラリの使用法、文法の正確性、トピックの理解) が評価されます。 また、複数レベルの粒度で評価を行い、特定の音素、音節、単語、文、さらには記事全体の精度スコアを返します。 詳細については、 Speech SDK を発音評価機能に使用する方法を参照してください。

次の表では、主な結果について説明します。 詳細については、 完全な応答パラメーターを参照してください。 自然言語処理 (NLP) 手法と EnableMiscue 設定を使用することで、Pronunciation Assessment では、参照テキストと比較して、余分な単語、欠落した単語、繰り返し単語などのエラーを検出できます。 この情報は、診断情報として使用されるより正確なスコアリングを取得するのに役立ちます。 この機能は、長い段落のテキストに役立ちます。

パラメーター 説明
AccuracyScore 音声の発音精度。 精度は、音素がネイティブ スピーカーの発音とどれだけ厳密に一致しているかを示します。 音節、単語、全文の正確性スコアは、音素レベルの正確性スコアから集計され、評価の目標で調整されます。
FluencyScore 指定された音声の流暢性。 流暢性は、音声がネイティブ スピーカーによる単語間の間の取り方にどれだけ厳密に一致しているかを示します。
CompletenessScore 音声の完成度。入力参照テキストに対する発音された単語の比率によって計算されます。
ProsodyScore 指定された音声の韻律。 韻律は、アクセント、イントネーション、話す速度、リズムなど、指定された音声がどの程度自然であるかを示します。
PronScore 与えられた音声の発音品質を示す全体的なスコア。 これは、AccuracyScore、FluencyScore、CompletenessScore から重み付きで集計されます。
ErrorType この値は、ReferenceText と比較して、単語が省略、挿入、不適切な発音、不適切な区切り、句読点での区切りの欠落、発話の単調な上昇、落下、またはフラットのいずれであるかを示します。 指定できる値は、 None (この単語ではエラーがないことを意味します)、 OmissionInsertionMispronunciationUnexpectedBreakMissingBreak、および Monotoneです。

Pronunciation Assessment によって返されるパラメーターの別のセットは、Offset と Duration ("timestamp" と呼ばれます) です。音声のタイムスタンプは、構造化された JSON 形式で返されます。 発音評価では、各音素の発音エラーを計算できます。 発音評価では、入力オーディオの特定のタイムスタンプにエラーにフラグを設定することもできます。 アプリケーションを開発しているお客様は、シグナルを使用してラーニング パスを提供し、学生が複数の方法でエラーに集中するのに役立ちます。 たとえば、アプリケーションでは、元の音声を強調表示したり、音声に返信して標準の発音と比較したり、練習に似た単語を推奨したりできます。

パラメーター 説明
オフセット 認識された音声がオーディオ ストリーム内で開始する時間 (100 ナノ秒単位)。
期間 認識された音声のオーディオ ストリーム内での持続時間 (100 ナノ秒単位)。

利用事例の例

発音評価は、 リモート学習、試験の練習、または発音フィードバックを要求するその他のシナリオに使用できます。 次の例は、デプロイされているユース ケース、または発音評価を使用するお客様向けに設計されたユース ケースです。

  • 教育サービス プロバイダー: プロバイダーは、発音評価を使用してアプリケーションを構築し、学生がリアルタイムのフィードバックを使用してリモートで言語学習を練習できるようにします。 このユース ケースは、アプリケーションがリアルタイムフィードバックをサポートする必要がある場合に一般的です。 すぐにフィードバックを得るためのオーディオ ファイルの ストリーミング アップロード がサポートされています。
  • ゲームの教育: たとえば、アプリ開発者は、ゲームの包括的なレッスンと最先端の音声技術を組み合わせて、子供たちが英語を学ぶのに役立つ言語学習アプリを構築できます。 このプログラムでは、話す、読む、聞くなど、幅広い英語のスキルをカバーし、文法やボキャブラリに関するトレーニングを行うことができます。発音評価は、英語を話す子どもたちをサポートするために使用されます。 これらの複数の学習形式は、子供たちが楽しい学習スタイルに基づいて簡単に英語を学ぶことを保証します。
  • コミュニケーションアプリでの教育: Microsoft Teamsのリーディングプログレスは、省略、挿入、そして誤発音を自動検出する機能で、教師が学生のスピーキング課題を評価する際に役立ちます。 また、宿題を提出する前に、発音をより便利に練習することもできます。 Microsoft Teamsの学習アクセラレーターとしてのスピーカーの進行状況は、プレゼンテーションやパブリックスピーキングのスキルを伸ばすために学生をサポートするのにも役立ちます。

他のユースケースを選択する際の考慮事項

オンライン学習は、学校や組織が新しい接続方法や教育方法に適応するにつれて急速に成長しました。 音声技術は、すべてのバックグラウンドの学生が距離学習をより魅力的でアクセスしやすくする上で重要な役割を果たすことができます。 Foundry Tools を使用すると、開発者はアプリケーションに音声機能をすばやく追加し、オンライン学習を実現できます。

言語学習の重要な要素の 1 つは、発音スキルの向上です。 新しい言語学習者にとって、発音を練習し、タイムリーなフィードバックを得ることは、より流暢な話者になるため不可欠です。 言語学習で学習者や学生をサポートするソリューション プロバイダーの場合、発音評価を使用していつでも、どこでも練習する機能は、このシナリオに適しています。 また、教師のための仮想アシスタントとして統合し、効率を向上させることができます。

次の推奨事項は、発音評価を慎重に使用する必要があるユース ケースに関連しています。

  • 正式な検査シナリオには人間を組み込んで実施します。発音評価システムは AI システムによって動作しており、音声品質やバックグラウンドノイズなどの外部要因が精度に影響を与える可能性があります。 正式な検査では、人間が介入することで、評価結果が期待どおりに得られることが保証されます。
  • シナリオごとに異なるしきい値を使用することを検討してください。現時点では、発音評価スコアは、モデルのトレーニングに使用されるネイティブ スピーカーに対する類似性の距離のみを表します。 このような類似性の距離は、ルールベースの条件または加重カウントを使用してさまざまなシナリオにマップして、発音フィードバックを提供するのに役立ちます。 たとえば、子どもの学習のための採点方法は、成人学習ほど厳格ではない可能性があります。 成人向け学習では、より高い誤検出しきい値を設定することを検討してください。
  • 誤りを考慮する機能を検討してください。シナリオで長い段落の読み取りが必要な場合、ユーザーは間違いを犯さずに参照テキストに従うのが難しいと思われる可能性があります。 これらの間違い (省略、挿入、繰り返しなど) は、誤りとしてカウントされます。 EnableMiscue を有効にすると、発音された単語が参照テキストと比較され、比較に基づいて省略、挿入、繰り返しでマークされます。

法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス利用規約と関連する行動規範で禁止されている方法のために設計されておらず、そのような方法で使うこともできません。