次の方法で共有


発音評価の特性と制限事項

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 バインドのバージョンについては、このドキュメントの EN-US バージョンを参照してください。

Azure AI Speech サービスの一部として、発音評価は、コンピューター支援型言語学習のためのエンドツーエンドの教育ソリューションを支援します。 発音評価には、人間の判断に似た認識を持つ複数の詳細レベルで学習者のパフォーマンスを評価するための複数の基準が含まれます。

発音評価の精度はどのくらいですか?

発音評価機能は、 コンピューター支援言語学習の言語学習者に対して、発音の精度や流暢度などの客観的なスコアを提供します。 発音評価のパフォーマンスは、送信された文字起こしを基準としたAzure AI SpeechのTo-Text文字起こし精度と、システムと人間の判定者間の評価者間の一致に依存します。 音声To-Text の精度の定義については、音声テキスト変換を使用するための特性と制限事項 を参照してください。

次のセクションは、発音評価の使用に適用される精度に関する主要な概念を理解するのに役立ちます。

精度の言語

音声テキスト変換の正確性は発音評価に影響します。 Word エラー率 (WER) は、業界標準として音声To-Text の精度を測定するために使用されます。 WER は、認識中に識別された不適切な単語の数をカウントし、正しいトランスクリプトで提供された単語の合計数で除算します。これは、多くの場合、人間のラベル付けによって作成されます。

発音評価と人間のジャッジの比較

ピアソン相関係数は、発音評価 API によって生成されたスコアと、人間の判事によって生成されたスコアの間の相関関係を測定するために使用されます。 ピアソン相関係数は、2つの特定の配列の線形相関の尺度です。 自動生成されたマシンの結果と人間が注釈を付けたラベルの違いを測定するために広く使用されています。 この係数は、-1 から 1 の間の値を割り当てます。0 は相関関係がなく、負の値は予測がターゲットと反対であることを意味し、正の値は予測がターゲットとどのように整列されるかを意味します。

ピアソン相関係数解釈の提案されたガイドラインを次の表に示します。 強度は、2 つの変数間のリレーションシップの相関関係を示し、マシンの結果が人間のラベルとどの程度一貫して一致しているかを反映します。 1 に近い値は、より強い相関関係を示します。

関連付けの強さ 係数値 ディテール
0.1 から 0.3 自動システムから自動生成されたスコアは、人間の認識と大きく一致していません。
ミディアム 0.3 から 0.5 自動システムから自動生成されたスコアは人間の認識と一致していますが、違いはまだ存在し、人々は結果に同意しない可能性があります。
0.5 から 1.0 自動システムから自動生成されたスコアは人間の認識と一致しており、人々はシステムの結果に同意する必要があります。

Microsoft の発音評価では、人間の評価者の結果と >0.5 のピアソン相関を示しています。これは、自動生成された結果が人間の専門家の判断と非常に高い整合性を持つことを示しています。

システムの精度を向上させるためのシステムの制限事項とベスト プラクティス

  • 発音評価は、高品質のオーディオ入力でより適切に機能します。 16 kHz 以上の入力品質をお勧めします。
  • 発音評価の品質は、マイクからのスピーカーの距離の影響も受けます。 録音は、リモート接続ではなく、マイクの近くのスピーカーで行う必要があります。
  • 発音評価では、多言語の混合評価シナリオはサポートされていません。
  • 発音評価では、幅広い 言語がサポートされています
  • 発音評価では、マルチスピーカー評価シナリオはサポートされていません。 オーディオには、評価ごとに 1 人のスピーカーのみを含める必要があります。
  • 発音評価では、送信されたオーディオが一般的な条件でネイティブ スピーカーと比較されます。 話者は、通常の話す速度と音量を維持し、叫んだり、声を上げたりしないようにする必要があります。
  • バックグラウンド ノイズが少ない環境では、発音評価のパフォーマンスが向上します。 現在の音声To-Text モデルでは、一般的な条件でノイズに対応します。 ノイズの多い環境や複数のユーザーが同時に話すと、評価の信頼性が低下する可能性があります。 難しいケースをより適切に処理するために、特定のしきい値を下回ったスコアを付ける場合は、話者が発音を繰り返す必要があることを提案できます。

アプリケーションでの発音評価を検討する

発音評価のパフォーマンスは、お客様が実装する実際の用途によって異なります。 シナリオで最適なパフォーマンスを確保するために、お客様は、発音評価を使用して実装するソリューションの独自の評価を行う必要があります。

  • アプリケーションで発音評価を使用する前に、この製品がシナリオで適切に動作するかどうかを検討してください。 ターゲット シナリオから実際のデータを収集し、発音評価の実行方法をテストし、Speech-To-Text と Pronunciation Assessment が必要な精度を提供できることを確認します。 Azure AI サービスの Custom Speech 精度の評価と改善に関するページを参照してください。
  • ターゲット シナリオごとに適切なしきい値を選択します。 発音評価では、さまざまなレベルで精度スコアが提供され、実際に使用されるしきい値を考慮する必要がある場合があります。 たとえば、子どもの学習のための採点方法は、成人学習ほど厳格ではない可能性があります。 成人向け学習では、より高い誤検出しきい値を設定することを検討してください。