文字起こし、翻訳、言語識別機能は、メディア ファイル内の音声を検出し、文字起こしし、50 を超える言語に翻訳します。
Azure AI Video Indexer (VI) は、オーディオ ファイル内の音声を処理して文字起こしを抽出し、多くの言語に翻訳します。 翻訳のために特定の言語を選択すると、文字起こしとキーワード、トピック、ラベル、OCR などの分析情報の両方が、指定された言語に翻訳されます。 文字起こしをそのまま使用するか、話者の分析情報と組み合わせて、トランスクリプトをマップして話者に割り当てることができます。 オーディオ ファイルには複数のスピーカーを含めることができます。 各話者は、文字起こしされた音声の下に表示される ID を受け取ります。
言語識別 (LID) は、ビデオ ファイルでサポートされている主要な音声言語を認識します。 詳細については、「LID の適用」を参照してください。
複数言語識別 (MLID) オーディオ ファイル内の異なるセグメント内の音声言語を自動的に認識し、識別された言語で文字起こしされるように各セグメントを送信します。 このプロセスの最後に、すべての音声テキストが同じファイルに結合されます。 詳細については、「MLID の適用」を参照してください。 結果の分析情報は、ID、言語、文字起こしされたテキスト、期間、信頼度スコアを含む JSON ファイル内の分類されたリストで生成されます。
Azure AI Video Indexer は、複数のスピーカーを使用してメディア ファイルのインデックスを作成すると、スピーカー の階層化を実行します。 ビデオ内の各スピーカーを識別し、文字起こしされた各行をスピーカーに属性付けします。 スピーカーは、Speaker #1 や Speaker #2 などの一意の ID を受け取ります。 この機能により、会話中の話者の識別が可能になり、医師と患者の会話、エージェントと顧客の対話、裁判所の手続きなど、さまざまなシナリオで役立ちます。
メディアの文字起こし、翻訳、言語識別のユース ケース
- 聴覚障がいのあるユーザーがコンテンツを利用できるようにすることで、アクセシビリティを高めます。 Azure AI Video Indexer を使用して、音声テキスト変換の文字起こしと複数の言語への翻訳を生成します。
- さまざまな地域や言語の多様な対象ユーザーへのコンテンツ配信を改善します。 Azure AI Video Indexer の文字起こしと翻訳機能を使用して、複数の言語でコンテンツを配信します。
- 手動のクローズド キャプションと字幕の生成を強化および改善します。 Azure AI Video Indexer の文字起こしと翻訳の機能と、Azure AI Video Indexer によって生成されたクローズド キャプションを、サポートされている形式のいずれかで使用します。
- 言語識別 (LID) または多言語識別 (MLID) を使用して、不明な言語でビデオを文字起こしします。 これらの機能により、Azure AI Video Indexer は、ビデオに表示される言語を自動的に識別し、それに応じて文字起こしを生成できます。
Web ポータルで分析情報 JSON を表示する
ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。
- Library タブを選択します。
- 目的のメディアを選択します。
- [ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザー タブで開きます。
- 応答例で説明されているキー ペアを見つけます。
API の使用
- 
              ビデオ インデックスの取得要求を使用します。 
              &includeSummarizedInsights=falseを渡す。
- 応答例で説明されているキー ペアを見つけます。
応答の例
API は、ビデオで検出したすべての言語を sourceLanguage で返します。 文字起こしセクションの各インスタンスには、文字起こしされた言語が含まれています。
    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
重要
Azure AI Video Indexer のすべての機能に関する 透明性に関するメモの概要 をお読みください。 各分析情報には、独自の透明性に関するメモもあります。
文字起こし、翻訳、言語識別に関するメモ
責任を持って慎重に使用すれば、Azure AI Video Indexer は多くの業界にとって価値のあるツールとなります。 お客様は、常に他のユーザーのプライバシーと安全性を尊重し、現地およびグローバルの規制に準拠する必要があります。 以下のことが推奨されます。
- 結果の精度を慎重に検討し、より正確なデータを促進し、オーディオの品質を確認し、低品質のオーディオが検出された分析情報に影響を与える可能性があります。
- Video Indexer は話者認識を実行しないため、話者には複数のファイル間で識別子が割り当てられません。 複数のファイルまたはトランスクリプトで個々の話者を検索することはできません。
- 話者識別子はランダムに割り当てられ、1 つのファイル内の異なる話者を区別するためにのみ使用できます。
- クロストークと重複音声: 複数の話者が同時に話したり、割り込み合ったりすると、モデルが正確に認識を行い適切なテキストを対応する話者に割り当てることが困難になります。
- 話者の重複: 話者の音声パターンやアクセントが似ている場合や、似たボキャブラリを使用する場合があり、モデルで区別が難しい場合があります。
- ノイズの多いオーディオ: 低品質オーディオ、バックグラウンド ノイズ、低品質の録音は、話者を正しく識別して文字起こしするモデルの機能を妨げる可能性があります。
- 感情的な音声: 音声内の感情的なバリエーション (叫ぶ、泣く、極端な興奮など) は、話者を正確に記録するモデルの機能に影響を与える可能性があります。
- 話者の偽装またはなりすまし: 話者が意図的に他者の声を模倣または偽装しようとすると、モデルは話者を誤って識別する可能性があります。
- あいまいな話者識別: 一部の音声セグメントには、モデルが特定の話者に自信を持って属性を付けるのに十分な固有の特性がない場合があります。
- 選択した言語以外の言語を含むオーディオでは、予期しない結果が生成されます。
- 各言語を検出するための最小セグメント長は 15 秒です。
- 言語検出オフセットは、平均で 3 秒です。
- 音声は継続的であることが期待されます。 言語間の頻繁な代替は、モデルのパフォーマンスに影響する可能性があります。
- 非ネイティブ スピーカーの音声は、モデルのパフォーマンスに影響する可能性があります (たとえば、話者が第 1 言語を使用し、別の言語に切り替える場合など)。
- このモデルは、(音声コマンドや歌声などではなく) 妥当な音声音響で自然な会話音声を認識するように設計されています。
- プロジェクトの作成と編集は、複数言語のビデオでは使用できません。
- 複数言語の検出を使用する場合、カスタム言語モデルは使用できません。
- キーワードの追加はサポートされていません。
- 言語表示は、エクスポートされたクローズド キャプション ファイルには含まれません。
- API の更新トランスクリプトは、複数の言語ファイルをサポートしていません。
- このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。
- Azure AI Video Indexer で十分に高い信頼度 (0.6 超) で言語が識別されない場合、フォールバック言語は英語です。
サポートされている言語 一覧を次に示します。
文字起こし、翻訳、言語識別コンポーネント
文字起こし、翻訳、言語識別の手順では、メディア ファイル内の音声が以下のように処理されます。
| コンポーネント | 定義 | 
|---|---|
| ソース言語 | ユーザーが、インデックス作成のためにソース ファイルをアップロードして、以下のいずれかを行います。 - ビデオのソース言語を指定します。 - ファイルの言語を識別するための単一言語自動検出 (LID) を選択します。 出力は個別に保存されます。 - ファイル内の複数の言語を識別するための多言語自動検出 (MLID) を選択します。 各言語の出力は個別に保存されます。 | 
| 文字起こし API | オーディオ ファイルは、文字起こしと翻訳が行われた出力を取得するために Azure AI サービスに送信されます。 言語が指定されている場合は、それに応じて処理されます。 言語が指定されていない場合は、言語を識別するための LID または MLID プロセスが実行され、その後にファイルが処理されます。 | 
| 出力の統合 | 文字起こしされたファイルと翻訳されたファイルは、同じファイルに統合されます。 出力されたデータには、抽出された各文の話者 ID とその信頼度レベルが含まれます。 | 
| 信頼度値 | 各文の推定信頼度レベルは、0 から 1 の範囲で計算されます。 信頼度スコアは、結果の精度の確実性を表しています。 たとえば、82% の確実性はスコア 0.82 として表されます。 |