Azure AI Content Understanding を使用してマルチモーダル情報を抽出する

5 分

Azure AI Content Understanding では、最先端の AI モデルを使用して、次のような複数の形式でコンテンツを分析します。

テキストベースのフォームとドキュメント
オーディオ
画像
Video

フォームとドキュメントの分析

Azure AI Content Understanding のドキュメント分析機能は、単純な OCR ベースのテキスト抽出を超えて、フィールドとその値のスキーマベースの抽出を含めます。

たとえば、請求書で通常見つかる共通フィールドを含むスキーマを定義するとします。次に例を示します。

ベンダー名
請求書番号
請求日
顧客名
カスタムアドレス
アイテム - 注文されたアイテム。各アイテムには次のものが含まれます。
- 品目の説明
- 単価
- 注文数
- 品目合計
請求書の小計
税金
送料
請求書の合計

次の請求書からこの情報を抽出する必要があるとします。

請求書の写真。

Azure AI Content Understanding では、請求書スキーマを請求書に適用し、異なる名前でラベル付けされている (またはまったくラベル付けされていない) 場合でも、対応するフィールドを識別できます。結果の分析では、次のような結果が生成されます。

検出されたフィールドが強調表示された分析済みの請求書の写真。

検出されたフィールドごとに、請求書から値が抽出されます。

ベンダー名: Adventure Works Cycles
請求書番号: 1234
請求日: 2025 年 3 月 7 日
顧客名: John Smith
カスタムアドレス: 123 River Street, Marshtown, England, GL1 234
アイテム:
- 項目 1:
  - アイテムの説明: 38 インチレーシングバイク (赤)
  - 単価: 1299.00
  - 注文数量: 1
  - 明細合計: 1299.00
- 項目 2:
  - アイテムの説明: サイクリングヘルメット (黒)
  - 単価: 25.99
  - 注文数量: 1
  - 明細合計: 25.99
- 項目 3:
  - アイテムの説明: サイクリングシャツ (L)
  - 単価: 42.50
  - 注文数量: 2
  - 明細合計: 85.00
請求書小計: 1409.99
税: 140.99
配送料: 35.00
請求書の合計: 1585.98

オーディオの分析

Azure AI Content Understanding では、テキストベースのドキュメントに加えて、オーディオファイルを分析して、文字起こし、概要、その他の重要な分析情報を提供できます。

ボイスメールの概要を AI に設定するとします。次のように、記録された各呼び出しから抽出する主要な分析情報のスキーマを定義できます。

呼び出し元
メッセージの概要
要求されたアクション
コールバック番号
代替連絡先の詳細

次に、呼び出し元が次の音声メッセージを残したとします。

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Azure AI Content Understanding を使用してオーディオ録音を分析し、スキーマを適用すると、次の結果が生成されます。

呼び出し元: Contoso の Ava
メッセージの概要: Contoso の Ava が会議のフォローアップを呼び出し、価格の期待を満たすことができると述べました。次の手順について話し合うためにコールバックまたは電子メールを要求しました。
要求されたアクション: コールバックまたは電子メールを送信して、次の手順について話し合います。
コールバック番号: 555-12345
別の連絡先の詳細: Ava@contoso.com

画像とビデオの分析

Azure AI Content Understanding では、カスタムスキーマに基づいて情報を抽出するための画像とビデオの分析がサポートされています。たとえば、ビデオ会議の画像を分析して、出席、場所、その他の情報の詳細を抽出できます。

電話会議システムの室内出席者とリモート出席者を組み合わせたコラボレーションメッセージングシステムによって作成された画像に対して、次のスキーマを定義したとします。

ロケーション
対面参加者
リモート出席者
出席者の合計数

Azure AI Content Understanding を使用して、会議室カメラから次の静止画像を分析できます。

3 人のリモート出席者との通話中の会議室の人物の写真。

前のスキーマをこのイメージに適用すると、Azure AI Content Understanding によって次の結果が生成されます。

場所: 会議室
対人出席者: 1
リモート出席者: 3
合計出席者数: 4

静止画像を分析する代わりに、通話の記録されたビデオ用のアナライザーを作成する必要がありました。スキーマには、さまざまな時間間隔での出席数、通話中に話したユーザーとその発言の詳細、ディスカッションの概要、会議から割り当てられたアクションの一覧が含まれる場合があります。

Azure AI Content Understanding を使用してマルチモーダル情報を抽出する

フォームとドキュメントの分析

オーディオの分析

画像とビデオの分析

フィードバック