物体検出の分析情報を取得する

2025-06-04

この記事では、Azure AI Video Indexer オブジェクト検出の分析情報を取得する方法について説明します。物体検出は、ビデオ内のオブジェクトを検出して追跡する機能です。車、バッグ、バックパック、ラップトップなどのオブジェクトを見つけるために使用できます。

サポート対象のオブジェクト

飛行機
りんご
リュックサック
バナナ
野球のグローブ
ベッド
ベンチ
自転車
船
本
ボトル
Excel
ブロッコリー
バス
ケーキ

車
ニンジン
携帯電話
椅子
時計
コンピューターのマウス
ソファ
カップ
ダイニングテーブル
ドーナツ
消火栓
フォーク
フリスビー

ヘアドライヤー
ハンドバッグ
ホットドッグ
キーボード
凧
ナイフ
ノートパソコン
電子レンジ
オートバイ
コンピューターのマウス
ネクタイ
オレンジ
オーブン
パーキングメーター
ピザ
鉢植え

サンドイッチ
はさみ
シンク
スケートボード
スキー
スノーボード
スプーン
スポーツのボール
一時停止標識
スーツケース
サーフボード
テディベア

テニスラケット
トースター
トイレ
歯ブラシ
信号機
トレーニング
傘
花瓶
ワイングラス

Web ポータルで分析情報 JSON を表示する

ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。

Library タブを選択します。
目的のメディアを選択します。
[ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザータブで開きます。
応答例で説明されているキーペアを見つけます。

API の使用

ビデオインデックスの取得要求を使用します。 &includeSummarizedInsights=falseを渡す。
応答例で説明されているキーペアを見つけます。

応答の例

検出され、追跡されたオブジェクトは、ダウンロードしたinsights.jsonファイルの detectedObjects の下に表示されます。一意のオブジェクトが検出されるたびに、そのオブジェクトに ID が付与されます。また、その物体は追跡されます。つまり、検出された物体が再度フレームに表示されないか、モデルによって監視されます。フレームに戻った場合、そのオブジェクトのインスタンスに、開始時刻と終了時刻が異なる別のインスタンスが追加されます。

この例では、最初に自動車が検出されたとき、それは最初に検出された物体でもあったので、ID は 1 になりました。その後、別の車が検出され、23番目の物体が検出されたので、その車は23のIDを与えられました。その後、最初の車が再び表示され、別のインスタンスが JSON に追加されました。結果の JSON を次に示します。

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]

キー	定義
身分証明書	メディアファイル内で検出されたオブジェクトの ID を示す増分数
タイプ	物体の種類 (例: 自動車)
サムネイルID	単一の物体検出を表す GUID
ディスプレイ名	VI ポータルエクスペリエンスに表示される名前
WikiDataのID	WikiData 構造内の一意識別子
事例	追跡されたすべてのインスタンスのリスト
信頼度	物体検出の信頼度を示す 0 ～ 1 のスコア
調整開始	エディターでビデオの開始時間を調整した場合
調整後の終了	エディター使用時のビデオの調整済み終了時刻
始める	物体がフレームに出現する時刻
終了	物体がフレームに表示されなくなる時刻

コンポーネント

オブジェクト検出用のコンポーネントは定義されていません。

透明性に関するメモ

重要

すべてのVI機能の透明度に関する注意事項の概要をお読みください。各分析情報には、独自の透明性に関するメモもあります。

標準および高度な処理用にフレームあたり最大 20 個の検出があり、クラスあたり 35 トラックがあります。
物体のサイズはフレームの 90% を超えてはなりません。フレームの大部分に一貫してまたがっている大きなオブジェクトは認識されない場合があります。
小さいオブジェクトやぼやけたオブジェクトは、検出が困難な場合があります。見逃されたり、誤って分類されたりする可能性があります (ワイングラス、カップ)。
一時的で、少数のフレームに表示されるオブジェクトは認識されない場合があります。
物体検出の精度に影響を与える可能性のあるその他の要因には、低い光条件、カメラの動き、オクルージョンなどがあります。
Azure AI Video Indexer では、実際のオブジェクトのみがサポートされます。アニメーションや CGI はサポートされません。コンピューターで生成されたグラフィックス (ニュースステッカーなど) は、奇妙な結果を生み出す可能性があります。
バインダー、パンフレット、その他の筆記資料は、 Bookとして検出される傾向があります。

サンプルコード

VIのすべてのサンプルを見る

次の方法で共有