オーディオ効果検出では、音響イベントが検出され、笑い、群衆の反応、アラーム、サイレンなどのカテゴリに分類されます。
オーディオ効果のユース ケース
- 非スペッシュ効果の文字起こしによって、聴覚障穏者に対してより多くのコンテキストを提供することで、アクセシビリティを向上させます。
- コンテンツ作成者向けの生データを作成するときの効率を向上させます。 キャンペーンや予告編の重要な瞬間 (笑い声、群衆の反応、銃声、爆発など) は、たとえば、[メディア] と [エンターテインメント] に識別することができます。
- スマートシティ システムや、カメラやマイクを含む他の公共環境で、銃声、爆発、ガラスの粉々を検出して分類します。
サポートされているオーディオ カテゴリ
オーディオ効果検出では、効果を検出し、標準および高度なカテゴリに分類できます。 詳細については、価格に関するページを参照してください。
次の表では、プリセット名 (音声のみ / ビデオとオーディオまたは高度なオーディオ / 高度なビデオとオーディオ) に応じて、どのカテゴリがサポートされるかを示しています。 Advanced インデックス作成を使用している場合は、Web サイトの Insights ウィンドウにカテゴリが表示されます。
クラス | 標準的なインデックス作成 | 高度なインデックス作成 |
---|---|---|
群衆の反応 | ✔️ | |
無音 | ✔️ | ✔️ |
銃声または爆発 | ✔️ | |
ガラスの破壊 | ✔️ | |
アラームまたはサイレン | ✔️ | |
笑い声 | ✔️ | |
犬 | ✔️ | |
ベルが鳴る音 | ✔️ | |
鳥 | ✔️ | |
車 | ✔️ | |
エンジン | ✔️ | |
泣き声 | ✔️ | |
音楽の再生 | ✔️ | |
叫び声 | ✔️ | |
雷雨 | ✔️ |
Web ポータルで分析情報 JSON を表示する
ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。
- Library タブを選択します。
- 目的のメディアを選択します。
- [ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザー タブで開きます。
- 応答例で説明されているキー ペアを見つけます。
API の使用
-
ビデオ インデックスの取得要求を使用します。
&includeSummarizedInsights=false
を渡す。 - 応答例で説明されているキー ペアを見つけます。
応答の例
"audioEffects": [
{
"id": 1,
"type": "Silence",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:01:46.243",
"adjustedEnd": "0:01:50.434",
"start": "0:01:46.243",
"end": "0:01:50.434"
}
]
},
{
"id": 2,
"type": "Speech",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:00:00",
"adjustedEnd": "0:01:43.06",
"start": "0:00:00",
"end": "0:01:43.06"
}
]
}
]
重要
すべてのVI機能の 透明度に関する注意事項の概要 をお読みください。 各分析情報には、独自の透明性に関するメモもあります。
オーディオ効果検出に関する注意事項
- 短いオーディオや低品質のオーディオの使用は避けるべきです。オーディオ エフェクト検出では、検出された非スピーチ オーディオ イベントについて、確率的で部分的なデータが提供されます。 精度を高めるためには、オーディオ エフェクトの検出には、少なくとも 2 秒以上のクリアな非スピーチ オーディオが必要です。 音声コマンドまたは歌はサポートされていません。
- 大音量のバックグラウンドの音楽や、繰り返しのある音楽、線形にスキャンされた周波数の音楽が付いているオーディオの使用は避けるべきです。オーディオ エフェクトの検出は、非スピーチ オーディオ専用に設計されており、大音量の音楽の中のイベントを分類することはできません。 繰り返しのある音楽や線形にスキャンされた周波数の音楽は、誤ってアラームやサイレンとして分類される可能性があります。
- より正確な確率論的データを促進するには、次のことを確認します。
- オーディオエフェクトは、非音声セグメントでのみ検出できます。
- 非スピーチ セクションの期間は、最低でも 2 秒にする必要があります。
- 低品質のオーディオは、検出結果に影響する可能性があります。
- 大音量のバックグラウンドの音楽でのイベントは分類されません。
- 繰り返しのある音楽や線形にスキャンされた周波数の音楽は、誤ってアラームやサイレンとして分類される可能性があります。
- ドアをノックする音や、ドアを激しく閉じる音は、銃声や爆発とラベル漬けされる可能性があります。
- 長時間の叫び声や物理的な人為的な音は誤分類される可能性があります。
- 複数人の笑い声は、笑い声と群衆の両方に分類される可能性があります。
- 自然な非合成の銃声と爆発音はサポートされています。
オーディオ エフェクト検出コンポーネント
オーディオ エフェクト検出の手順中に、メディア ファイル内のオーディオが次のように処理されます。
コンポーネント | 定義 |
---|---|
ソース ファイル | ユーザーは、インデックス作成のためにソース ファイルをアップロードします。 |
セグメント化 | オーディオが分析されます。 非スピーチ オーディオが識別されてから、重複する短い内部用に分割されます。 |
分類 | AIプロセスが各セグメントを分析し、その内容を群衆の反応や笑い声などのイベントカテゴリに分類します。 その後、分野固有のルールに従って、各イベント カテゴリに対して確率リストが作成されます。 |
信頼レベル | 各オーディオ エフェクトの推定信頼度レベルは、0 ~ 1 の範囲として計算されます。 信頼度スコアは、結果の精度の確実性を表しています。 たとえば、82% の確実性はスコア 0.82 として表されます。 |
サンプル コード
クローズド キャプション
クローズド キャプション ファイルのオーディオ効果は、角かっことして表示されます。
タイプ | 例 |
---|---|
SRT | 00:00:00,000 00:00:03,671 [銃声または爆発] |
VTT | 00:00:00.000 00:00:03.671 [銃声または爆発] |
TTML | 信頼度: 0.9047<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [銃声または爆発] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [銃声または爆発] |
注記
-
Silence
イベントの種類はクローズド キャプションには追加されません。 - イベントを表示する最小タイマー期間は 700 ミリ秒です。
クローズド キャプション ファイルにオーディオ効果を追加する
API (アプリケーション・プログラミング・インターフェース)
Get ビデオ キャプション要求を使用し、 パラメーターに includeAudioEffects
を選択することで、クローズド キャプション ファイルにオーディオ効果を追加できます。
注記
クローズド キャプション ファイルの 更新トランスクリプト を使用するか、クローズド キャプション ファイルから カスタム言語モデルを更新 すると、それらのファイルに含まれるオーディオ効果は無視されます。
Web ポータル
Web ポータルを使用する場合は、 ダウンロード ->Closed Captions ->オーディオ 効果を含むを選択します。