다음을 통해 공유


Azure AI 콘텐츠 이해 동영상 솔루션(미리 보기)

중요합니다

Azure AI 콘텐츠 이해는 미리 보기로 제공됩니다. 공개 미리 보기 릴리스에서는 현재 활발하게 개발 중인 기능에 대한 조기 액세스를 제공합니다. 기능, 접근 방식 및 프로세스는 GA(일반 공급) 이전에 변경되거나 제한된 기능을 가질 수 있습니다. 자세한 내용은 Microsoft Azure 미리 보기에 대한 추가 사용 약관을 참조하세요.

Azure AI Content Understanding을 사용하면 표준 비디오 메타데이터 집합을 생성하고 생성 모델을 사용하여 특정 사용 사례에 대한 사용자 지정 필드를 만들 수 있습니다. Content Understanding을 사용하면 비디오 자산에 대한 워크플로를 관리, 분류, 검색 및 빌드할 수 있습니다. 미디어 자산 라이브러리를 향상시키고, 하이라이트 생성과 같은 기능을 지원하고, 콘텐츠를 분류하며, RAG(검색 보강 세대)와 같은 애플리케이션을 용이하게 합니다.

Content Understanding 비디오 처리 흐름의 그림입니다.

미리 빌드된 비디오 분석기는 다음을 포함하는 RAG 지원 Markdown을 출력합니다.

  • 사본: 표준 WEBVTT 형식의 인라인 대본
  • 묘사: 시각적 및 음성 컨텍스트를 사용하는 자연어 세그먼트 설명
  • 세분화: 비디오를 논리적 청크로 분할하는 자동 장면 분할
  • 키 프레임: 더 심층 분석을 가능하게 하는 정렬된 키 프레임 썸네일

이 형식은 에이전트 또는 RAG 워크플로를 사용하도록 설정하기 위해 벡터 저장소로 바로 놓을 수 있습니다. 사후 처리가 필요하지 않습니다.

여기에서 분석기를 사용자 지정하여 출력을 보다 세밀하게 제어할 수 있습니다. 사용자 지정 필드, 세그먼트를 정의하거나 얼굴 식별을 사용하도록 설정할 수 있습니다. 사용자 지정을 사용하면 생성 모델의 모든 기능을 사용하여 비디오의 시각적 및 오디오 세부 정보에서 심층적인 인사이트를 추출할 수 있습니다.

예를 들어 사용자 지정을 사용하면 다음을 수행할 수 있습니다.

  • 사용자 지정 필드 정의: 비디오에서 보거나 언급하는 제품 및 브랜드를 식별합니다.
  • 사용자 지정 세그먼트 생성: 토론된 주제 또는 뉴스 기사에 따라 뉴스 브로드캐스트를 장으로 분할합니다.
  • 사람 디렉터리를 사용하여 사람을 식별하면 고객이 얼굴 식별을 통해 영상의 회의 발표자에게 레이블을 지정할 수 있습니다. 예를 들어 CEO John Doe, CFO Jane Smith.

비디오에 Content Understanding을 사용하는 이유는 무엇인가요?

동영상에 대한 콘텐츠 이해는 잠재적으로 폭넓은 활용 가능성을 가지고 있습니다. 예를 들어, 학습 동영상의 특정 장면에 태그를 지정하기 위해 메타데이터를 사용자 지정하면 직원이 중요한 섹션을 쉽게 찾아 다시 볼 수 있습니다. 또한 메타데이터 사용자 지정을 사용하면 프로모션 동영상에서 제품 배치를 식별할 수 있으며, 이는 마케팅 팀이 브랜드 노출을 분석하는 데 도움이 됩니다. 다른 사용 사례는 다음과 같습니다.

  • 미디어 및 엔터테인먼트 브로드캐스트: 각 자산에 대한 자세한 메타데이터를 생성하여 쇼, 영화 및 클립의 큰 라이브러리를 관리합니다.
  • 교육 및 e-Learning: 교육 비디오 또는 강의에서 특정 순간을 인덱싱하고 검색합니다.
  • 회사 교육: 주요 주제, 장면 또는 중요한 순간에 따라 교육 비디오를 구성합니다.
  • 마케팅 및 광고: 홍보용 비디오를 분석하여 제품 배치, 브랜드 모양 및 주요 메시지를 추출합니다.

미리 빌드된 비디오 분석기 예제

미리 빌드된 비디오 분석기(미리 빌드된 videoAnalyzer)를 사용하여 비디오를 업로드하고 즉시 사용할 수 있는 지식 자산을 가져올 수 있습니다. 서비스는 모든 클립을 풍부한 형식의 Markdown 및 JSON으로 패키지합니다. 이 프로세스를 사용하면 사용자 지정 접착 코드 없이도 검색 인덱스나 채팅 에이전트가 데이터를 수집할 수 있습니다.

  1. 예를 들어 다음과 같이 기본 prebuilt-videoAnalyzer 을 만듭니다.
{
  "config": {},
  "BaseAnalyzerId": "prebuilt-videoAnalyzer",
}
  1. 다음으로, 30초 광고 비디오를 분석하면 다음 출력이 표시됩니다.

      # Video: 00:00.000 => 00:30.000
      Width: 1280
      Height: 720
    
      ## Segment 1: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Segment 2: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

비디오에서 Content Understanding을 사용한 RAG에 대한 다음 안내를 참고하십시오.

Azure AI Content Understanding을 사용한 비디오에서의 RAG

역량

내부적으로 2단계는 원시 픽셀을 비즈니스용 인사이트로 변환합니다. 아래 다이어그램은 추출 피드 생성 방법을 보여 줍니다. 각 다운스트림 단계에 필요한 컨텍스트가 있는지 확인합니다.

동영상 분석기 흐름의 스크린샷.

서비스는 두 단계로 작동합니다. 첫 번째 단계인 콘텐츠 추출에는 대본, 샷 및 얼굴과 같은 기본 메타데이터 캡처가 포함됩니다. 두 번째 단계인 필드 추출은 생성 모델을 사용하여 사용자 지정 필드를 생성하고 세분화를 수행합니다. 또한 필요에 따라 Face 추가 기능을 사용하도록 설정하여 개인을 식별하고 비디오에서 설명할 수 있습니다.

콘텐츠 추출 기능

초기 확인은 누가 말하고 있는지, 컷은 어디에 있는지, 어떤 얼굴이 반복적으로 나타나는지 첫 번째 세부 정보를 추출하는 것입니다. 이후 단계에서 추론할 수 있는 견고한 메타데이터 백본을 만듭니다.

  • 대화 내용 기록: 대화 오디오를 WebVTT 형식의 검색 및 분석 가능한 텍스트 기반 대화록으로 변환합니다. 설정된 경우 "returnDetails": true 문장 수준 타임스탬프를 사용할 수 있습니다. Content Understanding은 Azure AI Speech 음성 텍스트 변환 언어의 전체 집합을 지원합니다. 비디오에 대한 언어 지원의 세부 정보는 오디오와 동일합니다. 자세한 내용은오디오 언어 처리를 참조하세요. 다음의 대화 내용 기록 세부 사항은 고려해야 합니다.

    • 화자 구분: 대화의 발표자를 구분하여 대본의 일부를 특정 화자에게 할당합니다.

    • 다국어 전사: 다국어 전사를 생성합니다. 언어/로캘은 대본의 구별로 적용됩니다. "returnDetails": true가 설정되면 구가 출력됩니다. 언어 감지에서 벗어나는 이 기능은 언어/로캘이 지정되지 않거나 언어가 로 설정 auto될 때 활성화됩니다.

      비고

      다국어 전사를 사용하는 경우 지원되지 않는 로캘이 있는 모든 파일은 지원되는 가장 가까운 로캘을 기반으로 결과를 생성합니다. 이는 올바르지 않을 수 있습니다. 이 결과는 알려진 동작입니다. 다국어 전사를 지원하는 로캘을 사용하지 않을 때 로캘을 미리 구성하여 전사 품질 문제를 방지하세요.

    • 키 프레임 추출: 비디오에서 키 프레임을 추출하여 각 샷을 완전히 나타내며, 각 샷에 필드 추출이 효과적으로 작동할 수 있도록 충분한 키 프레임이 있는지 확인합니다.

    • 샷 감지: 가능한 경우 샷 경계에 맞춰 동영상 세그먼트를 식별하여 기존 편집 콘텐츠를 정확하게 끊고 콘텐츠를 다시 패키징할 수 있습니다. 출력은 타임스탬프(밀리초)의 목록입니다 cameraShotTimesMs. "returnDetails": true가 설정되어 있는 경우에만 출력이 반환됩니다.

필드 추출 및 구분

다음으로, 생성 모델은 장면에 태그를 지정하고, 작업을 요약하고, 요청당 세그먼트로 영상을 조각화하는 의미를 계층화합니다. 이 작업은 프롬프트가 구조화된 데이터로 바뀌는 위치입니다.

사용자 지정 필드

비즈니스 용어에 맞게 출력을 조정합니다. 각 항목이 fieldSchema 필드의 이름, 형식 및 설명을 정의하는 개체를 사용합니다. 런타임에 생성 모델은 모든 세그먼트에 대해 해당 필드를 채웁니다.

  • 미디어 자산 관리:

    • 비디오 범주: 편집자와 제작자가 콘텐츠를 뉴스, 스포츠, 인터뷰, 다큐멘터리, 광고 등으로 분류하여 콘텐츠를 구성할 수 있도록 지원합니다. 메타데이터 태그 지정 및 더 빠른 콘텐츠 필터링 및 검색에 유용합니다.
    • 색 구성표: 내러티브의 일관성과 시청자 참여를 위해 필수적인 분위기와 감성을 전달합니다. 색 테마를 파악하면 가속화된 동영상 편집에 적합한 클립을 찾는 데 도움이 됩니다.
  • 광고:

    • 브랜드: 광고 영향 분석, 브랜드 가시성 및 제품과의 연관성 분석에 중요한 브랜드의 존재를 식별하는 것은 필수적입니다. 이 기능을 통해 보급주는 브랜딩의 중요성을 평가하고 브랜딩 지침을 준수하는지 확인할 수 있습니다.
    • 광고 범주: 대상 광고 전략, 분류 및 성과 분석을 지원하는 업계, 제품 유형 또는 대상 그룹 세그먼트별로 광고 유형을 분류합니다.

예제:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

분할 모드

비고

구분을 설정하면 필드가 정의되지 않은 경우에도 필드 추출이 트리거됩니다.

Content Understanding은 비디오를 조각화할 수 있는 세 가지 방법을 제공하므로 전체 비디오 또는 짧은 클립에 필요한 출력을 얻을 수 있습니다. 사용자 지정 분석기에서 SegmentationMode 속성을 설정하여 이러한 옵션을 사용할 수 있습니다.

  • 전체 비디오segmentationMode : noSegmentation 서비스는 전체 비디오 파일을 단일 세그먼트로 처리하고 전체 기간에 걸쳐 메타데이터를 추출합니다.

    예제:

    • 광고의 어느 곳에서나 특정 브랜드 안전 문제를 찾는 규정 준수 검사
    • 전체 길이의 설명 요약
  • 자동 세분화segmentationMode = auto 서비스는 타임라인을 분석하고 자동으로 분할합니다. 연속 샷을 일관된 장면으로 그룹화하여 각각 1분으로 제한합니다.

    예제:

    • 쇼에서 스토리보드 만들기
    • 논리적인 일시 중지 시점에 중간 광고를 삽입합니다.
  • 사용자 지정 세분화segmentationMode : custom 자연어로 논리를 설명하고 모델은 일치하는 세그먼트를 만듭니다. 비디오를 분할하는 방법을 설명하는 문자열로 설정합니다 segmentationDefinition . 사용자 지정은 프롬프트에 따라 초에서 분까지 다양한 길이의 세그먼트를 허용합니다.

    예제:

    • 뉴스 방송을 이야기로 깨뜨리기.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

얼굴 식별 및 설명 추가 기능

비고

이 기능은 액세스가 제한되어 있으며 얼굴 식별 및 그룹화가 필요합니다. 고객은 얼굴 인식에서 액세스를 위해 등록해야 합니다. 얼굴 기능에는 추가 비용이 발생합니다.

얼굴 식별 설명은 얼굴 정보를 사용하여 콘텐츠 추출 및 필드 추출에 대한 컨텍스트를 제공하는 추가 기능입니다.

콘텐츠 추출 - 그룹화 및 식별

얼굴 추가 기능을 사용하면 콘텐츠 추출 섹션의 출력으로 그룹화 및 식별할 수 있습니다. 분석기 구성에서 얼굴 기능을 활성화하려면 "enableFace":true를 설정하십시오.

  • 그룹화: 비디오에 나타나는 그룹화된 얼굴을 사용하여 각 사람에 대해 하나의 대표 얼굴 이미지를 추출하고 각 사람이 있는 부분을 제공합니다. 그룹화된 얼굴 데이터는 메타데이터로 사용할 수 있으며 분석기에서 사용자 지정된 메타데이터 필드를 returnDetails: true 생성하는 데 사용할 수 있습니다.
  • 신분 증명: Face API 사용자 디렉터리를 기반으로 이름을 사용하여 비디오의 개인에게 레이블을 지정합니다. 고객은 분석기 속성의 현재 리소스 personDirectoryId 에 Face API 디렉터리의 이름을 제공하여 이 기능을 사용하도록 설정할 수 있습니다. 이 기능을 사용하려면 먼저 personDirectory를 만든 다음 분석기에서 참조해야 합니다. 이 작업을 수행하는 방법에 대한 자세한 내용은 개인 디렉터리를 빌드하는 방법을 확인하세요.

필드 추출 - 얼굴 설명

비디오에서 식별된 얼굴에 대한 자세한 설명을 제공하여 필드 추출 기능이 향상됩니다. 이 기능에는 얼굴 털, 감정 및 유명 인사의 존재와 같은 특성이 포함되며 다양한 분석 및 인덱싱 목적에 매우 중요할 수 있습니다. 얼굴 설명 기능을 활성화하려면 분석기 설정에서 disableFaceBlurring : true을(를) 설정하세요.

:

  • 예제 필드: emotionDescription: 이 클립에서 주 사용자의 감정 상태에 대한 설명을 제공합니다(예: happy, , sadangry).
  • 예제 필드: facialHairDescription: 얼굴 털의 유형(예: beard, , mustacheclean-shaven)을 설명합니다.

주요 이점

콘텐츠 이해는 다른 동영상 분석 솔루션과 비교했을 때 여러 가지 주요 이점을 제공합니다.

  • 세그먼트 기반 다중 프레임 분석: 개별 프레임이 아닌 각 비디오 세그먼트에서 여러 프레임을 분석하여 작업, 이벤트, 토픽 및 테마를 식별합니다.
  • 사용자화: 특정 사용 사례에 따라 스키마를 수정하여 생성할 필드와 세분화를 사용자 지정합니다.
  • 생성 모델: 자연어로 추출할 콘텐츠를 설명하고 Content Understanding은 생성 모델을 사용하여 해당 메타데이터를 추출합니다.
  • 최적화된 전처리: AI 생성 모델에 풍부한 컨텍스트를 제공하도록 최적화된 전사 및 장면 감지와 같은 여러 콘텐츠 추출 전처리 단계를 수행합니다.

기술 제약 조건 및 제한 사항

유의해야 할 비디오 처리의 특정 제한 사항:

  • 프레임 샘플링(~ 1FPS): 분석기는 초당 약 1개의 프레임을 검사합니다. 빠른 동작 또는 단일 프레임 이벤트를 놓칠 수 있습니다.
  • 프레임 해상도(512× 512픽셀): 샘플링된 프레임의 크기는 512픽셀 정사각형으로 조정됩니다. 작은 텍스트나 먼 개체는 손실될 수 있습니다.
  • 음성: 음성 단어만 전사됩니다. 음악, 음향 효과 및 주변 노이즈는 무시됩니다.

입력 요구 사항

지원되는 형식은 서비스 할당량 및 제한을 참조하세요.

지원되는 언어 및 지역

언어 및 지역 지원을 참조하세요.

데이터 개인 정보 보호 및 보안

모든 Azure AI 서비스와 마찬가지로 Microsoft의 데이터, 보호 및 개인 정보 설명 서를 검토합니다.

중요합니다

생체 인식 데이터(예: 얼굴 그룹화 또는 얼굴 식별 사용)를 처리하는 경우 GDPR 또는 기타 관련 법률에 따라 모든 통지, 동의 및 삭제 요구 사항을 충족해야 합니다. Face의 데이터 및 개인 정보를 참조하세요.