다음을 통해 공유


컨텐츠 이해 분류 시스템

중요합니다

분류자 API는 릴리스가 있는 2025-05-01-preview 문서에만 사용할 수 있습니다. Azure AI Content Understanding 분류자는 릴리스에서 2025-05-01-preview 사용할 수 있습니다. 공개 미리 보기 릴리스는 활성 개발 중인 기능에 대한 초기 액세스를 제공합니다. 기능, 접근 방식 및 프로세스는 일반 공급 전에 기능이 변경되거나 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Azure AI Content Understanding 분류자를 사용하여 애플리케이션 내에서 처리하는 문서를 검색하고 식별할 수 있습니다. Content Understanding 분류자는 입력 파일의 분류를 전체적으로 수행할 수 있습니다. 분류자는 입력 파일 내에서 여러 문서 또는 단일 문서의 여러 인스턴스를 식별할 수도 있습니다.

비즈니스 사용 사례

분류자는 다양한 형식 및 템플릿으로 복잡한 문서를 처리할 수 있습니다.

  • 송장: 필요한 경우 여러 공급업체의 청구서를 분류하여 다른 Content Understanding 분석기를 사용하여 각 범주를 처리합니다.
  • 세금 문서: 여러 세금 문서를 1040 및 1099와 같은 다양한 유형의 세금 양식으로 분류합니다.
  • 계약: 길고 구조화되지 않은 계약을 분류하여 다양한 유형의 계약 및 특정 법적 의미를 이해하기 위해 운영을 간소화합니다.

콘텐츠 이해 분류 기능

Content Understanding 분류자는 단일 또는 다중 파일 문서를 분석하여 입력 파일을 정의된 범주로 분류할 수 있는지 여부를 식별할 수 있습니다. 지원되는 시나리오는 다음과 같습니다.

  • 대출 신청 양식과 같은 하나의 문서 형식이 포함된 단일 파일입니다.
  • 여러 문서 형식을 포함하는 단일 파일입니다. 예를 들어 대출 신청 양식, 급여 명세서 및 은행 명세서가 포함된 대출 신청 패키지가 있습니다.
  • 동일한 문서의 여러 인스턴스를 포함하는 단일 파일입니다. 예를 들어 스캔한 청구서 컬렉션이 있습니다.
  • 기본적으로 $OTHER 클래스는 정의된 범주 중 어느 것도 적합하지 않은 경우에 사용됩니다.

Content Understanding 분류자 사용

Content Understanding 분류자는 학습 데이터 세트가 필요하지 않습니다. 최대 50개의 범주 이름 및 설명을 정의하고 분류자를 만들 수 있습니다. 기본적으로 전체 파일은 단일 콘텐츠 개체로 처리됩니다. 즉, 파일 또는 개체가 단일 범주에 연결됩니다.

파일에 문서가 두 개 이상 있는 경우 분류자는 분할 기능을 사용하여 입력 파일에 포함된 다양한 문서 형식을 식별할 수 있습니다. 분류자 응답에는 파일 내에 포함된 식별된 각 문서 형식에 대한 페이지 범위가 포함됩니다. 이 응답에는 동일한 문서 형식의 여러 인스턴스가 포함될 수 있습니다.

분류자를 analyze 호출할 때 작업에는 분할 동작에 splitMode 대한 세부적인 제어를 제공하는 속성이 포함됩니다. 입력 문서의 특정 페이지만 분석하도록 페이지 번호를 지정할 수도 있습니다.

  • 전체 입력 파일을 분류를 위한 단일 문서로 처리하려면 다음으로 설정합니다 splitModenone. 이렇게 하면 서비스는 전체 입력 파일에 대해 하나의 범주를 반환합니다.
  • 입력 파일의 각 페이지를 분류하려면 .로 perPage설정합니다splitMode. 서비스는 각 페이지를 개별 문서로 분류하려고 시도합니다.
  • 문서 및 관련 페이지 범위를 식별하려면 .로 설정합니다 splitModeauto.

선택적 분석

전체 엔드 투 엔드 흐름의 경우 분류자 범주를 기존 분석기와 연결할 수 있습니다. 연결된 분석기를 사용하여 범주로 분류된 각 콘텐츠 개체에 대해 서비스는 해당 분석기를 사용하여 콘텐츠 개체에 대한 분석을 자동으로 호출합니다.

예를 들어 이 연결을 사용하여 문서에 여러 형식의 양식이 포함된 PDF의 청구서만 식별하고 분석하는 분류자를 만들 수 있습니다. 분류된 문서 또는 페이지에서 필드 추출을 라우팅하고 수행하려면 기존 분석기로 설정합니다 analyzerId .

분류자 제한

지원되는 입력 문서 형식 및 분류자 제한에 대한 자세한 내용은 서비스 할당량 및 제한을 참조하세요.

모범 사례

분류 및 분할 품질을 개선하려면 모델이 일부 컨텍스트를 사용하여 범주를 이해할 수 있도록 적절한 범주 이름 및 설명을 사용합니다. 범주 이름 및 설명에 대한 자세한 내용은 모범 사례를 참조하세요.

주요 이점

  • 정확도 및 안정성: 정확한 문서 분류를 보장하여 오류를 줄이고 효율성을 높입니다.
  • 확장성: 비즈니스 요구에 맞게 문서 처리를 확장합니다.
  • 사용자 지정 가능: 특정 워크플로에 맞게 문서 분류자를 조정합니다.

지원되는 언어 및 지역

지원되는 언어 및 지역 목록은 언어 및 지역 지원을 참조하세요.

데이터 개인 정보 보호 및 보안

Content Understanding을 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 검토해야 합니다. 자세한 내용은 데이터, 보호 및 개인 정보를 참조하세요.