중요합니다
분류자 API는 릴리스가 있는 2025-05-01-preview
문서에만 사용할 수 있습니다. Azure AI Content Understanding 분류자는 릴리스에서 2025-05-01-preview
사용할 수 있습니다. 공개 미리 보기 릴리스는 활성 개발 중인 기능에 대한 초기 액세스를 제공합니다. 기능, 접근 방식 및 프로세스는 일반 공급 전에 기능이 변경되거나 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
Azure AI Content Understanding 분류자를 사용하여 애플리케이션 내에서 처리하는 문서를 검색하고 식별할 수 있습니다. Content Understanding 분류자는 입력 파일의 분류를 전체적으로 수행할 수 있습니다. 분류자는 입력 파일 내에서 여러 문서 또는 단일 문서의 여러 인스턴스를 식별할 수도 있습니다.
비즈니스 사용 사례
분류자는 다양한 형식 및 템플릿으로 복잡한 문서를 처리할 수 있습니다.
- 송장: 필요한 경우 여러 공급업체의 청구서를 분류하여 다른 Content Understanding 분석기를 사용하여 각 범주를 처리합니다.
- 세금 문서: 여러 세금 문서를 1040 및 1099와 같은 다양한 유형의 세금 양식으로 분류합니다.
- 계약: 길고 구조화되지 않은 계약을 분류하여 다양한 유형의 계약 및 특정 법적 의미를 이해하기 위해 운영을 간소화합니다.
콘텐츠 이해 분류 기능
Content Understanding 분류자는 단일 또는 다중 파일 문서를 분석하여 입력 파일을 정의된 범주로 분류할 수 있는지 여부를 식별할 수 있습니다. 지원되는 시나리오는 다음과 같습니다.
- 대출 신청 양식과 같은 하나의 문서 형식이 포함된 단일 파일입니다.
- 여러 문서 형식을 포함하는 단일 파일입니다. 예를 들어 대출 신청 양식, 급여 명세서 및 은행 명세서가 포함된 대출 신청 패키지가 있습니다.
- 동일한 문서의 여러 인스턴스를 포함하는 단일 파일입니다. 예를 들어 스캔한 청구서 컬렉션이 있습니다.
- 기본적으로
$OTHER
클래스는 정의된 범주 중 어느 것도 적합하지 않은 경우에 사용됩니다.
Content Understanding 분류자 사용
Content Understanding 분류자는 학습 데이터 세트가 필요하지 않습니다. 최대 50개의 범주 이름 및 설명을 정의하고 분류자를 만들 수 있습니다. 기본적으로 전체 파일은 단일 콘텐츠 개체로 처리됩니다. 즉, 파일 또는 개체가 단일 범주에 연결됩니다.
파일에 문서가 두 개 이상 있는 경우 분류자는 분할 기능을 사용하여 입력 파일에 포함된 다양한 문서 형식을 식별할 수 있습니다. 분류자 응답에는 파일 내에 포함된 식별된 각 문서 형식에 대한 페이지 범위가 포함됩니다. 이 응답에는 동일한 문서 형식의 여러 인스턴스가 포함될 수 있습니다.
분류자를 analyze
호출할 때 작업에는 분할 동작에 splitMode
대한 세부적인 제어를 제공하는 속성이 포함됩니다. 입력 문서의 특정 페이지만 분석하도록 페이지 번호를 지정할 수도 있습니다.
- 전체 입력 파일을 분류를 위한 단일 문서로 처리하려면 다음으로 설정합니다
splitMode
none
. 이렇게 하면 서비스는 전체 입력 파일에 대해 하나의 범주를 반환합니다. - 입력 파일의 각 페이지를 분류하려면 .로
perPage
설정합니다splitMode
. 서비스는 각 페이지를 개별 문서로 분류하려고 시도합니다. - 문서 및 관련 페이지 범위를 식별하려면 .로 설정합니다
splitMode
auto
.
선택적 분석
전체 엔드 투 엔드 흐름의 경우 분류자 범주를 기존 분석기와 연결할 수 있습니다. 연결된 분석기를 사용하여 범주로 분류된 각 콘텐츠 개체에 대해 서비스는 해당 분석기를 사용하여 콘텐츠 개체에 대한 분석을 자동으로 호출합니다.
예를 들어 이 연결을 사용하여 문서에 여러 형식의 양식이 포함된 PDF의 청구서만 식별하고 분석하는 분류자를 만들 수 있습니다. 분류된 문서 또는 페이지에서 필드 추출을 라우팅하고 수행하려면 기존 분석기로 설정합니다 analyzerId
.
분류자 제한
지원되는 입력 문서 형식 및 분류자 제한에 대한 자세한 내용은 서비스 할당량 및 제한을 참조하세요.
모범 사례
분류 및 분할 품질을 개선하려면 모델이 일부 컨텍스트를 사용하여 범주를 이해할 수 있도록 적절한 범주 이름 및 설명을 사용합니다. 범주 이름 및 설명에 대한 자세한 내용은 모범 사례를 참조하세요.
주요 이점
- 정확도 및 안정성: 정확한 문서 분류를 보장하여 오류를 줄이고 효율성을 높입니다.
- 확장성: 비즈니스 요구에 맞게 문서 처리를 확장합니다.
- 사용자 지정 가능: 특정 워크플로에 맞게 문서 분류자를 조정합니다.
지원되는 언어 및 지역
지원되는 언어 및 지역 목록은 언어 및 지역 지원을 참조하세요.
데이터 개인 정보 보호 및 보안
Content Understanding을 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 검토해야 합니다. 자세한 내용은 데이터, 보호 및 개인 정보를 참조하세요.
관련 콘텐츠
- Azure AI Foundry에서 Content Understanding을 사용하여 문서 콘텐츠를 처리해 보세요.
- 문서 콘텐츠 분석기 템플릿을 분석하는 방법을 알아봅니다.