다음을 통해 공유


Azure AI Content Understanding 문서 솔루션(미리 보기)

중요합니다

  • Azure AI Content Understanding은 미리 보기로 제공됩니다. 공개 미리 보기 릴리스는 활성 개발 중인 기능에 대한 초기 액세스를 제공합니다.
  • 기능, 접근 방식 및 프로세스는 GA(일반 공급) 전에 기능이 변경되거나 제한될 수 있습니다.
  • 자세한 내용은 Microsoft Azure 미리 보기에 대한 추가 사용 약관을 참조하세요.

Azure AI Content Understanding은 조직에서 비정형 콘텐츠를 실행 가능하고 조직화된 데이터로 변환할 수 있도록 정교한 문서 분석 기능을 제공합니다. 사용자 지정 가능한 분석기를 활용하여 다양한 문서 및 양식에서 필수 정보, 필드 및 관계를 전문적으로 추출할 수 있습니다.

비즈니스 사용 사례

문서 분석기는 다양한 형식 및 템플릿으로 복잡한 문서를 처리할 수 있습니다.

  • 계약 수명 주기 관리: 다양한 계약 유형에서 주요 필드, 절 및 의무를 추출합니다.
  • 대출 및 모기지 애플리케이션: 처리를 자동화하여 은행, 대출 기관 및 정부 기관에서 더 빠르게 처리할 수 있도록 합니다.
  • 금융 서비스: 재무 보고서 및 자산 관리 보고서와 같은 복잡한 문서를 분석합니다.
  • 비용 관리: 다양한 소매업체의 영수증 및 청구서를 구문 분석하여 다양한 형식 및 템플릿에서 비용의 유효성을 검사합니다.
  • 문서 집합 및 기술 자료 시나리오: 문서 집합 전체에서 키 필드를 추출하고 다단계 추론을 적용하여 유효성 검사 및 보강과 같은 작업을 처리하는 참조 데이터를 추가합니다.

문서 분석기 기능

문서 추출 흐름의 스크린샷.

콘텐츠 추출

콘텐츠 추출은 Azure AI Content Understanding의 문서 분석 기능의 기초를 형성하여 구조화되지 않은 문서를 기계에서 읽을 수 있는 구조화된 데이터로 변환합니다. 고급 레이아웃 분석을 통해 문서의 구조를 유지하면서 인쇄된 텍스트와 필기 텍스트를 정확하게 캡처합니다.

  • 콘텐츠 분석
    • 텍스트: 수백 개의 언어에서 기계 인쇄 및 필기 텍스트를 포함하여 다국어 콘텐츠를 처리합니다.
    • 선택 표시: 확인란, 라디오 단추 및 유사한 표식과 같은 선택 표시기를 식별하고 추출합니다.
    • 바코드 감지: 12가지 이상의 선형 및 2차원 바코드에서 정보를 검색하고 디코딩합니다.
    • 수학 수식: LaTeX 형식으로 복잡한 수학 식을 캡처하고 유지합니다.
    • 이미지 요소: 관련 캡션 및 주석과 함께 이미지, 다이어그램 및 차트를 찾아 추출합니다.
  • 구조 분석
    • 단락: 문서 컨텍스트 및 역할에 따라 텍스트 세그먼트를 검색하고 분류합니다.
    • 테이블 형식 데이터: 스패닝 셀과 다중 페이지 레이아웃이 있는 복잡한 서식을 포함하여 표 구조를 인식하고 추출합니다.
    • 계층적 섹션: 섹션 헤더 및 중첩된 콘텐츠 관계를 통해 콘텐츠 조직을 매핑합니다.
  • 넝마
    • RAG 솔루션: 콘텐츠 추출은 원시 멀티모달 데이터를 검색에 최적화된 구조화된 검색 가능한 형식으로 변환하여 효과적인 RAG 시스템의 기반을 형성합니다. 검색 보강된 생성 페이지에서 RAG 솔루션을 구축하는 방법에 대해 자세히 알아보세요.

필드 추출

필드 추출을 사용하면 고유한 요구 사항에 맞게 사용자 지정된 다양한 문서 및 양식에서 구조화된 데이터를 추출, 분류 및 생성할 수 있습니다. 구조화되지 않은 콘텐츠를 조직적이고 실행 가능한 정보로 변환하는 프로세스는 데이터 관리를 간소화하고 검색 가능성을 개선하며 자동화된 워크플로를 지원합니다. 예를 들어 송장에서 고객 세부 정보, 청구 주소 및 항목별 요금을 원활하게 추출하거나 법적 계약에서 계약 당사자, 갱신 날짜 및 지불 조건을 식별할 수 있습니다. 효율성을 최대화하기 위해 미리 빌드된 분석기 템플릿(예: 청구서에 맞게 조정된 템플릿)을 활용하거나 맞춤형 분석기를 처음부터 설계하여 더 많은 샘플 문서의 레이블 지정을 통해 정밀도를 향상시킬 수 있습니다.

신뢰도 및 기초 설정 API는 선택적인 기능입니다. estimateFieldSourceAndConfidencetrue로 설정하여 필드 추출의 신뢰성과 기반을 확보하도록 옵트인합니다.

필드 추출 메서드

Azure AI Content Understanding은 필드 추출을 위한 다양한 방법을 제공하여 문서 콘텐츠의 정확하고 맞춤화된 처리를 지원합니다.

  • 추출: 정확하고 집중적인 정보 캡처를 위해 영수증 또는 송장의 품목에서 트랜잭션 날짜와 같은 특정 데이터를 추출합니다.

  • 분류: 고객 통화 내용의 감정 분류 또는 호텔 영수증 항목 분류와 같이 문서 콘텐츠를 미리 정의된 범주로 분류합니다.

  • 생성: 문서 요약을 포함하여 문서에서 새 인사이트 또는 요약을 생성하고 콘텐츠 접근성 및 이해력을 향상시키는 장 개요를 생성합니다.

주요 이점

Content Understanding은 RAG(Retrieval-Augmented Generation) 및 RPA(로봇 프로세스 자동화)와 같은 중요한 엔터프라이즈 및 비즈니스 시나리오를 해결하기 위해 설계된 강력한 문서 분석 기능을 제공합니다. 주요 이점은 다음과 같습니다.

  • 지능형 검색 사용: 구조화되지 않은 문서를 구조화되고 검색 가능한 데이터 자산으로 변환하여 조직 전체에서 정보 검색 가능성과 접근성을 크게 향상시킵니다.

  • 접지된 데이터 추출: 추출된 데이터의 명확한 추적 가능성 및 지역화를 유지하여 효율적인 휴먼 인더 루프 검토 프로세스를 용이하게 하고 투명성과 규정 준수를 보장합니다.

  • 신뢰도 기반 자동화: 기본 제공 신뢰도 점수를 활용하여 문서 처리 작업을 지능적으로 자동화하고, 리소스 할당을 최적화하고, 운영 비용을 절감하고, 의사 결정 정확도를 향상합니다.

  • 유연한 사용자 지정: 특정 비즈니스 프로세스 및 워크플로에 맞게 문서 분석기를 쉽게 조정하고 조정하여 조직의 고유한 요구 사항에 맞게 정확한 추출 및 분류를 가능하게 합니다.

  • 향상된 정확도 및 안정성: 중요한 비즈니스 데이터의 정확한 추출 및 분류를 달성하여 오류를 크게 줄이고 자동화된 워크플로에서 운영 효율성을 개선합니다.

  • 에이전트 준비: 다양한 입력을 처리하고 에이전트 워크플로에 대해 준비된 표준 형식으로 출력을 제공합니다. 출력을 사용하면 애플리케이션에서 사용자 의도를 이해할 수 있으며, 스키마에서 지원하는 strongly-typed 데이터를 사용하여 코드에 대한 준비된 형식으로 데이터를 더 쉽게 가져올 수 있습니다.

입력 요구 사항

지원되는 입력 문서 형식에 대한 자세한 내용은 서비스 할당량 및 제한 페이지를 참조하세요.

지원되는 언어 및 지역

지원되는 언어 및 지역의 자세한 목록은 언어 및 지역 지원 페이지를 참조하세요.

데이터 개인 정보 보호 및 보안

Content Understanding을 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책을 검토해야 합니다. 자세한 내용은 데이터, 보호 및 개인 정보 페이지를 참조하세요.

다음 단계