다음을 통해 공유


Iceberg 형식에 대한 데이터 품질 네이티브 지원(미리 보기)

Apache Iceberg 오픈 테이블 형식에 대한 Microsoft Purview 네이티브 지원은 공개 미리 보기로 제공됩니다. Microsoft ADLS(Azure Data Lake Storage) Gen2, Microsoft Fabric Lakehouse, AWS(Amazon Web Services) S3 및 GCP(Google Cloud Platform) GCS(Google Cloud Storage)를 사용하는 Microsoft Purview 고객은 이제 Microsoft Purview를 사용하여 Iceberg 데이터 자산에 대한 데이터 상태 제어 및 데이터 품질 평가를 큐레이팅, 제어 및 수행할 수 있습니다.

Iceberg 파일 구조

Iceberg 테이블은 데이터 파일 컬렉션 그 이상입니다. 여기에는 테이블의 상태를 추적하고 읽기, 쓰기 및 스키마 진화와 같은 작업을 용이하게 하는 다양한 메타데이터 파일이 포함됩니다. 다음은 Iceberg 테이블과 관련된 중요한 구성 요소에 대한 탐색입니다. Iceberg 테이블의 데이터 파일은 일반적으로 Apache Parquet, Apache Avro 또는 Apache Optimized Row Columnar(ORC)와 같은 열 형식으로 저장됩니다. 이러한 파일에는 쿼리 중에 사용자가 상호 작용하는 실제 데이터가 포함됩니다.

Iceberg 파일 구조의 다이어그램

Iceberg 카탈로그

맨 위에는 각 테이블에 대한 현재 메타데이터 포인터를 저장하는 Iceberg 카탈로그가 있습니다. 이 카탈로그를 사용하면 현재 메타데이터 파일을 참조하여 테이블의 최신 상태를 추적할 수 있습니다.

메타데이터 계층

메타데이터 계층은 Iceberg 기능의 중심이며 다음과 같은 몇 가지 주요 요소로 구성됩니다.

  • 메타데이터 파일: 이 파일에는 테이블의 스키마, 분할 및 스냅샷에 대한 정보가 포함되어 있습니다. 다이어그램에서 s0은 기본적으로 지정된 시점에서 테이블의 상태에 대한 레코드인 스냅샷 나타냅니다. s0 및 s1과 같은 여러 스냅샷이 있는 경우 메타데이터 파일은 두 스냅샷을 모두 추적합니다.
  • 매니페스트 목록: 이 목록은 하나 이상의 매니페스트 파일을 가리킵니다. 매니페스트 목록은 이러한 매니페스트에 대한 참조 컨테이너 역할을 하며, Iceberg가 다양한 작업 중에 읽거나 쓸 데이터 파일을 효율적으로 관리하는 데 도움이 됩니다. 각 스냅샷 고유한 매니페스트 목록이 있을 수 있습니다.

데이터 계층

데이터 계층에서 매니페스트 파일은 메타데이터와 실제 데이터 파일 간의 중개자 역할을 합니다. 각 매니페스트 파일은 데이터 파일 컬렉션을 가리키며 데이터 레이크에 저장된 실제 파일의 맵을 제공합니다.

  • 매니페스트 파일: 이러한 파일은 행 수, 파티션 정보 및 파일 경로를 포함하여 데이터 파일 그룹에 대한 메타데이터를 저장합니다. Iceberg를 사용하면 특정 파일을 빠르게 정리하고 액세스할 수 있으므로 효율적인 쿼리가 가능합니다.
  • 데이터 파일: 실제 데이터는 Parquet, ORC 또는 Avro와 같은 형식일 수 있는 이러한 파일에 상주합니다. Iceberg는 파티션을 기반으로 데이터 파일을 구성하여 불필요한 데이터 검사를 최소화하여 쿼리 실행 중에 성능 최적화를 허용합니다.

함께 작동하는 방식

쿼리 또는 업데이트와 같은 작업이 수행되면 Iceberg는 먼저 카탈로그를 통해 테이블의 메타데이터 파일을 조회합니다. 메타데이터 파일은 현재 스냅샷(또는 여러 스냅샷)를 참조한 다음 매니페스트 목록을 가리킵니다. 매니페스트 목록에는 개별 데이터 파일을 나열하는 매니페스트 파일에 대한 참조가 포함됩니다. 이러한 계층 구조를 통해 Iceberg는 트랜잭션 일관성을 보장하면서 대규모 데이터 세트를 효율적으로 관리할 수 있으므로 시간 이동 및 스키마 진화와 같은 기능을 사용할 수 있습니다.

이 다중 계층 디자인은 필요한 데이터 파일만 액세스하고 전체 데이터 세트에 영향을 주지 않고 스냅샷을 통해 업데이트가 관리되기 때문에 일괄 처리 및 스트리밍 작업의 성능과 확장성을 향상시킵니다.

OneLake의 빙산 데이터

데이터 이동이나 중복 없이 Microsoft Fabric에서 Iceberg 형식의 데이터를 원활하게 사용할 수 있습니다. OneLake 바로 가기를 사용하여 데이터 계층을 직접 가리킬 수 있습니다.

빙산 데이터는 Snowflake 또는 다른 빙산 작가를 사용하여 작성된 OneLake에 저장됩니다. OneLake는 테이블을 Delta Lake 테이블로 가상화하여 패브릭 엔진 간에 광범위한 호환성을 보장합니다. 예를 들어 Snowflake에서 볼륨을 만들고 패브릭 레이크하우스를 직접 가리킬 수 있습니다. 패브릭 OneLake에서 테이블이 만들어지면 자동 동기화를 통해 모든 데이터 업데이트가 실시간으로 반영됩니다. 이 간소화된 프로세스는 Microsoft Fabric의 Iceberg 데이터 작업을 용이하게 합니다. Snowflake 설명서에서 자세한 내용을 확인하세요.

중요

AWS S3 및 GCS의 Iceberg 데이터는 데이터 품질을 큐레이팅, 제어 및 측정 및 모니터링하기 위해 델타로 자동 동기화되어야 합니다.

Iceberg 데이터의 데이터 품질

ADLS Gen2 또는 Fabric Lakehouse의 Iceberg on(Parquet, ORC, Avro)에서 데이터를 고유하게 하이드레이션하는 모든 사용자의 경우 데이터 및 메타데이터 Iceberg 디렉터리를 호스팅하는 디렉터리의 위치를 가리키는 검사를 구성하기만 하면 됩니다. 아래에 나열된 단계를 따릅니다.

  1. Microsoft Purview 데이터 맵 검사를 구성하고 실행합니다.

  2. dir(호스팅 데이터 및 메타데이터)을 데이터 자산으로 구성하고 데이터 제품에 연결합니다. 이는 Iceberg 데이터 세트를 형성합니다. Microsoft Purview 통합 카탈로그 데이터 제품에 Iceberg 데이터 자산을 연결합니다. 데이터 자산을 데이터 제품에 연결하는 방법을 알아봅니다.

  3. 통합 카탈로그 상태 관리에서 데이터 품질 보기를 선택하여 Iceberg 파일(데이터 자산)을 찾고 데이터 원본 연결을 설정합니다.

    3.1 AdlsG2 연결을 설정하려면 DQ 연결 문서에 설명된 단계를 수행합니다.

    3.2 Fabric OneLake 연결을 설정하려면 패브릭 데이터 자산 DQ 문서에 설명된 단계를 수행합니다.

  4. 데이터 품질 규칙을 적용하고 열 및 테이블 수준 데이터 품질 채점을 위한 데이터 품질 검사를 실행합니다.

  5. 선택한 Iceberg 파일(데이터 자산)의 스키마 페이지에서 스키마 가져오기 를 선택하여 Iceberg 파일의 데이터 원본에서 스키마를 가져옵니다.

  6. 프로파일링 작업 또는 데이터 품질 검사 작업을 실행하기 전에 Iceberg 파일의 개요 페이지로 이동하고 데이터 자산 드롭다운 메뉴에서 Iceberg를 선택합니다.

프로파일링 및 데이터 품질 검사

연결 설정 및 데이터 자산 파일 형식 선택을 완료한 후 Iceberg 오픈 형식 파일에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 데이터 품질 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.

중요

  • 카탈로그 검색, 큐레이션, 데이터 프로파일링 및 데이터 품질 검사 기능에서 Iceberg 개방형 형식에 대한 지원은 이제 미리 보기로 제공됩니다.
  • 데이터 프로파일링 및 데이터 품질 평가의 경우 데이터 품질 스키마 페이지에서 스키마를 검색하고 설정해야 합니다.
  • 소비자 검색 환경: 데이터 맵이 아직 Iceberg 열린 테이블 형식을 지원하지 않으므로 소비자는 데이터 자산 보기에 스키마를 볼 수 없습니다. 데이터 품질 관리자는 데이터 품질 스키마 페이지에서 스키마를 가져올 수 있습니다.

제한 사항

현재 릴리스는 Apache Hadoop 카탈로그만 사용하여 Iceberg 형식으로 만든 데이터를 지원합니다.

레이크하우스 경로 및 ADLS Gen2 경로

  • Iceberg 메타데이터는 데이터 및 메타데이터의 전체 경로를 저장합니다. ADLS Gen2 및 Microsoft Fabric Lakehouse에 대한 전체 경로를 사용해야 합니다. 또한 쓰기 중에 Microsoft Fabric Lakehouse 경로의 경우 ID 경로로 운영(WRITES, UPSERTS)을 확인합니다. abfss://c4dd39bb-77e2-43d3-af10-712845dc2179@onelake.dfs.fabric.microsoft.com/5e8ea953-56fc-49c1-bc8c-0b3498cf1a9c/Files/CustomerData.
  • Id 및 Lakehouse를 ID로 사용하는 파일 시스템입니다. Microsoft Purview가 Iceberg에서 DQ를 수행하려면 상대 경로가 아닌 절대 경로가 필요합니다. 유효성을 검사하려면 전체 FQN(정규화된 이름) 경로를 가리키도록 스냅샷 경로를 검사.

스키마 검색

  • 데이터 맵에는 Iceberg 스키마를 검색할 수 없음이 제한됩니다. 패브릭 레이크하우스 또는 ADLS Gen2에서 Iceberg 디렉터리를 큐레이팅하는 경우 스키마를 검토할 수 없습니다. 그러나 DQ 페치 스키마는 큐레이팅된 자산에 대한 스키마를 끌어올 수 있습니다.

추천

  1. VOLUME Storage를 ADLS Gen2, AWS S3 또는 GCP GCS로 사용하는 Iceberg 형식용 SNOWFLAKE 카탈로그를 사용하는 경우 Microsoft Fabric OneLake 테이블 바로 가기를 사용하고 DQ를 DELTA 테이블로 수행합니다. 참고: Parquet 파일 형식의 Iceberg만 지원합니다.
  2. Hadoop 카탈로그와 함께 Iceberg 형식용 ADLS를 사용하는 경우 디렉터리를 직접 검사하고 DQ에 대한 Iceberg 형식의 기본값으로 DQ 엔진을 사용합니다. 참고: Parquet, ORC, Avro 파일 형식으로 Iceberg를 지원합니다.
  3. Iceberg 형식으로 Snowflake를 사용하는 경우 VOLUME 스토리지를 Microsoft Fabric Lakehouse 경로로 직접 가리키고 OneLake 테이블을 사용하여 DQ에 대한 델타 호환 버전을 만들 수 있습니다. 참고: Parquet 파일 형식의 Iceberg만 지원합니다.
  4. Hadoop 카탈로그와 함께 Iceberg 형식용 Microsoft Fabric Lakehouse를 사용하는 경우 레이크하우스 디렉터리를 직접 검사하고 DQ에 대한 Iceberg 형식의 기본값으로 DQ 엔진을 사용합니다. 참고: Parquet, ORC, Avro 파일 형식으로 Iceberg를 지원합니다.

참조