다음을 통해 공유


Azure Databricks Unity Catalog에 대한 데이터 품질 설정

Unity 카탈로그를 사용하려면 작업 영역을 Unity 카탈로그 메타스토어에 연결하여 Unity Catalog에 Azure Databricks 작업 영역을 사용하도록 설정해야 합니다. 모든 새 작업 영역은 만들 때 Unity 카탈로그에 대해 자동으로 사용하도록 설정되지만 계정 관리자는 이전 작업 영역에 대해 Unity Catalog를 수동으로 사용하도록 설정해야 할 수 있습니다. 작업 영역이 Unity Catalog에 대해 자동으로 사용하도록 설정되어 있는지 여부에 관계없이 Unity 카탈로그를 시작하려면 다음 단계를 완료해야 합니다.

  • 테이블 및 볼륨과 같은 데이터베이스 개체를 포함하는 카탈로그 및 스키마를 만듭니다.
  • 관리되는 스토리지 위치를 만들어 관리되는 테이블과 볼륨을 이러한 카탈로그 및 스키마에 저장합니다.
  • 카탈로그, 스키마 및 데이터베이스 개체에 대한 사용자 액세스 권한을 부여합니다.

Unity 카탈로그에 대해 자동으로 사용하도록 설정된 작업 영역은 모든 작업 영역 사용자에게 부여된 광범위한 권한으로 작업 영역 카탈로그를 프로비전합니다. 이 카탈로그는 Unity 카탈로그를 사용해 보기에 편리한 시작점입니다.

자세한 설정 지침은 Unity 카탈로그 설정 및 관리를 참조하세요.

Azure Databricks Unity 카탈로그를 검사할 때 Microsoft Purview는 다음을 지원합니다.

  • 메타스토어
  • 카탈로그
  • 스키마
  • 열을 포함한 테이블
  • 열을 포함한 뷰

검사를 설정할 때 전체 Unity 카탈로그를 검사하도록 선택하거나 카탈로그 하위 집합에 검사를 scope 수 있습니다.

Microsoft Purview에서 Databricks Unity 카탈로그 데이터를 카탈로그로 데이터 맵 검사 구성

  • Microsoft Purview에서 Azure Databricks 작업 영역 등록
  • 등록된 Azure Databricks 작업 영역 검사
    • 검사 이름 입력
    • 추출 방법으로 Unity 카탈로그 선택
    • 통합 런타임을 통해 연결(Azure 통합 런타임, 관리형 Virtual Network IR 또는 사용자가 만든 Kubernetes 지원 자체 호스팅 통합 런타임)
    • 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다. 자세한 내용은 Microsoft Purview에서 원본 인증을 위한 자격 증명을 참조하세요.
      • Microsoft Purview가 연결하고 검사를 수행하는 Databricks SQL Warehouse의 HTTP 경로를 지정합니다.
    • 검사 범위 페이지에서 검사할 카탈로그를 선택합니다.
    • 분류에 대한 검사 규칙 집합을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인으로 새 규칙 집합을 만들 수 있습니다. 자세한 내용은 분류 문서를 참조하세요.
    • 검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.
    • 검사를 검토하고 저장 및 실행을 선택합니다.
  • 검사 및 검색 실행을 확인하여 데이터 카탈로그를 완료합니다.

검사한 후에는 UC(Unity Catalog)의 데이터 자산을 Microsoft Purview 통합 카탈로그 검색에서 사용할 수 있습니다. Microsoft Purview에서 Azure Databricks Unity Catalog를 연결하고 관리하는 방법에 대한 자세한 내용을 확인하세요.

중요

  • 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다.
  • 호스트된 Azure Key Vault 액세스 토큰을 배치하고 키 자격 증명 모음을 연결 관리자에 연결합니다.
  • Key Vault 제품(서비스) MSI 읽기(비밀) 액세스를 제공해야 합니다.

데이터 품질 검사를 위해 Databricks Unity Catalog에 대한 연결 설정

이 시점에서 스캔한 자산이 카탈로그화 및 거버넌스에 사용할 준비가 된 것입니다. 검사된 자산을 거버넌스 도메인의 데이터 제품에 연결합니다. 데이터 품질 탭에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.

  1. Microsoft Purview 포털에서 통합 카탈로그 엽니다.

  2. 상태 관리에서 데이터 품질을 선택합니다.

  3. 목록에서 거버넌스 도메인을 선택한 다음 관리 드롭다운 목록에서 Connections 선택합니다.

  4. Connections 페이지에서 연결을 구성합니다.

    • 연결 이름 및 설명을 추가합니다.
    • 원본 유형 Azure Databricks를 선택합니다.
    • Azure 구독을 선택합니다.
    • 작업 영역 URL을 선택합니다.
    • Databricks 메타스토어 ID를 추가합니다.
    • 추출 방법으로 카탈로그를 Unity 선택합니다.
    • HTTP 경로를 선택합니다.
    • Unity 카탈로그 이름을 선택합니다.
    • 스키마 이름을 선택합니다.
    • 테이블 이름을 선택합니다.
    • 인증 방법 선택 - 액세스 토큰
      • Azure 구독 추가
      • 키 자격 증명 모음 연결
      • 비밀 이름
      • 비밀 버전
    • Databricks가 가상 네트워크에서 실행 중인 경우 관리형 V-Net 사용 확인란을 선택합니다.
    • 지역이 자동으로 선택됩니다.
    • 가상 네트워크 스토리지가 아직 만들어지지 않은 경우 새 가상 네트워크를 만듭니다.
  5. 연결을 테스트합니다. Databricks 스토리지가 가상 네트워크에 있는 경우 연결을 테스트할 수 없습니다.

databricks UC 연결을 설정하는 방법을 보여 주는 스크린샷

databricks 연결 토큰을 구성하는 방법을 보여 주는 스크린샷

중요

  • 데이터 품질 관리자는 데이터 품질 연결을 설정하려면 Azure Databricks Unity Catalog에 대한 읽기 전용 액세스 권한이 필요합니다.
  • 공용 액세스를 사용하지 않도록 설정한 경우 Key Vault 신뢰할 수 있는 Microsoft 서비스 허용 확인란을 선택해야 합니다. 이 요구 사항은 Azure Databricks 작업 영역이 아닌 Key Vault만 적용됩니다.
  • 가상 네트워크 지원은 일반적으로 지원되는 모든 Azure 지역에서 사용할 수 있습니다. 이 단계에서 유연성을 유지하기 위해 데이터 거버넌스 SKU에 일시적으로 포함됩니다. 가상 네트워크 가격 책정은 아직 청구에 포함할 수 없습니다.

Azure Databricks Unity Catalog 데이터베이스의 데이터에 대한 프로파일링 및 데이터 품질 검사

연결 설정을 성공적으로 완료한 후 데이터를 프로파일하고, 규칙을 만들고 적용하고, Azure Databricks Unity Catalog 데이터베이스에서 데이터에 대한 데이터 품질 검사를 실행할 수 있습니다. 다음 리소스의 단계별 지침을 따릅니다.

중요

  • 데이터 자산에 대한 FQDN(정규화된 도메인 이름)은 와 같은 databricks://(metastore-id)/catalogs/(catalog-name)/schemas/(schema-name)/tables/(table-name)패턴을 따릅니다. 데이터 맵 자산 페이지에서 Azure Databricks 데이터 자산에 대한 FQDN 세부 정보를 찾을 수 있습니다.
  • 연결 매개 변수(연결 페이지)가 FQDN과 일치하지 않는 경우 연결이 여전히 작동할 수 있지만 선택한 databricks 자산의 데이터 품질 개요 페이지에 연결 오류가 표시됩니다. 해당 필드가 모두 올바르게 채워져 있는지 확인합니다.
  • 하나의 노드 단위가 있는 XS SQL Warehouse(WH)는 ADB 작업 영역의 기본 SQL Warehouse이며 특히 중간 또는 큰 데이터 세트의 프로덕션 등급 사용량에 적합한 컴퓨팅이 아닙니다. 참조 문서를 검토하고 적절한 수직 크기 조정(XS, S, M, L, XL 선택) SQL WH 및 8, 16, 32, 64 노드를 사용하여 처리를 효과적으로 스케일링하고 병렬화하여 수평 크기 조정을 채택합니다. M(1-8) SQL WH로 시작한 다음 계속 진행하는 것이 좋습니다.

리소스