데이터 원본 연결은 통계 스냅샷 데이터를 프로파일링하거나 데이터 품질 이상 및 채점을 검사하는 데 필요한 인증을 설정합니다.
데이터 원본 연결 설정은 데이터 자산에 대한 데이터 품질 수명 주기의 네 번째 단계입니다. 이전 단계는 다음과 같습니다.
- 통합 카탈로그 사용자에게 데이터 품질 관리자 권한을 할당하여 모든 데이터 품질 기능을 사용합니다.
- Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
- 데이터 제품에 데이터 자산을 추가합니다.
필수 구성 요소
- 데이터 자산에 대한 연결을 만들려면 사용자가 데이터 품질 관리자 역할에 있어야 합니다.
- 연결을 설정하는 데이터 원본에 대한 읽기 권한 이상이 필요합니다.
지원되는 다중 클라우드 데이터 원본
지원되는 데이터 원본 문서를 찾아 가상 네트워크 지원 여부와 관계없이 데이터 프로파일링 및 데이터 품질 검사에 대한 파일 형식을 포함하여 지원되는 데이터 원본 목록을 확인합니다.
현재 데이터 품질 검사는 관리 ID 를 인증 옵션으로 사용해야만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4 및 Delta Lake 2.4에서 실행됩니다.
중요
이러한 원본에 액세스하려면 열려 있는 방화벽이 있도록 Microsoft Azure Storage 원본을 설정하거나, 신뢰할 수 있는 Azure 서비스 허용으로 설정하거나, 프라이빗 엔드포인트를 사용하려면 데이터 품질 관리형 가상 네트워크 구성 가이드에 설명된 지침을 따라야 합니다.
데이터 원본 연결 설정
거버넌스 도메인에서 데이터 제품 및 데이터 자산에 대한 새 연결을 만들려면 다음 단계를 수행합니다.
- 통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.
- 목록에서 거버넌스 도메인을 선택합니다.
- 관리 드롭다운 목록에서 Connections 선택합니다.
- Connections 페이지에서 새로 만들기를 선택합니다.
- 연결 플라이아웃 만들기 창에서 표시 이름과 선택적 설명을 입력합니다.
- 원본 유형을 선택합니다.
- 데이터 원본 중 하나인 Azure 구독, 데이터 맵을 선택하거나 데이터 원본을 수동으로 입력합니다. 선택한 데이터 원본에 따라 필요한 액세스 세부 정보를 입력합니다. 그런 다음 연결이 테스트됩니다.
- 테스트 연결이 성공하면 제출 을 선택하여 연결 설정을 완료합니다.
팁
- 프라이빗 엔드포인트 및 Microsoft Purview 데이터 품질 관리형 가상 네트워크를 사용하여 리소스에 대한 연결을 만들 수도 있습니다. 데이터 품질을 위해 관리형 가상 네트워크 설정에 대해 자세히 알아봅니다.
- 연결 설정 단계는 네이티브 커넥터에 따라 다릅니다. 네이티브 커넥터 문서에서 연결 설정 단계를 확인하여 Azure Databricks, Snowflake, Google BigQuery 및 Azure Synapse 커넥터에 대한 연결을 설정합니다.
- Azure Dedicated SQL 풀(이전의 SQL DW) 연결을 설정하려면 원본 형식을 Azure SQL 데이터베이스로 선택하고 엔드포인트 이름으로 추가
sqldatawarehouse.database.windows.net해야 합니다. - 가상 네트워크 지역은 선택한 원본 지역에서 자동으로 채워집니다. 가상 네트워크 프로비저닝 관리에 대한 세부 정보를 찾습니다.
원본에 대한 Microsoft Purview 권한 부여
연결을 만든 후에는 데이터 원본에 대해 Microsoft Purview 관리 ID 권한을 부여하여 검사해야 합니다.
Azure Data Lake Storage Gen2 검사하려면 스토리지 Blob 데이터 판독기 역할을 Microsoft Purview 관리 ID에 할당합니다. 단계에 따라 관리 ID 권한을 할당합니다.
Azure SQL 데이터베이스를 검사하려면 Microsoft Purview 관리 ID에 db_datareader 역할을 할당합니다. 단계에 따라 관리 ID 권한을 할당합니다.
관련 콘텐츠
- 패브릭 데이터 자산에 대한 데이터 품질
- 패브릭 미러된 데이터 원본에 대한 데이터 품질
- 패브릭의 데이터 품질 바로 가기 데이터 원본
- Azure Synapse 서버리스 및 데이터 웨어하우스에 대한 데이터 품질
- Azure Databricks Unity 카탈로그에 대한 데이터 품질
- Snowflake 데이터 원본에 대한 데이터 품질
- Google 빅 쿼리에 대한 데이터 품질
다음 단계
- 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
- 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
- 데이터 제품에서 데이터 품질 검사를 구성하고 실행 하여 데이터 제품의 지원되는 모든 자산의 품질을 평가합니다.
- 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.