데이터 품질 검사는 적용된 데이터 품질 규칙에 따라 데이터 자산을 검토하고 점수를 생성합니다. 데이터 관리자는 해당 점수를 사용하여 데이터 상태를 평가하고 데이터 품질을 낮출 수 있는 문제를 해결할 수 있습니다.
필수 구성 요소
- 데이터 품질 평가 검사를 실행하고 예약하려면 사용자가 데이터 품질 관리자 역할에 있어야 합니다.
- 현재 Microsoft Purview 계정은 데이터 품질 검사를 실행할 수 있도록 공용 액세스 또는 관리형 가상 네트워크 액세스를 허용하도록 설정할 수 있습니다.
데이터 품질 수명 주기
데이터 품질 검사는 데이터 자산의 데이터 품질 수명 주기의 일곱 번째 단계입니다. 이전 단계는 다음과 같습니다.
- 모든 데이터 품질 기능을 사용할 수 있도록 Microsoft Purview 통합 카탈로그 사용자 데이터 품질 관리자 권한을 할당합니다.
- Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
- 데이터 제품에 데이터 자산 추가
- 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
-
데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
- 프로파일링이 완료되면 데이터 자산의 각 열에 대한 결과를 찾아 데이터의 현재 구조와 상태를 이해합니다.
- 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
지원되는 다중 클라우드 데이터 원본
지원되는 데이터 원본 문서를 찾아 가상 네트워크 지원 여부와 관계없이 데이터 프로파일링 및 데이터 품질 검사에 대한 파일 형식을 포함하여 지원되는 데이터 원본 목록을 확인합니다.
중요
Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.
- Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. {SparkPartitions}로 이어지는 직접 FQN이어야 합니다. - 분할된 Parquet 파일이 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같이 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다. 제한: Parquet Files를 사용하여 디렉터리의 N 임의 계층 구조를 지원하거나 지원하지 않습니다. (1) 또는 (2) 생성 구조에서 데이터를 표시하는 것이 좋습니다.
지원되는 인증 방법
현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4 및 Delta Lake 2.4에서 실행됩니다. 지원되는 지역에 대한 자세한 내용은 데이터 품질 개요를 참조하세요.
중요
- 스키마가 데이터 원본에서 업데이트되는 경우 데이터 품질 검사를 실행하기 전에 데이터 맵 검사를 다시 실행해야 합니다. 데이터 품질 개요 페이지에서 스키마 가져오기 기능을 사용할 수도 있습니다.
- 관리형 가상 네트워크 또는 프라이빗 엔드포인트에서 실행되는 데이터 원본에는 스키마 가져오기가 지원되지 않습니다.
- 가상 네트워크는 Google BigQuery에서 지원되지 않습니다.
데이터 품질 검사 실행
아직 데이터 품질을 검사하지 않은 경우 검사하는 자산에 대한 데이터 원본 연결을 구성합니다.
통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.
목록에서 거버넌스 도메인 을 선택합니다.
데이터 제품을 선택하여 해당 제품에 연결된 데이터 자산의 데이터 품질을 평가합니다.
데이터 품질 개요 페이지로 이동되는 데이터 자산의 이름을 선택합니다.
기존 데이터 품질 규칙을 찾아보고 규칙을 선택하여 새 규칙을 추가할 수 있습니다. 스키마를 선택하여 데이터 자산의 스키마를 찾아볼 수 있습니다. 이미 추가된 규칙을 켜거나 끌 수 있습니다.
개요 페이지에서 품질 검사 실행을 선택하여 품질 검사를 실행 합니다.
검사가 실행되는 동안 거버넌스 도메인의 데이터 품질 모니터링 페이지에서 진행 상황을 추적할 수 있습니다.
데이터 품질 검사 예약
데이터 품질 검사는 품질 검사 실행 단추를 선택하여 임시로 실행할 수 있지만 프로덕션 시나리오에서는 원본 데이터가 지속적으로 업데이트될 가능성이 높습니다. 문제를 감지하기 위해 데이터 품질이 정기적으로 모니터링되도록 하는 것이 가장 좋습니다. 검사 프로세스를 자동화하면 품질 검사의 정기적인 업데이트를 관리하는 데 도움이 됩니다.
통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.
목록에서 거버넌스 도메인 을 선택합니다.
관리를 선택한 다음 예약된 검사를 선택합니다.
예약된 검사 만들기 페이지에서 양식을 작성합니다. 일정을 설정하는 원본의 이름과설명을 추가합니다.
계속을 선택합니다.
범위 탭에서 개별 데이터 제품 및 자산 또는 전체 거버넌스 도메인의 모든 데이터 제품 및 데이터 자산을 선택합니다.
계속을 선택합니다.
기본 설정에 따라 일정을 설정하고 계속을 선택합니다.
검토 탭에서 저장(또는 저장 후 실행하여 즉시 테스트)을 선택하여 데이터 품질 평가 검사 예약을 완료합니다.
검사 탭 아래의 데이터 품질 작업 모니터링 페이지에서 예약된 검사를 모니터링할 수 있습니다 .
참고
단일 일정으로 모든 데이터 제품에 30개 이상의 자산을 추가할 수 없습니다. 일괄 처리당 30개의 자산에 대해 여러 일정을 만드는 것이 좋습니다. 동일한 기간 동안 여러 일정을 실행하도록 구성할 수 있습니다.
이전 데이터 품질 검사 및 기록 삭제
데이터 제품에서 데이터 자산을 제거하는 경우 해당 데이터 자산에 데이터 품질 점수가 있는 경우 먼저 데이터 품질 점수를 삭제한 다음 데이터 제품에서 데이터 자산을 제거해야 합니다.
데이터 품질 기록 데이터를 삭제하면 프로필 기록, 데이터 품질 검사 기록 및 데이터 품질 규칙이 제거되지만 데이터 품질 작업은 삭제되지 않습니다.
아래 단계에 따라 데이터 자산의 이전 데이터 품질 검사를 삭제합니다.
- 통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.
- 목록에서 거버넌스 도메인 을 선택합니다.
- 목록에서 데이터 제품을 선택합니다.
- 목록에서 데이터 자산을 선택하여 데이터 품질 개요 페이지를 탐색합니다.
- 데이터 품질 개요 페이지의 오른쪽 위에 있는 줄임표(...)를 선택합니다.
- 데이터 품질 데이터 삭제를 선택하여 데이터 품질 실행 기록을 삭제합니다.
참고
- 테스트 실행, 오류 데이터 품질 실행 또는 데이터 제품에서 데이터 자산을 제거하는 경우에만 데이터 품질 데이터 삭제를 사용하는 것이 좋습니다.
- 데이터 품질 프로파일링 및 데이터 품질 평가 기록의 스냅샷을 최대 50개까지 저장합니다. 특정 스냅샷 삭제하려면 원하는 기록 실행을 선택하고 삭제 아이콘을 선택합니다.
스키마 가져오기
스키마의 데이터 형식이 정의되지 않거나 잘못 정의되었거나 원본에서 변경된 경우 데이터 품질 작업이 실패할 수 있습니다. 실패하면 스키마 가져오기 기능을 사용하여 스키마를 다시 가져옵니다. 스키마 가져오기는 공용 네트워크와 프라이빗 엔드포인트 뒤에 있는 데이터 원본에 대해 지원됩니다. 지원되는 데이터 원본은 데이터 품질에 대해 지원되는 데이터 원본 및 파일 형식에 나열됩니다. 데이터 원본에서 스키마를 가져오려면 다음 단계를 수행합니다.
- 상태 관리에서 데이터 품질을 선택합니다.
- 비즈니스 도메인을 선택한 다음, 데이터 제품을 선택한 다음, 해당 데이터 제품에서 데이터 자산을 선택합니다. 데이터 품질 개요 페이지에 도달합니다.
- 스키마를 선택한 다음 스키마 관리 토글을 선택합니다.
- 스키마 가져오기를 선택하여 스키마를 가져옵니다.
관련 콘텐츠
- 패브릭 데이터 자산의 데이터 품질
- 패브릭 미러된 데이터 원본에 대한 데이터 품질
- 패브릭 바로 가기 데이터 원본에 대한 데이터 품질
- Azure Synapse 서버리스 및 데이터 웨어하우스의 데이터 품질
- Azure Databricks Unity 카탈로그의 데이터 품질
- Snowflake 데이터 원본의 데이터 품질
- Google 빅 쿼리에 대한 데이터 품질
다음 단계
- 데이터 품질 검사 모니터링
- 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.
- 데이터 품질 검사 결과에 대한 경고 구성