Microsoft Azure Synapse Analytics는 데이터 웨어하우스 및 빅 데이터 시스템 전반에서 인사이트 시간을 가속화하는 엔터프라이즈 분석 서비스입니다. 엔터프라이즈 데이터 웨어하우징, 빅 데이터를 위한 Apache Spark 기술 및 로그 및 시계열 분석을 위한 Azure Data Explorer 사용하는 최고의 SQL 기술을 결합합니다. 자세한 내용은 Azure Synapse Analytics 설명서를 참조하세요.
다음 예제에서는 전용 Synapse Data Warehouse(DWH) 테이블 EMPLOYEE의 instance Synapse 작업 영역과 SynapseSalesDelta 테이블이 있는 서버리스 데이터베이스(SQL_ON_DEMAND)를 보여 줍니다.
자산을 스캔하면 Microsoft Purview에서 사용할 수 있습니다. 다음 예제에서는 Synapse Analytics Dedicated instance 대한 직원 테이블을 보여 줍니다.
Azure Synapse 분석 전용(Data Warehouse)
데이터 맵 검사 설정
Azure Synapse 분석 전용(Data Warehouse)을 검사하려면 다음 지침을 따릅니다. 전용 DWH instance 필요한 관리 ID 권한을 부여하려면 다음 단계를 수행합니다.
자산을 스캔한 후에는 Microsoft Purview 통합 카탈로그 사용할 수 있습니다. 다음 예제에서는 Synapse Analytics Dedicated instance 대한 직원 테이블을 보여 줍니다.
Synapse 전용 데이터 웨어하우스에 대한 연결 설정
이 시점에서 스캔한 자산이 카탈로그화 및 거버넌스에 사용할 준비가 된 것입니다. 검사된 자산을 거버넌스 도메인의 데이터 제품에 연결합니다. 데이터 품질 탭에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.
통합 카탈로그 상태 관리>데이터 품질로 이동하여 거버넌스 도메인을 선택합니다.
거버넌스 도메인의 세부 정보 페이지에서 관리를 선택한 다음, Connections 선택합니다.
Connections 페이지에서 새로 만들기를 선택하고 아래 예제와 같이 다음 정보를 사용하여 연결을 구성합니다.
- 연결 이름 및 설명을 추가합니다.
- 원본 유형 Azure Synapse Analytics를 선택합니다.
- Azure 구독을 선택합니다.
- 작업 영역 이름을 선택합니다.
- 전용 SQL 엔드포인트를 선택합니다.
- 서버리스 SQL 엔드포인트를 선택합니다.
- 엔드포인트 유형을 선택합니다.
- 데이터베이스를 선택합니다.
- MSI를 자격 증명으로 추가합니다.
연결을 테스트합니다. 데이터 원본 연결을 구성하고 성공적으로 테스트한 후에는 데이터 프로파일링 및 데이터 품질 검사를 구성하고 실행할 수 있습니다.
Synapse 데이터 원본이 프라이빗 엔드포인트 뒤에 있는 경우 관리형 가상 네트워크를 사용하도록 설정해야 합니다. 관리형 가상 네트워크 설정의 단계를 따릅니다.
중요
데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 synapse 전용 데이터 웨어하우스에 대한 읽기 전용 액세스 권한이 필요합니다. 관리형 가상 네트워크 설정의 경우 연결을 테스트할 수 없습니다.
Synapse 전용 데이터 웨어하우스의 데이터에 대한 프로파일링 및 데이터 품질 검사
연결을 설정한 후에는 데이터를 프로파일하고, 규칙을 만들고 적용하고, Synapse 웨어하우스에서 데이터에 대한 데이터 품질 검사를 실행할 수 있습니다. 다음 문서에 설명된 단계별 지침을 따릅니다.
중요
- 쿼리의 성능과 성공적인 실행은 전용 데이터베이스 인스턴스에 대한 DW 구성에 따라 달라집니다.
- 각 데이터 품질 평가 작업 또는 기타 데이터 품질 작업은 전용 DW에 대한 연결을 유도하며, instance 프로비전되거나 동시성 제한에 실패하는 경우 실패할 수 있습니다. DW 구성을 알고 있어야 합니다. 동시성은 instance 제한됩니다.
- 동시성 제한으로 인해 작업이 종료될 수 있습니다. DW 제한(예: 1,000DW)은 쿼리를 실행할 수 있는 권한을 제공합니다.
Azure Synapse Analytics 서버리스
데이터 맵 검사 설정
Azure Synapse Analytics 서버리스를 검사하려면 다음 지침을 따릅니다. 전용 DWH instance 필요한 관리 ID 권한을 부여하려면 다음 단계를 수행합니다. 검사한 후에는 서버리스 자산을 통합 카탈로그 사용할 수 있습니다.
synapse 서버리스에 대한 연결 설정
이 시점에서 스캔한 자산이 카탈로그화 및 거버넌스에 사용할 준비가 된 것입니다. 검사된 자산을 거버넌스 도메인의 데이터 제품에 연결합니다. 데이터 품질에서 새 SQL Database 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.
통합 카탈로그 상태 관리>데이터 품질로 이동하여 거버넌스 도메인을 선택합니다.
거버넌스 도메인의 세부 정보 페이지에서 관리를 선택한 다음, Connections 선택합니다.
Connections 페이지에서 새로 만들기를 선택하고 아래 예제와 같이 다음 정보를 사용하여 연결을 구성합니다.
- 연결 이름 및 설명을 추가합니다.
- 원본 유형 Azure Synapse Analytics를 선택합니다.
- Azure 구독을 선택합니다.
- 작업 영역 이름을 선택합니다.
- 전용 SQL 엔드포인트를 선택합니다.
- 서버리스 SQL 엔드포인트를 선택합니다.
- 엔드포인트 유형을 선택합니다.
- 데이터베이스를 선택합니다.
- MSI를 자격 증명으로 추가합니다.
연결을 테스트합니다. 데이터 원본 연결을 구성하고 성공적으로 테스트한 후에는 데이터 프로파일링 및 데이터 품질 검사를 구성하고 실행할 수 있습니다.
Synapse 데이터 원본이 프라이빗 엔드포인트 뒤에 있는 경우 관리형 가상 네트워크를 사용하도록 설정해야 합니다. 관리형 가상 네트워크 설정의 단계를 따릅니다.
중요
- 데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 synapse 전용 데이터 웨어하우스에 대한 읽기 전용 액세스 권한이 필요합니다.
- Synapse 서버리스 설정에서 외부 테이블은 ADLS Gen2에 저장된 델타 형식의 데이터를 가리킵니다.
- Synapse Connector는 sql.azuresynapse.net 검색하고 지원합니다. 데이터 맵 검사에서 생성된 FQN(정규화된 이름)에 database.windows.net 포함된 경우 데이터 품질 검사에 대한 Synapse 연결이 실패합니다.
Synapse 서버리스의 데이터에 대한 프로파일링 및 데이터 품질 검사
연결을 설정한 후에는 데이터를 프로파일하고, 규칙을 만들고 적용하고, Synapse 웨어하우스에서 데이터에 대한 데이터 품질 검사를 실행할 수 있습니다. 다음 문서에 설명된 단계별 지침을 따릅니다.
중요
- 데이터 품질 평가 및 프로파일링은 백그라운드에서 Spark에서 실행됩니다. 각 Spark 노드에 연결 SPID가 있는 여러 연결이 있습니다. 따라서 Data Warehouse 제한을 초과하여 사용하거나 예약하는 경우 Data Warehouse 현재 쿼리 제한으로 실행되어 오류가 발생할 수 있습니다. 그러나 Azure Synapse 서버리스 SQL 테이블의 경우 이러한 동시성 제한이 적용되지 않습니다. ADLS Gen2 instance 서버리스 Delta Parquet 최적화에 따라 달라집니다. 엔진은 Databricks 서버리스 Data Warehouse 밀접하게 공명합니다. 둘 다 DELTA 형식 테이블과 같은 외부 Lakehouse 원본에서 작동합니다.