다음을 통해 공유


스토리지 풀에서 CSV 데이터 가상화(빅 데이터 클러스터)

중요합니다

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

SQL Server 빅 데이터 클러스터는 HDFS의 CSV 파일에서 데이터를 가상화할 수 있습니다. 이 프로세스를 통해 데이터는 원래 위치에 유지되지만 다른 테이블과 마찬가지로 SQL Server 인스턴스에서 쿼리할 수 있습니다. 이 기능은 PolyBase 커넥터를 사용하고 ETL 프로세스의 필요성을 최소화합니다. 데이터 가상화에 대한 자세한 내용은 PolyBase를 사용한 데이터 가상화 소개를 참조하세요.

필수 조건

데이터 가상화를 위해 CSV 파일 선택 또는 업로드

ADS(Azure Data Studio)에서 빅 데이터 클러스터 의 SQL Server 마스터 인스턴스에 연결 합니다. 연결되면 개체 탐색기에서 HDFS 요소를 확장하여 데이터 가상화하려는 CSV 파일을 찾습니다.

이 자습서에서는 Data라는 새 디렉터리를 만듭니다.

  1. HDFS 루트 디렉터리 상황에 맞는 메뉴를 마우스 오른쪽 단추로 클릭합니다.
  2. 새 디렉터리를 선택합니다.
  3. 새 디렉터리 데이터 이름을 지정 합니다.

샘플 데이터를 업로드합니다. 간단한 연습을 위해 샘플 csv 데이터 파일을 사용할 수 있습니다. 이 문서에서는 미국 교통부의 항공사 지연 원인 데이터를 사용합니다. 원시 데이터를 다운로드하고 컴퓨터에 데이터를 추출합니다. 파일 이름을 airline_delay_causes.csv.

추출한 후 샘플 파일을 업로드하려면 다음을 수행합니다.

  1. Azure Data Studio에서 만든 새 디렉터리를 마우스 오른쪽 단추로 클릭합니다.
  2. 파일 업로드를 선택합니다.

HDFS의 csv 파일 예제

Azure Data Studio는 빅 데이터 클러스터의 HDFS에 파일을 업로드합니다.

대상 데이터베이스에 스토리지 풀 외부 데이터 원본 만들기

스토리지 풀 외부 데이터 원본은 기본적으로 빅 데이터 클러스터의 데이터베이스에 만들어지지 않습니다. 외부 테이블을 만들기 전에 다음 Transact-SQL 쿼리를 사용하여 대상 데이터베이스에 기본 SqlStoragePool 외부 데이터 원본을 만듭니다. 먼저 쿼리 컨텍스트를 대상 데이터베이스로 변경해야 합니다.

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

외부 테이블 만들기

ADS에서 CSV 파일을 마우스 오른쪽 단추로 클릭하고 상황에 맞는 메뉴에서 CSV 파일에서 외부 테이블 만들기 를 선택합니다. 디렉터리 아래의 파일이 동일한 스키마를 따르는 경우 HDFS의 디렉터리에서 CSV 파일에서 외부 테이블을 만들 수도 있습니다. 이렇게 하면 개별 파일을 처리하고 결합된 데이터에 대해 조인된 결과 집합을 가져올 필요 없이 디렉터리 수준에서 데이터를 가상화할 수 있습니다. Azure Data Studio는 외부 테이블을 만드는 단계를 안내합니다.

데이터베이스, 데이터 원본, 테이블 이름, 스키마 및 테이블의 외부 파일 형식에 대한 이름을 지정합니다.

다음을 선택합니다.

데이터 미리 보기

Azure Data Studio는 가져온 데이터의 미리 보기를 제공합니다.

가져온 데이터의 미리 보기가 있는 CSV에서 외부 테이블 만들기 창을 보여 주는 스크린샷

미리 보기 보기가 완료되면 다음 을 선택하여 계속합니다.

열 수정하기

다음 창에서 만들려는 외부 테이블의 열을 수정할 수 있습니다. 열 이름을 변경하고, 데이터 형식을 변경하고, null 허용 행을 허용할 수 있습니다.

3단계 열 수정을 보여 주는 CSV에서 외부 테이블 만들기 창의 스크린샷

대상 열을 확인한 후 다음을 선택합니다.

요약

이 단계에서는 선택한 항목에 대한 요약을 제공합니다. SQL Server 이름, 데이터베이스 이름, 테이블 이름, 테이블 스키마 및 외부 테이블 정보를 제공합니다. 이 단계에서는 스크립트를 생성하거나 테이블을 만드는 옵션이 있습니다. 스크립트 생성 은 T-SQL에서 외부 데이터 원본을 만드는 스크립트를 만듭니다. 테이블 만들기 는 외부 데이터 원본을 만듭니다.

요약 화면

테이블 만들기를 선택하면 SQL Server는 대상 데이터베이스에 외부 테이블을 만듭니다.

스크립트 생성을 선택하면 Azure Data Studio에서 외부 테이블을 만들기 위한 T-SQL 쿼리를 만듭니다.

만든 테이블은 이제 SQL Server 인스턴스에서 T-SQL을 사용하여 직접 쿼리할 수 있습니다.

다음 단계

SQL Server 빅 데이터 클러스터 및 관련 시나리오에 대한 자세한 내용은 SQL Server 빅 데이터 클러스터 소개를 참조하세요.