SQL Server 빅 데이터 클러스터의 스토리지 풀 소개

2020-10-01

적용 대상: SQL Server 2019(15.x)

이 문서에서는 SQL Server 빅 데이터 클러스터에서 SQL Server 스토리지 풀 의 역할을 설명합니다. 다음 섹션에서는 스토리지 풀의 아키텍처 및 기능에 대해 설명합니다.

Important

Microsoft SQL Server 2019 빅 데이터 클러스터는 사용 중지되었습니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일부터 종료되었습니다. 자세한 내용은 Microsoft SQL Server 플랫폼 의 공지 블로그 게시물 및 빅 데이터 옵션을 참조하세요.

스토리지 풀 아키텍처

스토리지 풀은 SQL Server 빅 데이터 클러스터의 로컬 HDFS(Hadoop) 클러스터입니다. 비정형 및 반구조적 데이터에 대한 영구 스토리지를 제공합니다. Parquet 또는 구분된 텍스트와 같은 데이터 파일은 스토리지 풀에 저장할 수 있습니다. 스토리지를 유지하기 위해 풀의 각 Pod에는 영구 볼륨이 연결되어 있습니다. 스토리지 풀 파일은 SQL Server를 통해 PolyBase 를 통해 또는 Apache Knox 게이트웨이를 사용하여 직접 액세스할 수 있습니다.

클래식 HDFS 설정은 스토리지가 연결된 상용 하드웨어 컴퓨터 집합으로 구성됩니다. 데이터는 내결함성 및 병렬 처리 활용을 위해 노드 전체에 블록으로 분산됩니다. 클러스터의 노드 중 하나는 이름 노드로 작동하며 데이터 노드에 있는 파일에 대한 메타데이터 정보를 포함합니다.

클래식 HDFS 설정

스토리지 풀은 HDFS 클러스터의 멤버인 스토리지 노드로 구성됩니다. 하나 이상의 쿠버네티스 포드(Pod)를 실행하며, 각 포드는 다음 컨테이너를 호스팅합니다.

영구 볼륨(스토리지)에 연결된 Hadoop 컨테이너입니다. 이 유형의 모든 컨테이너는 Hadoop 클러스터를 형성합니다. Hadoop 컨테이너 내에는 주문형 Apache Spark 작업자 프로세스를 만들 수 있는 YARN 노드 관리자 프로세스가 있습니다. Spark 헤드 노드는 hive 메타스토어, Spark 기록 및 YARN 작업 기록 컨테이너를 호스트합니다.
OpenRowSet 기술을 사용하여 HDFS에서 데이터를 읽는 SQL Server 인스턴스입니다.
collectd 메트릭 데이터 수집을 위한 입니다.
fluentbit 로그 데이터 수집을 위한 입니다.

스토리지 풀 아키텍처

Responsibilities

스토리지 노드는 다음을 담당합니다.

Apache Spark를 통한 데이터 수집
HDFS의 데이터 스토리지(Parquet 및 구분된 텍스트 형식). HDFS 데이터는 SQL BDC의 모든 스토리지 노드에 분산되므로 HDFS는 데이터 지속성을 제공합니다.
HDFS 및 SQL Server 엔드포인트를 통한 데이터 액세스

Accessing data

스토리지 풀의 데이터에 액세스하는 주요 방법은 다음과 같습니다.

Spark jobs.
SQL Server 외부 테이블을 활용하여 PolyBase 컴퓨팅 노드 및 HDFS 노드에서 실행되는 SQL Server 인스턴스를 사용하여 데이터를 쿼리할 수 있습니다.

다음을 사용하여 HDFS와 상호 작용할 수도 있습니다.

Azure 데이터 스튜디오.
Azure Data CLI(azdata).
kubectl을 사용하여 Hadoop 컨테이너에 명령을 실행합니다.
HDFS http 게이트웨이.

Next steps

SQL Server 빅 데이터 클러스터에 대한 자세한 내용은 다음 리소스를 참조하세요.

다음을 통해 공유

SQL Server 빅 데이터 클러스터의 스토리지 풀 소개

스토리지 풀 아키텍처

Responsibilities

Accessing data

Next steps

추가 리소스