이 문서에서는 SQL Server 빅 데이터 클러스터 개념, 기능, 배포, 지원 가능성 및 도구에 대한 질문과 대답을 제공합니다.
모범 사례
파일 위치에 대한 권장 모범 사례는 무엇인가요?
Windows 또는 Linux의 운영 체제 미설치 컴퓨터에서 SQL Server를 구성하는 것과 비교하면 유연성이 떨어집니다. Kubernetes 환경에서 이러한 아티팩트가 추상화되고 이식 가능해야 합니다. 현재 구성할 수 있는 Pod당 제공된 데이터 및 로그에 대한 2개의 PV(영구 볼륨)가 있습니다. 자세한 내용은 Kubernetes의 SQL Server 빅 데이터 클러스터를 사용한 데이터 지속성을 참조하세요.
SQL Server 빅 데이터 클러스터에서 트랜잭션 로그 백업을 수행해야 하나요?
SQL Server 마스터 인스턴스의 사용자 데이터베이스에 대해서만 로그 백업을 수행해야 합니다(복구 모델 또는 HA 구성에 따라 다름). 데이터 풀 데이터베이스는 SIMPLE 복구 모델만 사용합니다. PolyBase용으로 만든 DW* 데이터베이스도 마찬가지입니다.
분산 쿼리가 실제로 컴퓨팅 풀을 사용하는지 어떻게 모니터링할 수 있나요?
빅 데이터 클러스터 시나리오에 대해 향상된 기존 PolyBase DMV를 사용할 수 있습니다. 자세한 내용은 PolyBase 모니터링 및 문제 해결을 참조하세요.
Kubectl을 통해 Kubernetes API 서버로 직접 빅 데이터 클러스터 리소스를 구성하고 관리할 수 있나요?
Kubernetes API 또는 kubectl을 사용하여 일부 설정을 수정할 수 있지만 지원되거나 권장되지 않습니다. azdata를 통해 모든 빅 데이터 클러스터 관리 작업을 실행해야 합니다.
HDFS에 저장된 데이터를 백업하는 방법
하드웨어 수준 스토리지 스냅샷을 사용하거나 webHDFS를 통해 복사/동기화를 사용하도록 설정하는 솔루션을 사용할 수 있습니다. 사용할 수도 azdata bdc hdfs cp
있습니다. 자세한 내용은 azdata bdc hdfs를 참조하세요.
개념 및 기능
저장된 프록시를 '스케일 아웃'하는 방법이 있나요? 예를 들어 컴퓨팅 풀에서 실행하는 경우를 예로 들어 하시겠습니까?
이때는 그렇지 않습니다. 한 가지 옵션은 Always On 가용성 그룹에 SQL Server를 배포하는 것입니다. 그런 다음 읽기 가능한 보조 복제본 을 사용하여 일부 프로세스(예: ml 학습/점수 매기기, 유지 관리 활동 등)를 실행할 수 있습니다.
풀의 Pod 크기를 동적으로 조정하는 방법
현재 지원되는 시나리오는 아닙니다.
데이터 풀에 저장된 외부 테이블을 백업할 수 있나요?
데이터 풀 인스턴스의 데이터베이스에는 외부 테이블에 대한 메타데이터가 없습니다. 이는 사용자 데이터베이스와 같습니다. 백업/복원을 수행할 수 있지만 일관성 없는 결과를 방지하려면 SQL 마스터 인스턴스 의 메타데이터 데이터베이스에 있는 외부 테이블 메타데이터가 동기화되어 있는지 확인해야 합니다.
데이터 풀이 분할을 제공하나요?
데이터 풀은 분산 테이블 개념입니다. 분할은 일반적으로 OLTP 개념으로 참조되며 현재 지원되지 않습니다.
원시 데이터 스토리지에 데이터 풀 또는 스토리지 풀을 사용해야 하는 경우는 언제인가요?
용어 풀은 동종 서비스 또는 애플리케이션의 컬렉션을 설명하기 위해 예약되어 있습니다. 예를 들어 데이터 풀은 상태 저장 SQL Server 컴퓨팅 집합이며 스토리지 및 스토리지 풀은 HDFS 및 Spark 서비스 집합입니다. SQL Server 마스터는 가용성 그룹에서 구성할 수 있는 단일 인스턴스 또는 여러 인스턴스입니다. SQL Server 마스터 인스턴스는 Linux의 일반 SQL Server 인스턴스이며 Linux에서 사용할 수 있는 모든 기능을 사용할 수 있습니다. 먼저 주로 엔터티에서 작동하는 데이터 모델, 엔터티 및 서비스/애플리케이션으로 시작해야 합니다. 모든 데이터를 SQL Server, HDFS 또는 데이터 풀과 같은 한 곳에 저장할 필요는 없습니다. 데이터 분석에 따라 대부분의 데이터를 HDFS에 저장하고, 데이터를 보다 효율적인 형식으로 처리하고, 다른 서비스에 노출할 수 있습니다. 나머지 데이터는 SQL Master 인스턴스에 저장됩니다.
SQL Server 빅 데이터 클러스터는 GPU 기반 딥 러닝 라이브러리 및 계산(PyTorch, Keras, 특정 이미지 라이브러리 등)을 지원하나요?
현재 지원되는 시나리오는 아닙니다.
풀에 대해 여러 볼륨 클레임을 구성하는 방법이 있나요?
각 Pod에는 두 개의 PV(지속형 볼륨)만 있을 수 있습니다. OS 수준에서 볼륨을 추상화하고 영구 스토리지에 사용할 수 있습니다. 예를 들어 여러 디스크를 사용하여 RAID 0 OS 파티션을 만들고 로컬 스토리지 프로비저닝기를 사용하여 영구 볼륨에 사용할 수 있습니다. 현재 Pod당 더 많은 PV를 사용할 수 있는 방법은 없습니다. PV는 컨테이너 내의 디렉터리에 매핑되며 이 문제는 해결됩니다. 지속형 볼륨에 대한 자세한 내용은 Kubernetes 설명서의 영구 볼륨을 참조하세요.
여러 공급자와 여러 디스크를 구성하는 경우 HDFS 구성이 모든 데이터 볼륨 클레임으로 업데이트되나요?
배포 시 특정 스토리지 클래스를 사용하도록 스토리지 풀을 구성할 수 있습니다. Kubernetes에서 SQL Server 빅 데이터 클러스터를 사용한 데이터 지속성을 참조하세요.
Ceph 기반 스토리지에 액세스하는 옵션은 무엇인가요?
HDFS 계층을 사용하면 S3 기반 프로토콜과 투명하게 통합할 수 있습니다. 자세한 내용은 빅 데이터 클러스터에서 HDFS 계층화용 S3을 탑재하는 방법입니다.
업그레이드 후 HDFS의 데이터가 유지되었나요?
예, 데이터는 영구 볼륨에 의해 지원되고 업그레이드는 새 이미지로 기존 Pod를 배포하기 때문에 유지됩니다.
HDFS 계층화는 캐시를 어떻게 제어하나요?
HDFS 계층을 사용하면 빅 데이터 클러스터에서 실행되는 로컬 HDFS와 함께 데이터가 캐시되어 사용자가 모든 데이터를 가져오지 않고도 큰 데이터 레이크에 연결할 수 있습니다. 현재 2% 기본값으로 지정된 캐시에 할당된 구성 가능한 공간이 있습니다. 데이터는 캐시에 유지되지만 해당 임계값을 초과하면 제거됩니다. 또한 레이크에서 보안이 유지되고 모든 ACL이 적용됩니다. 자세한 내용은 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요.
SQL Server 2019를 사용하여 Azure Data Lake Store Gen2를 시각화할 수 있나요? 이 통합은 폴더 수준 권한을 처리합니까?
예, HDFS 계층화를 사용하여 ADLS Gen2에 저장된 데이터를 가상화할 수 있습니다. HDFS 계층화가 ADLS Gen2에 탑재되면 사용자는 HDFS 데이터를 쿼리하고 이에 대해 Spark 작업을 실행할 수 있습니다. 탑재된 스토리지는 --mount-path로 지정된 위치에 있는 빅 데이터 클러스터용 HDFS에 표시되며 사용자는 로컬 스토리지로 작업하는 것처럼 해당 탑재 경로를 사용할 수 있습니다. 자세한 내용은 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요. HDFS 계층 권한에 대한 자세한 내용은 SQL Server 빅 데이터 클러스터에 대한 HDFS 권한 관리를 참조하세요.
AKS(Azure Kubernetes Service)의 마스터 노드에 대한 기본 고가용성 및/또는 중복성 설정은 무엇인가요?
AKS 컨트롤 플레인은 작동 시간 SLA를 지원하여 99.95% 가용성을 보장합니다. AKS 클러스터 노드(작업자 노드)는 가용성 영역을 사용합니다. 자세한 내용은 AKS 가용성 영역을 참조하세요. AZ(가용성 영역)는 데이터 센터 오류로부터 애플리케이션 및 데이터를 보호하는 Azure의 고가용성 제품입니다. AKS는 가용성 영역을 사용하지 않는 클러스터에 대해 99.9% 가용성을 지원합니다. 자세한 내용은 AKS(Azure Kubernetes Service)용 SLA를 참조하세요.
YARN 및 Spark 작업 기록 로그를 유지하는 방법이 있나요?
Sparkhead를 다시 시작하면 로그가 손실되지 않으며 이러한 로그는 HDFS에 있습니다. /gateway/default/sparkhistory UI에서 Spark 기록 로그가 계속 표시됩니다. Yarn 컨테이너 로그의 경우 Yarn RM이 다시 시작되므로 Yarn UI에 해당 앱이 표시되지 않지만 해당 원사 로그는 여전히 HDFS에 있으며 Spark 기록 서버에서 연결할 수 있습니다. 항상 Spark 기록 서버를 진입점으로 사용하여 Spark 앱을 진단해야 합니다.
풀에 대한 캐싱 기능을 해제하는 방법이 있나요?
기본적으로 총 HDFS 스토리지의% 1개는 탑재된 데이터의 캐싱을 위해 예약됩니다. 캐싱은 탑재에서 전역 설정입니다. 현재는 해제하는 노출 방법이 없지만 hdfs-site.dfs.provided.cache.capacity.fraction 설정을 통해 백분율을 구성할 수 있습니다. 이 설정은 제공된 저장소에서 데이터를 캐시하는 데 사용할 수 있는 클러스터의 총 용량 비율을 제어합니다. 수정하려면 배포 후 빅 데이터 클러스터 설정을 구성하는 방법을 참조하세요. 자세한 내용은 SQL Server 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요.
SQL Server 2019 빅 데이터 클러스터에서 SQL 저장 프로시저를 예약하는 방법
빅 데이터 클러스터의 SQL Server 마스터 인스턴스에서 SQL Server 에이전트 서비스를 사용할 수 있습니다.
빅 데이터 클러스터는 IoT 사용 사례에서 생성된 것과 같은 네이티브 시계열 데이터 시나리오를 지원하나요?
현재 빅 데이터 클러스터의 InfluxDB는 빅 데이터 클러스터 내에서 수집된 모니터링 데이터를 저장하는 데만 사용되며 외부 엔드포인트로 노출되지 않습니다.
제공된 InfluxDB를 고객 데이터의 시계열 데이터베이스로 사용할 수 있나요?
현재 빅 데이터 클러스터의 InfluxDB는 빅 데이터 클러스터 내에서 수집된 모니터링 데이터를 저장하는 데만 사용되며 외부 엔드포인트로 노출되지 않습니다.
가용성 그룹에 데이터베이스를 추가하려면 어떻게 해야 하나요?
빅 데이터 클러스터에서 HA 구성은 복제본 간에 복제되는 시스템 데이터베이스도 포함하는 containedag라는 가용성 그룹을 만듭니다. CREATE DATABASE 또는 RESTORE 워크플로의 결과로 생성된 데이터베이스는 포함된 AG에 자동으로 추가되고 시드됩니다. SQL Server 2019(15.0) CU2 이전에는 빅 데이터 클러스터의 실제 인스턴스에 연결하고, 데이터베이스를 복원하고, containedag에 추가해야 합니다. 자세한 내용은 고가용성을 사용하여 SQL Server 빅 데이터 클러스터 배포를 참조하세요.
빅 데이터 클러스터 내에서 실행되는 구성 요소에 대한 코어/메모리 리소스를 구성할 수 있나요?
이때 SQL Server와 마찬가지로 sp_configure 사용하여 SQL 인스턴스에 대한 메모리를 설정할 수 있습니다. 코어의 ALTER SERVER CONFIGURATION SET PROCESS AFFINITY
경우 . 기본적으로 컨테이너는 호스트의 모든 CPU를 볼 수 있으며 현재 Kubernetes를 사용하여 리소스 제한을 지정할 방법이 없습니다. 컴퓨팅 풀/데이터 풀/스토리지 풀의 경우 SQL Server 마스터 인스턴스의 EXECUTE AT DATA_SOURCE 문을 사용하여 구성을 수행할 수 있습니다.
Kubernetes 작업자 노드 중 하나가 종료되거나 중단되면 어떻게 되나요?
리소스가 충분한 경우 해당 작업자 노드에 선호되지 않는 Pod는 Kubernetes 클러스터의 다른 노드로 이동됩니다. 그렇지 않으면 Pod를 사용할 수 없으므로 중단이 발생합니다.
Kubernetes 클러스터에 노드를 추가하면 빅 데이터 클러스터가 자동으로 다시 균형을 조정하나요?
이 작업은 Kubernetes에만 따라 달라집니다. 노드 레이블을 사용하는 Pod 배치 외에도 빅 데이터 클러스터 내에서 Kubernetes 리소스의 다시 분산을 제어하는 다른 메커니즘은 없습니다.
Kubernetes 클러스터에서 노드를 제거할 때 빅 데이터 클러스터 리소스의 결과는 어떻게 됩니까?
이 작업은 종료 중인 호스트 노드와 동일합니다. 테인팅 프로세스를 사용하여 Kubernetes에서 이를 오케스트레이션하는 메커니즘이 있으며 이는 일반적으로 업그레이드 또는 노드 유지 관리를 위해 수행됩니다. 자세한 내용은 Taints 및 Tolerations에 대한 Kubernetes 설명서를 참조하세요.
빅 데이터 클러스터와 함께 번들로 제공되는 Hadoop이 데이터 복제를 처리하나요?
예, 복제 요소는 HDFS에 사용할 수 있는 구성 중 하나입니다. 자세한 내용은 영구 볼륨 구성을 참조하세요.
빅 데이터 클러스터는 기능 및 통합 측면에서 Synapse와 겹치나요?
사용 사례 및 요구 사항에 따라 달라집니다. 빅 데이터 클러스터는 온-프레미스에서 Microsoft에서 지원하는 Spark 및 HDFS 외에도 전체 SQL Server 노출 영역을 제공합니다. 빅 데이터 클러스터를 사용하면 SQL Server 고객이 분석/빅 데이터에 통합할 수 있습니다. Azure Synapse는 규모 확장 분석에 중점을 두고 클라우드에서 관리되는 서비스로 고객에게 일류 환경을 제공하는 분석 플랫폼입니다. Azure Synapse는 운영 워크로드를 대상으로 하지 않습니다. 빅 데이터 클러스터는 운영 저장소에 훨씬 더 가까운 데이터베이스 분석 시나리오를 제공하는 것을 목표로 합니다.
SQL Server가 SQL Server 빅 데이터 클러스터의 스토리지로 HDFS를 사용하고 있나요?
SQL Server 인스턴스의 데이터베이스 파일은 HDFS에 저장되지 않습니다. 그러나 SQL Server는 외부 테이블 인터페이스를 사용하여 HDFS를 쿼리할 수 있습니다.
각 데이터 풀의 분산 테이블에 데이터를 저장하는 데 사용할 수 있는 배포 옵션은 무엇인가요?
ROUND_ROBIN 복제합니다. ROUND_ROBIN 기본값입니다. HASH를 사용할 수 없습니다.
빅 데이터 클러스터에 Spark Thrift 서버가 포함되어 있나요? 그렇다면 Hive Metastore 테이블에 연결하기 위해 ODBC 엔드포인트가 노출되었나요?
현재 Thrift 프로토콜을 통해 HMS(Hive Metastore)를 노출합니다. 프로토콜을 문서화하지만 현재 ODBC 엔드포인트를 열지 않았습니다. Hive Metastore HTTP 프로토콜을 통해 액세스할 수 있습니다. 자세한 내용은 Hive Metastore HTTP 프로토콜을 참조하세요.
데이터 로드
SnowFlake에서 빅 데이터 클러스터로 데이터를 수집할 수 있나요?
SQL Server on Linux(빅 데이터 클러스터의 SQL Server 마스터 인스턴스에도 적용됨)는 타사 ODBC 드라이버(SnowFlake, DB2, PostgreSQL 등)를 설치하고 쿼리할 수 있는 일반 ODBC 데이터 원본을 지원하지 않습니다. 이 기능은 현재 Windows의 SQL Server 2019(15.0)에서만 사용할 수 있습니다. 빅 데이터 클러스터에서 JDBC를 사용하여 Spark를 통해 데이터를 읽고 MSSQL Spark 커넥터를 사용하여 SQL Server에 수집할 수 있습니다.
사용자 지정 ODBC 데이터 원본을 사용하여 빅 데이터 클러스터에 데이터를 수집할 수 있나요?
SQL Server on Linux(빅 데이터 클러스터의 SQL Server 마스터 인스턴스에도 적용됨)는 타사 ODBC 드라이버(SnowFlake, DB2, PostgreSQL 등)를 설치하고 쿼리할 수 있는 일반 ODBC 데이터 원본을 지원하지 않습니다.
CTAS를 실행할 때마다 NEW 테이블을 만드는 대신 PolyBase CTAS를 사용하여 동일한 테이블로 데이터를 가져오려면 어떻게 해야 할까요?
매번 새 테이블이 필요하지 않도록 접근 방식을 사용할 INSERT..SELECT
수 있습니다.
마스터 인스턴스를 로컬 테이블로 직접 로드하는 대신 데이터 풀에 데이터를 로드하는 이점/고려 사항은 무엇인가요?
SQL Server 마스터 인스턴스에 분석 워크로드를 충족하기에 충분한 리소스가 있는 경우 항상 가장 빠른 옵션입니다. 데이터 풀은 분산 쿼리에 대한 다른 SQL 인스턴스로 실행을 오프로드하려는 경우에 도움이 됩니다. 데이터 풀을 사용하여 다른 SQL 인스턴스와 병렬로 Spark 실행기에서 데이터를 수집할 수도 있습니다. 따라서 HDFS(Hadoop 분산 파일 시스템)에서 생성되는 큰 데이터 세트의 로드 성능은 일반적으로 단일 SQL Server 인스턴스로 가는 것보다 더 좋습니다. 그러나 SQL Server에 여러 테이블이 있고 원하는 경우 병렬로 삽입할 수 있기 때문에 말하기도 어렵습니다. 성능은 여러 요인에 따라 달라지며 이러한 측면에서 단일 지침이나 권장 사항은 없습니다.
데이터 풀 테이블 내에서 데이터 배포를 모니터링하는 방법은 무엇입니까?
EXECUTE AT를 사용하여 sys.dm_db_partition_stats 같은 DMV를 쿼리하여 각 로컬 테이블에서 데이터를 가져올 수 있습니다.
HDFS에 파일을 업로드하는 유일한 옵션은 curl인가요?
아니요, azdata bdc hdfs cp를 사용할 수 있습니다. 루트 디렉터리를 제공하는 경우 명령은 전체 트리를 재귀적으로 복사합니다. 원본/대상 경로를 변경하기만 하면 이 명령을 사용하여 인/아웃할 수 있습니다.
데이터 풀에 데이터를 로드하는 방법
MSSQL Spark 커넥터 라이브러리를 사용하여 SQL 및 데이터 풀 수집을 도울 수 있습니다. 안내된 연습은 자습서: Spark 작업을 사용하여 SQL Server 데이터 풀로 데이터 수집을 참조하세요.
폴더/하위 폴더 및 텍스트 파일을 많이 포함하는 (Windows) 네트워크 경로에 많은 데이터가 있는 경우 빅 데이터 클러스터의 HDFS에 업로드하려면 어떻게 해야 하나요?
azdata bdc hdfs cp에 사용해 보세요. 루트 디렉터리를 제공하는 경우 명령은 전체 트리를 재귀적으로 복사합니다. 원본/대상 경로를 변경하기만 하면 이 명령을 사용하여 인/아웃할 수 있습니다.
배포된 클러스터에서 스토리지 풀의 크기를 늘릴 수 있나요?
현재 이 작업을 수행할 인터페이스가 없습니다 azdata
. 원하는 PVC의 크기를 수동으로 조정할 수 있습니다. 크기 조정은 복잡한 작업입니다. Kubernetes 설명서의 영구 볼륨을 참조하세요.
데이터 가상화
연결된 서버와 PolyBase는 언제 사용해야 하나요?
주요 차이점 및 사용 사례는 PolyBase FAQ를 참조하세요.
지원되는 데이터 가상화 원본은 무엇인가요?
빅 데이터 클러스터는 SQL Server, Oracle, MongoDB, Teradata 등 ODBC 원본의 데이터 가상화를 지원합니다. 또한 Azure Data Lake Store Gen2 및 S3 호환 스토리지와 같은 원격 저장소의 계층화뿐만 아니라 AWS S3A 및 ABFS(Azure Blob File System)도 지원합니다.
PolyBase를 사용하여 Azure SQL 데이터베이스에 저장된 데이터를 가상화할 수 있나요?
예, 빅 데이터 클러스터의 PolyBase를 사용하여 Azure SQL Database의 데이터에 액세스할 수 있습니다.
CREATE TABLE 문에 EXTERNAL 키워드가 포함된 이유는 무엇인가요? EXTERNAL이 표준 CREATE TABLE과 다른 점은 무엇인가요?
일반적으로 외부 키워드는 데이터가 SQL Server 인스턴스에 없음을 의미합니다. 예를 들어 HDFS 디렉터리 위에 스토리지 풀 테이블을 정의할 수 있습니다. 데이터는 데이터베이스 파일이 아니라 HDFS 파일에 저장되지만 외부 테이블은 HDFS 파일을 데이터베이스에 있는 것처럼 관계형 테이블로 쿼리할 수 있는 인터페이스를 제공합니다.
외부 데이터에 액세스하는 이 개념을 데이터 가상화라고 합니다. 자세한 내용은 PolyBase를 사용한 데이터 가상화 소개를 참조하세요. HDFS의 CSV 파일에서 데이터를 가상화하는 방법에 대한 자습서는 [스토리지 풀 빅 데이터 클러스터에서 CSV 데이터 가상화]를 참조하세요.
SQL Server 빅 데이터 클러스터와 SQL Server 내에서 실행되는 SQL Server를 사용하는 데이터 가상화의 차이점은 무엇인가요?
외부 테이블이 데이터 풀과 스토리지 풀을 가리키고 있음을 쉽게 알 수 있나요?
데이터 원본 위치 접두사(예: sqlserver://, oracle://, sqlhdfs://, sqldatapool://)를 확인하여 외부 테이블의 형식을 확인할 수 있습니다.
배치
빅 데이터 클러스터 배포에 실패했습니다. 무엇이 잘못되었는지 확인하려면 어떻게 해야 하나요?
빅 데이터 클러스터 구성에서 설정할 수 있는 모든 항목의 최종 목록이 있나요?
배포 시 수행할 수 있는 모든 사용자 지정은 클러스터 리소스 및 서비스에 대한 배포 설정 구성에 설명되어 있습니다. Spark의 경우 빅 데이터 클러스터에서 Apache Spark 및 Apache Hadoop 구성을 참조하세요.
SQL Server 빅 데이터 클러스터와 함께 SQL Server Analysis Services를 배포할 수 있나요?
아니요. 특히 SSAS(SQL Server Analysis Services)는 Linux의 SQL Server에서 지원되지 않으므로 SSAS를 실행하려면 Windows Server에 SQL Server 인스턴스를 설치해야 합니다.
빅 데이터 클러스터는 EKS 또는 GKS에서 배포할 수 있나요?
빅 데이터 클러스터는 버전 1.13 이상을 기반으로 모든 Kubernetes 스택에서 실행할 수 있습니다. 그러나 EKS 또는 GKS에서 빅 데이터 클러스터의 특정 유효성 검사를 수행하지 않았습니다.
빅 데이터 클러스터 내에서 실행되는 HDFS 및 Spark 버전은 무엇인가요?
Spark는 2.4이고 HDFS는 3.2.1입니다. 빅 데이터 클러스터에 포함된 오픈 소스 소프트웨어에 대한 자세한 내용은 오픈 소스 소프트웨어 참조를 참조하세요.
Spark에서 라이브러리 및 패키지를 설치하려면 어떻게 해야 하나요?
Spark에서 패키지를 설치하기 위한 샘플 Notebook의 단계를 사용하여 작업 제출 시 패키지를 추가할 수 있습니다.
SQL Server 빅 데이터 클러스터에 R 및 Python을 사용하려면 SQL Server 2019를 사용해야 하나요?
ML(Machine Learning) 서비스(R 및 Python)는 SQL Server 2017부터 사용할 수 있습니다. ML 서비스는 SQL Server 빅 데이터 클러스터에서도 사용할 수 있습니다. 자세한 내용은 Python 및 R을 사용하는 SQL Server Machine Learning Services란?을 참조하세요.
라이센스
SQL Server 빅 데이터 클러스터에서 SQL Server 라이선스는 어떻게 작동합니까?
훨씬 더 자세히 설명하는 라이선스 가이드를 참조하고 PDF를 다운로드하세요.
요약을 보려면 비디오 SQL Server 라이선스: 빅 데이터 클러스터 | 노출된 데이터입니다.
안전
빅 데이터 클러스터는 Microsoft Entra ID([이전의 Azure Active Directory](/entra/fundamentals/new-name))를 지원하나요?
이때는 그렇지 않습니다.
통합 인증을 사용하여 빅 데이터 클러스터 마스터에 연결할 수 있나요?
예, 통합 인증(Active Directory 사용)을 사용하여 다양한 빅 데이터 클러스터 서비스에 연결할 수 있습니다. 자세한 내용은 Active Directory 모드에서 SQL Server 빅 데이터 클러스터 배포를 참조하세요. 빅 데이터 클러스터에 대한 보안 개념도 참조하세요.
빅 데이터 클러스터 내에서 다양한 서비스에 대한 새 사용자를 추가하기 위해 어떻게 해야 하나요?
기본 인증 모드(사용자 이름/암호)에서는 컨트롤러 또는 Knox 게이트웨이/HDFS 엔드포인트에 대해 여러 사용자를 추가할 수 없습니다. 이러한 엔드포인트에 대해 지원되는 유일한 사용자는 루트입니다. SQL Server의 경우 다른 SQL Server 인스턴스와 마찬가지로 Transact-SQL 사용하여 사용자를 추가할 수 있습니다. 엔드포인트에 대한 AD 인증을 사용하여 빅 데이터 클러스터를 배포하는 경우 여러 사용자가 지원됩니다. 배포 시 AD 그룹을 구성하는 방법에 대한 자세한 내용은 여기를 참조하세요. 자세한 내용은 Active Directory 모드에서 SQL Server 빅 데이터 클러스터 배포를 참조하세요.
빅 데이터 클러스터가 최신 컨테이너 이미지를 끌어오려면 제한할 수 있는 아웃바운드 IP 범위가 있나요?
Azure IP 범위 및 서비스 태그 – 퍼블릭 클라우드의 다양한 서비스에서 사용하는 IP 주소를 검토할 수 있습니다. 이러한 IP 주소는 주기적으로 회전합니다.
컨트롤러 서비스가 MCR(Microsoft Container Registry)에서 컨테이너 이미지를 끌어오려면 MicrosoftContainerRegistry 섹션에 지정된 IP 주소에 대한 액세스 권한을 부여해야 합니다. 또 다른 옵션은 프라이빗 Azure Container Registry를 설정하고 해당 위치에서 끌어오도록 빅 데이터 클러스터를 구성하는 것입니다. 이 경우 AzureContainerRegistry 섹션에 지정된 IP 주소를 노출해야 합니다. 이 작업을 수행하는 방법 및 스크립트에 대한 지침은 SQL Server 빅 데이터 클러스터의 오프라인 배포 수행에 제공됩니다.
공백이 있는 환경에서 빅 데이터 클러스터를 배포할 수 있나요?
예, 자세한 내용은 SQL Server 빅 데이터 클러스터의 오프라인 배포 수행을 참조하세요.
기본적으로 "Azure Storage 암호화" 기능이 AKS 기반 빅 데이터 클러스터에도 적용되나요?
이는 AKS(Azure Kubernetes Service)의 동적 스토리지 프로비저닝기 구성에 따라 달라집니다. 자세한 내용은 여기를 참조하세요. AKS(Azure Kubernetes Service)의 스토리지 및 백업 모범 사례.
빅 데이터 클러스터에서 SQL Server 및 HDFS 암호화에 대한 키를 회전할 수 있나요?
예. 자세한 내용은 빅 데이터 클러스터의 주요 버전을 참조하세요.
자동 생성된 Active Directory 개체의 암호를 회전할 수 있나요?
예, SQL Server 빅 데이터 클러스터 CU13에 도입된 새로운 기능을 사용하여 자동 생성된 Active Directory 개체 의 암호를 쉽게 회전할 수 있습니다. 자세한 내용은 AD 암호 회전을 참조하세요.
지원
Spark 및 HDFS는 Microsoft에서 지원하는 SQL Server 빅 데이터 클러스터 내에 배포되었나요?
예, Microsoft는 빅 데이터 클러스터 내에 제공되는 모든 구성 요소를 지원합니다.
SparkML 및 SQL Server ML 서비스에 대한 지원 모델은 무엇인가요?
SQL Server ML Services 지원 정책은 모든 주요 릴리스에 새 런타임 버전이 함께 제공된다는 점을 제외하고 SQL Server의 정책과 동일합니다. SparkML 라이브러리 자체는 OSS(오픈 소스 소프트웨어)입니다. 빅 데이터 클러스터에서 많은 OSS 구성 요소를 패키지하고 Microsoft에서 지원합니다.
RHEL8(Red Hat Enterprise Linux 8)이 SQL Server 빅 데이터 클러스터에 지원되는 플랫폼인가요?
이때는 그렇지 않습니다. 테스트된 구성은 여기를 참조하세요.
도구
Azure Data Studio에서 Notebook을 기본적으로 Jupyter Notebook에서 사용할 수 있나요?
예, Azure Data Studio에 표시된 것과 동일한 Jupyter 커널입니다.
'azdata' 도구가 오픈 소스인가요?
아니요, azdata
현재 오픈 소스가 아닙니다.
학습 리소스
사용할 수 있는 빅 데이터 클러스터 교육 옵션은 무엇인가요?
사용할 수 있는 몇 가지 리소스는 다음과 같습니다.
워크샵: Kubernetes - 운영 체제 미설치에서 SQL Server 빅 데이터 클러스터까지
워크샵: SQL Server 빅 데이터 클러스터 - 아키텍처
자습서: AKS(Azure Kubernetes Service)에 대한 애플리케이션 준비
(PDF)사례 연구: MS SQL Server 2019 빅 데이터 클러스터의 Apache Spark에서 실행되는 SQL 워크로드