다음을 통해 공유


Microsoft Fabric에서 리소스 프로필 구성 구성

이제 Microsoft Fabric은 데이터 엔지니어가 워크로드 요구 사항에 따라 Spark 구성을 최적화하는 간단하고 강력한 방법인 미리 정의된Spark 리소스 프로필을 지원합니다. 이러한 프로필을 사용하면 사용자가 속성 모음 기반 접근 방식을 사용하여 읽기 집약적, 쓰기 집약적 또는 하이브리드 워크로드와 같은 일반적인 패턴에 대한 튜닝 모범 사례를 신속하게 적용할 수 있습니다.

테라바이트 스트리밍 데이터를 수집하든 고성능 분석 쿼리를 실행하든 리소스 프로필은 수동 Spark 튜닝 없이도 성능에 대한 빠른 경로를 제공합니다.

리소스 프로필의 이점

  • 기본적으로 성능 ✅ – 검증된 워크로드 최적화 Spark 설정을 기본적으로 적용합니다.
  • 유연성 – 수집 및 쿼리 패턴에 따라 프로필을 선택하거나 사용자 지정합니다.
  • 미세 조정된 Spark 구성 – 시행착오 튜닝을 방지하고 운영 오버헤드를 줄입니다.

비고

  • 이제 모든 새 패브릭 작업 영역이 최적의 수집 성능을 위해 writeHeavy 프로필로 기본 설정됩니다. 여기에는 대규모 ETL 및 스트리밍 데이터 워크플로에 맞게 조정된 기본 구성이 포함됩니다.
  • writeHeavy 프로필을 사용하는 경우 VOrder는 기본적으로 사용하지 않도록 설정되며 수동으로 사용하도록 설정해야 합니다.

사용 가능한 리소스 프로필

현재 Microsoft Fabric에서 지원되는 프로필은 다음과 같습니다.

프로필 사용 사례 구성 속성
readHeavyForSpark 자주 읽는 Spark 워크로드에 최적화 spark.fabric.resourceProfile = readHeavyForSpark
readHeavyForPBI 델타 테이블의 Power BI 쿼리에 최적화됨 spark.fabric.resourceProfile = readHeavyForPBI
writeHeavy 고빈도 데이터 입력 & 쓰기에 최적화됨 spark.fabric.resourceProfile = writeHeavy
custom 완전 사용자 정의 구성 spark.fabric.resourceProfile = custom

각 프로필의 기본 구성 값

리소스 프로필 설정
writeHeavy {"spark.sql.parquet.vorder.default": "false", "spark.databricks.delta.optimizeWrite.enabled": "false", "spark.databricks.delta.optimizeWrite.binSize": "128", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true", "spark.databricks.delta.stats.collect": "false"}
readHeavyForPBI {"spark.sql.parquet.vorder.default": "true", "spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "1g"}
readHeavyForSpark {"spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "128"}
custom(예: fastIngestProfile) 완전히 사용자 정의 설정입니다. 예: {"spark.sql.shuffle.partitions": "800", "spark.sql.adaptive.enabled": "true", "spark.serializer": "org.apache.spark.serializer.KryoSerializer"}

팁 (조언)

fastIngestProfile 또는 lowLatencyAnalytics같은 워크로드 패턴을 반영하는 의미 있는 이름으로 사용자 지정 프로필의 이름을 지정할 수 있습니다.

리소스 프로필을 구성하는 방법

다음 두 가지 방법을 사용하여 Microsoft Fabric에서 리소스 프로필을 구성할 수 있습니다.

1. 환경을 사용하여 리소스 프로필 구성

환경 수준기본 Spark 리소스 프로필을 정의할 수 있습니다. 적용하면 재정의되지 않는 한 선택한 프로필이 환경 내의 모든 Spark 작업에 자동으로 사용됩니다.

단계:

  1. Fabric 작업 영역으로 이동하십시오.
  2. 새 환경을 편집하거나 만듭니다.
  3. Spark 구성아래에서 다음 속성을 설정합니다.
  4. spark.fabric.resourceProfile = writeHeavy 또는 readHeavyForPBI 또는 readHeavyForSpark를 선택하거나 사용자 고유의 프로필 이름을 선택하고 요구 사항에 따라 구성으로 사용자 지정할 수 있습니다.
  5. 기존 프로필을 선택하고 readHeavyForSpark를 선택하고 binsize를 128에서 256으로 늘리는 등의 기본값을 수정할 수도 있습니다.

2. spark.conf.set 사용하여 런타임에 리소스 프로필 구성

Notebook을 실행하거나 Spark 작업을 실행하는 동안 다음을 사용하여 기본 리소스 프로필을 재정의할 수도 있습니다.

spark.conf.set("spark.fabric.resourceProfile", "readHeavyForSpark")

이 방법은 작업 논리, 일정 또는 워크로드 유형에 따라 동작을 변경할 수 있는 런타임 유연성을 제공하여 Notebook의 여러 부분에 대해 서로 다른 프로필을 허용합니다.

비고

환경 및 런타임 구성이 모두 설정된 경우 런타임 설정이 우선합니다.

기본적으로 어떻게 되나요?

Microsoft Fabric에서 새로 만든 모든 작업 영역은 기본적으로 writeHeavy 프로필로 설정되어 있습니다. 이로 인해 보장됩니다.

  • 데이터 수집 파이프라인의 효율적인 처리
  • 일괄 처리 및 스트리밍 작업에 최적화된 처리량
  • 일반적인 ETL 워크로드에 대한 기본 성능 향상

워크로드가 다른 경우(예: 대화형 쿼리, 대시보드 제공) 환경 수준에서 기본 설정을 업데이트하거나 실행 중에 동적으로 재정의할 수 있습니다.

⚠️ 중요:
모든 새 패브릭 작업 영역에서 VOrder 는 기본적으로 사용하지 않도록 설정 됩니다(spark.sql.parquet.vorder.default=false).
이 기본 구성은 쓰기가 많은 데이터 엔지니어링 워크로드에 최적화되어 대규모로 수집 및 변환하는 동안 성능을 향상할 수 있습니다.

읽기 최적화 시나리오(예: Power BI 대시보드 또는 대화형 Spark 쿼리)에서는 readHeavyforSpark 또는 readHeavyForPBI 리소스 프로필로 전환하거나, VOrder을 활성화하여 속성을 수정하여 Power BI 및 데이터 웨어하우스 워크로드의 쿼리 성능을 향상시키는 것을 고려하세요.