이 참조 가이드와 예제 시나리오를 사용하여 Microsoft Fabric 워크로드에 복사 작업, 복사 작업, 데이터 흐름, Eventstream 또는 Spark가 필요한지 여부를 결정할 수 있습니다.
복사 작업, 복사 작업, 데이터 흐름, Eventstream 및 Spark 속성
| 파이프라인 복사 작업 | 복사 작업 | 데이터플로우 Gen 2 | Eventstream | 스파크 | |
|---|---|---|---|---|---|
| 사용 사례 | 데이터 레이크 및 데이터 웨어하우스 마이그레이션, 데이터 수집, 경량 변환 |
데이터 수집, 증분 복사 복제 Data Lake 및 Data Warehouse 마이그레이션, 경량 변환 |
데이터 수집, 데이터 변환, 데이터 정리 및 변환 데이터 프로파일링 |
이벤트 데이터 수집, 이벤트 데이터 변환 |
데이터 수집, 데이터 변환, 데이터 처리 데이터 프로파일링 |
| 주 개발자 페르소나 | 데이터 엔지니어, 데이터 통합자 |
비즈니스 분석가, 데이터 통합자, 데이터 엔지니어 |
데이터 엔지니어, 데이터 통합자, 비즈니스 분석가 |
데이터 엔지니어, 데이터 과학자, 데이터 개발자 |
데이터 통합자, 데이터 엔지니어 |
| 기본 개발자 기술 집합 | ETL, SQL, JSON (자바스크립트 객체 표기법) |
ETL, SQL, JSON (자바스크립트 객체 표기법) |
ETL, M, SQL |
SQL, JSON, 메시징 | Spark(Scala, Python, Spark SQL, R) |
| 코드 작성 | 코드 없음, 낮은 코드 |
코드 없음, 낮은 코드 |
코드 없음, 낮은 코드 |
코드 없음, 낮은 코드 |
코드 |
| 데이터 볼륨 | 낮은 순에서 높은 순 | 낮은 순에서 높은 순 | 낮은 순에서 높은 순 | 중간에서 높음 | 낮은 순에서 높은 순 |
| 개발 인터페이스 | 마법사 캔버스 |
마법사 캔버스 |
파워 쿼리 | 캔버스 | 공책 Spark 작업 정의 |
| 출처 | 50개 이상의 커넥터 | 50개 이상의 커넥터 | 150개 이상의 커넥터 | CDC를 지원하는 데이터베이스(변경 데이터 캡처), Kafka, 게시 및 구독 패턴을 지원하는 메시징 시스템, 이벤트 스트림 | 수백 개의 Spark 라이브러리 |
| 목적지 | 40개 이상의 커넥터 | 40개 이상의 커넥터 | 레이크하우스, Azure SQL 데이터베이스, Azure 데이터 탐색기, Azure Synapse 애널리틱스 |
Eventhouse, Lakehouse, Activator 경고, 파생 스트림, 사용자 지정 엔드포인트 | 수백 개의 Spark 라이브러리 |
| 변환 복잡성 | 낮다: lightweight - 형식 변환, 열 매핑, 병합/분할 파일, 계층 구조 평면화 |
낮다: lightweight - 형식 변환, 열 매핑, 병합/분할 파일, 계층 구조 평면화 |
낮음에서 높음: 300개 이상의 변환 함수 |
낮다: 경량 |
낮음에서 높음: 네이티브 Spark 및 오픈 소스 라이브러리 지원 |
시나리오
Fabric에서 데이터로 어떻게 작업할지 선택하는 데 도움이 되도록 다음 시나리오를 검토하세요.
시나리오 1
데이터 엔지니어인 Leo는 온-프레미스와 클라우드 모두에서 외부 시스템에서 대량의 데이터를 수집해야 합니다. 이러한 외부 시스템에는 데이터베이스, 파일 시스템 및 API가 포함됩니다. Leo는 각 커넥터 또는 데이터 이동 작업에 대한 코드를 작성하고 유지 관리하지 않습니다. 그는 동, 은, 금 계층을 포함하여 메달리온 계층의 모범 사례를 따르고 싶어합니다. Leo는 Spark에 대한 경험이 없으므로 최소한의 코딩으로 UI를 최대한 끌어서 놓는 것을 선호합니다. 또한 일정에 따라 데이터를 처리하려고 합니다.
첫 번째 단계는 Azure 데이터 리소스 및 다양한 타사 원본(예: Snowflake Web, REST, AWS S3, GCS 등)에서 원시 데이터를 브론즈 계층 레이크하우스로 가져오는 것입니다. 다양한 LOB, 온-프레미스 및 클라우드 원본의 모든 데이터가 한 곳에 상주할 수 있도록 통합된 레이크하우스를 원합니다. Leo는 옵션을 검토하고 자신의 원시 이진 복사본에 적합한 것으로 파이프라인 복사 작업을 선택합니다. 이 패턴은 기록 및 증분 데이터 새로 고침 모두에 적용됩니다. 복사 작업을 사용하면 필요한 경우 코드 없이 Gold 데이터를 데이터 웨어하우스에 로드할 수 있으며 파이프라인은 페타바이트 규모 데이터를 이동할 수 있는 대규모 데이터 수집을 제공합니다. 복사 액티비티는 페타바이트 규모의 데이터를 다양한 소스로부터 레이크하우스와 창고로 이동하는 데 있어서, 임시적이든 일정에 따르든 저코드 및 코드 불필요한 최고의 선택입니다.
시나리오 2
Mary는 여러 LOB 분석 보고 요구 사항에 대한 깊은 지식을 갖춘 데이터 엔지니어입니다. 업스트림 팀은 여러 LOB의 기록 및 증분 데이터를 공통 레이크하우스로 마이그레이션하는 솔루션을 성공적으로 구현했습니다. Mary는 각 보고 팀을 준비하기 위해 데이터를 정리하고, 비즈니스 논리를 적용하고, 여러 대상(예: Azure SQL DB, ADX 및 레이크하우스)에 로드하는 임무를 맡았습니다.
Mary는 숙련된 파워 쿼리 사용자이며, 데이터 볼륨은 원하는 성능을 얻기 위해 낮은 범위에서 중간 범위까지입니다. 데이터 흐름은 수백 개의 데이터 원본에서 데이터를 수집하기 위한 코드 없음 또는 하위 코드 인터페이스를 제공합니다. 데이터 흐름을 사용하면 300개 이상의 데이터 변환 옵션을 사용하여 데이터를 변환하고, 사용하기 쉽고 시각적인 사용자 인터페이스를 사용하여 결과를 여러 대상에 쓸 수 있습니다. Mary는 옵션을 검토하고 Dataflow Gen 2 선호하는 변환 옵션으로 사용하는 것이 합리적이라고 결정합니다.
시나리오 3
비즈니스 프로세스 및 시스템에 대한 전문 지식을 갖춘 데이터 통합업체인 Prashant입니다. 업스트림 팀은 비즈니스 애플리케이션의 이벤트 데이터를 다운스트림 시스템을 통해 사용할 수 있는 메시지로 성공적으로 노출했습니다. Prashant는 실시간 의사 결정 지원을 위해 비즈니스 애플리케이션의 이벤트 데이터를 Microsoft Fabric에 통합하도록 할당되었습니다.
중간에서 높은 데이터 볼륨, 코드 없는 솔루션에 대한 조직의 선호도를 감안할 때 Prashant는 추출 일정을 관리하지 않고 이벤트가 발생할 때 원활하게 전달할 방법을 모색합니다. 이러한 요구를 충족하기 위해 Microsoft Fabric에서 Eventstreams를 선택합니다. Real-Time Intelligence 환경 내의 Eventstream을 사용하면 코드를 작성하지 않고도 실시간 데이터 수집, 변환 및 다양한 대상으로 라우팅할 수 있습니다.
시나리오 4
Adam은 레이크하우스를 사용하여 고객 데이터를 저장하고 분석하는 대형 소매 회사에서 일하는 데이터 엔지니어입니다. Adam은 작업의 일환으로 데이터를 추출, 변환 및 레이크하우스로 로드하는 파이프라인을 빌드하고 유지 관리하는 일을 담당합니다. 회사의 비즈니스 요구 사항 중 하나는 고객 검토 분석을 수행하여 고객의 환경에 대한 인사이트를 얻고 서비스를 개선하는 것입니다.
Adam은 Spark 사용하여 추출 및 변환 논리를 빌드하는 것이 가장 좋은 옵션이라고 결정합니다. Spark는 대량의 데이터를 병렬로 처리할 수 있는 분산 컴퓨팅 플랫폼을 제공합니다. 그는 고객 검토 및 피드백을 위해 OneLake에서 구조화되고 반구조화되고 구조화되지 않은 데이터를 읽는 Python 또는 Scala를 사용하여 Spark 애플리케이션을 작성합니다. 애플리케이션은 레이크하우스의 델타 테이블에 데이터를 정리, 변환 및 씁니다. 그런 다음 다운스트림 분석에 데이터를 사용할 준비가 됩니다.
시나리오 5
데이터 엔지니어인 Rajesh는 온-프레미스 SQL Server에서 Azure SQL Database로 증분 데이터를 수집하는 작업을 담당합니다. Rajesh의 온-프레미스 SQL Server 인스턴스에는 키 테이블에서 CDC(변경 데이터 캡처)가 이미 활성화되어 있습니다.
Rajesh는 다음을 수행할 수 있는 간단한, 낮은 코드의 마법사 기반 솔루션을 찾고 있습니다.
- 여러 네이티브 CDC 사용 원본 테이블 선택
- 초기 전체 로드 수행
- CDC에 따라 증분 데이터 로드로 자동 전환
- 주기적인 업데이트를 위한 데이터 새로 고침 예약
사용자 지정 코드를 작성하거나 복잡한 오케스트레이션을 관리하지 않으려고 합니다. 이상적으로는 몇 번의 클릭만으로 설정을 수행할 수 있는 "5x5 마법사"를 원합니다.
Rajesh는 Microsoft Fabric에서 복사 작업 기능을 선택합니다. 온-프레미스 게이트웨이 지원을 통해 SQL Server에 안전하게 연결하고, 원하는 테이블을 선택하고, 대상 Azure SQL Database에 연결하도록 흐름을 구성합니다.
복사 작업은 복잡한 파이프라인을 유지 관리할 필요 없이 Rajesh의 요구 사항을 충족하는 낮은 마찰 및 확장성 있는 데이터 이동 환경을 제공합니다.
관련 콘텐츠
- 복사 작업 사용하여 데이터를 복사하는 방법
- 빠른 시작: 데이터 가져오기 및 변환하는 첫 번째 데이터 흐름 만들기
- Fabric에서 Apache Spark 작업 정의를 만드는 방법
- 패브릭에서 Eventstream을 만드는 방법