다음을 통해 공유


Microsoft Fabric 의사 결정 가이드: 데이터 이동 전략 선택

Microsoft Fabric은 필요한 사항에 따라 패브릭으로 데이터를 가져오는 여러 가지 방법을 제공합니다. 현재 미러링, 파이프라인의 복사 활동 또는 복사 작업을 사용할 수 있습니다. 각 옵션은 다양한 수준의 제어 및 복잡성을 제공하므로 시나리오에 가장 적합한 항목을 선택할 수 있습니다.

미러링이 패브릭에 데이터베이스를 미러링하는 간단하고 무료 솔루션으로 설계되었지만 모든 고급 시나리오를 다루지는 않습니다. 파이프라인의 복사 작업은 완전히 사용자 지정할 수 있는 데이터 수집 기능을 제공하지만, 파이프라인을 직접 빌드하고 관리해야 합니다. 복사 작업은 이러한 두 옵션 사이의 간격을 채웁니다. 미러링보다 더 많은 유연성과 제어를 제공하며, 파이프라인 빌드의 복잡성 없이 일괄 처리 및 증분 복사에 대한 기본 지원을 제공합니다.

실시간 스트리밍 수집 및 이벤트 기반 시나리오의 경우 Fabric Eventstreams를 사용해 보세요. 대기 시간이 짧은 데이터 이동을 제공하고, 코드 또는 SQL 변환 없이 데이터를 변환하고, 콘텐츠 기반 라우팅을 여러 대상으로 지원할 수 있습니다.

미러링, 이벤트 스트림, 복사 작업 및 복사 작업을 비교하는 데이터 이동 전략 의사 결정 트리의 스크린샷.

주요 개념

  • 미러링을 사용하면 분석을 위해 운영 데이터를 패브릭으로 미러링하는 간단하고 자유로운 방법을 제공합니다. 최소한의 설정으로 사용 편의성을 위해 최적화되었으며 OneLake의 읽기 전용 단일 대상에 씁니다.

  • 파이프라인의 복사 작업은오케스트레이션된 파이프라인 기반의 데이터 수집 워크플로우를 필요로 하는 사용자를 위해 설계되었습니다. 광범위하게 사용자 지정하고 변환 논리를 추가할 수 있지만 증분 복사에 대한 마지막 실행의 상태를 추적하는 것을 포함하여 파이프라인 구성 요소를 직접 정의하고 관리해야 합니다.

  • 복사 작업을 사용하면 대량 복사, 증분 복사 및 CDC(변경 데이터 캡처) 복제를 비롯한 여러 배달 스타일에 대한 기본 지원을 통해 데이터 수집을 더 쉽게 수행할 수 있으며, 많은 고급 옵션에 대한 액세스 권한을 제공하면서도 파이프라인을 빌드할 필요가 없습니다. 이 기능은 많은 원본과 대상을 지원하며, 복사 작업으로 파이프라인을 관리하는 것보다 미러링보다 더 많은 제어를 원하지만 복잡성이 적을 때 잘 작동합니다.

  • Eventstreams: 스트리밍 데이터의 실시간 수집, 변환 및 처리를 위해 설계되었습니다. 대기 시간이 짧은 파이프라인, 스키마 관리 및 Eventhouse, Lakehouse, Activator 및 사용자 지정 엔드포인트 지원(AMQP, Kafka 및 HTTP 엔드포인트)과 같은 대상으로 라우팅을 지원합니다.

데이터 이동 의사 결정 가이드

미러링 복사 작업 복사 작업(파이프라인) Eventstreams
소스 Open Mirroring에 데이터베이스 + 타사 통합 지원되는 모든 데이터 원본 및 형식 지원되는 모든 데이터 원본 및 형식 25개 이상의 원본 및 모든 형식
목적지 Fabric OneLake의 테이블 형식(읽기 전용) 지원되는 모든 대상 및 형식 지원되는 모든 대상 및 형식 4개 이상의 목적지
융통성 고정 동작을 사용한 간단한 설정 사용하기 쉬운 + 고급 옵션 고급 및 완전히 사용자 지정 가능한 옵션 간단하고 사용자 지정 가능한 옵션
능력 미러링 복사 작업 복사 작업(파이프라인) Eventstreams
사용자 지정 일정 Yes Yes 지속적
테이블 및 열 관리 Yes Yes 예(스키마, 이벤트 및 필드 관리)
복사 동작: 추가, 삽입/업데이트, 덮어쓰기 Yes Yes Append
고급 관찰성 + 감사 Yes Yes
복사 모드
CDC 기반 연속 복제 Yes Yes Yes
일괄 처리 또는 대량 복사 Yes Yes 예(CDC 초기 스냅샷 복제)
증분 복사에 대한 기본 지원(워터마크 기반) Yes
사용자 정의 쿼리를 사용하여 복사 Yes Yes
사용 사례
분석 및 보고를 위한 연속 복제 Yes Yes Yes
데이터 웨어하우징을 위한 메타데이터 기반 ELT/ETL Yes Yes
데이터 통합 Yes Yes Yes
데이터 마이그레이션/ 데이터 백업/데이터 공유 Yes Yes Yes
비용 무료 Yes
예측 가능한 성능 Yes Yes Yes

시나리오

이러한 시나리오를 검토하여 요구 사항에 가장 적합한 데이터 이동 전략을 선택할 수 있습니다.

시나리오 1

제임스는 보험 회사의 재무 관리자입니다. 그의 팀은 Azure SQL Database를 사용하여 여러 사업부에서 정책 데이터, 클레임 및 고객 정보를 추적합니다. 경영진은 비즈니스 성능 모니터링을 위한 실시간 대시보드를 만들려고 하지만 James는 분석 쿼리로 인해 매일 수천 개의 트랜잭션을 처리하는 운영 시스템을 느리게 할 수 없습니다.

James는 설치 복잡성이나 지속적인 유지 관리 없이 연속 데이터 복제가 필요합니다. 그는 일정을 관리하거나, 증분 로드를 구성하거나, 테이블 선택에 대해 걱정하고 싶지 않습니다. 모든 항목을 자동으로 미러링해야 합니다. 이는 임원 보고 전용이므로 OneLake에서 데이터를 읽기 전용 형식으로 사용하는 것이 완벽하게 작동합니다. 또한 솔루션은 부서 예산에서 나오기 때문에 비용 효율적이어야 합니다.

James는 옵션을 살펴보고 미러링을 선택합니다. 미러링에서는 필요한 CDC 기반 연속 복제를 제공하여 구성 없이 모든 테이블을 자동으로 처리합니다. 간단한 설정은 기술 전문 지식이 필요하지 않으며 무료 비용이 예산에 부합한다는 것을 의미합니다. OneLake의 읽기 전용 테이블 형식은 운영 성능에 영향을 주지 않고 팀에 필요한 실시간 분석 액세스를 제공합니다.

시나리오 2

Lisa는 물류 회사의 비즈니스 분석가입니다. 공급망 분석을 위해 여러 Snowflake 데이터베이스에서 Fabric Lakehouse 테이블로 배송 데이터를 복사해야 합니다. 데이터에는 초기 부하에 대한 기록 레코드와 하루 종일 도착하는 새 배송이 모두 포함됩니다. Lisa는 업무 시간 동안 4시간마다 사용자 지정 일정으로 이 프로세스를 실행하려고 합니다.

Lisa는 각 Snowflake 인스턴스에서 특정 테이블을 선택하고, 열을 표준화된 이름에 매핑하고, upsert 동작을 사용하여 기존 배송 레코드에 대한 업데이트를 처리해야 합니다. 여러 지역에서 다양한 스키마를 처리하려면 테이블 및 열 관리 기능이 필요하며, 고급 모니터링을 통해 데이터 품질 및 처리 성능을 추적하려고 합니다.

Lisa는 옵션을 살펴보고 복사 작업을 선택합니다. 복사 작업은 업무 시간 요구 사항에 필요한 사용자 지정 일정을 제공하고, Snowflake를 비롯한 모든 데이터 원본을 지원하며, 다중 지역 설정에 대한 테이블 및 열 관리 기능을 제공합니다. 고급 구성 옵션이 있는 사용하기 쉬운 인터페이스를 사용하면 파이프라인을 빌드하지 않고 워터마크 기반 검색 및 upsert 동작으로 증분 복사를 처리할 수 있습니다.

시나리오 3

David는 통신 회사의 선임 데이터 엔지니어입니다. 사용자 지정 SQL 쿼리를 사용하여 Oracle에서 고객 사용량 현황 데이터를 추출하고, 비즈니스 변환을 적용하고, 패브릭 웨어하우스 및 외부 시스템을 포함한 여러 대상으로 로드해야 하는 복잡한 데이터 수집 워크플로를 빌드하고 있습니다. 워크플로는 데이터 유효성 검사 및 알림 단계와 같은 다른 파이프라인 작업과도 조정해야 합니다.

David는 사용자 정의 쿼리를 사용하여 테이블을 조인하고 원본에서 데이터를 필터링하는 기능을 포함하여 복사 프로세스를 완전히 제어해야 합니다. 고급 및 완전히 사용자 지정 가능한 구성 옵션, 대용량 데이터 볼륨에 대한 예측 가능한 성능 및 종속성 및 오류 처리를 통해 복사 프로세스를 더 광범위한 파이프라인 오케스트레이션 워크플로에 통합할 수 있는 기능이 필요합니다.

David는 사용 가능한 옵션을 검토하고 파이프라인에서 복사 작업을 선택합니다. 이 방법은 필요한 고급 사용자 지정 가능한 구성을 제공하고, 복잡한 데이터 추출에 대한 사용자 정의 쿼리를 지원하며, 워크플로에 필요한 파이프라인 기반 오케스트레이션을 제공합니다. 고급 모니터링 및 감사 기능은 복잡한 프로세스를 추적하는 데 도움이 되며, 파이프라인 프레임워크를 사용하면 복사 작업을 다른 데이터 처리 단계와 조정할 수 있습니다.

시나리오 4

Ash는 통신 회사의 제품 관리자입니다. 그녀의 팀은 SLA 규정 준수를 보장하고 고객 만족도를 개선하기 위해 통화량, 대기 시간 및 에이전트 성능과 같은 고객 지원 메트릭을 실시간으로 모니터링해야 합니다. 데이터는 CRM 플랫폼, 콜 센터 로그 및 에이전트 할당 데이터베이스를 포함한 여러 운영 시스템에서 제공되며 하루 종일 높은 빈도로 도착합니다.

Ash는 Fabric Eventstreams를 사용하여 이 데이터를 수집 및 변환합니다. 다양한 원본에서 데이터를 가져오도록 스트리밍 커넥터를 구성하고, 코드 없음 환경을 사용하여 변환을 적용하고, 실시간 분석을 위해 처리된 이벤트를 Eventhouse 로 라우팅합니다. 그녀는 데이터 활성화기를 통합하여 SLA 임계값이 위반될 때 경고 및 자동화된 워크플로를 트리거하여 감독자에게 알림을 보내거나 직원 수준을 동적으로 조정할 수 있습니다.

그 결과 몇 초 내에 업데이트되는 실시간 대시보드가 생성되어 Ash의 팀이 라이브 성능 메트릭에 대한 가시성을 제공하고 데이터 기반의 신속한 의사 결정을 가능하게 합니다. 이 스트리밍 아키텍처는 일괄 처리 파이프라인의 대기 시간을 없애고 비즈니스가 고객의 요구에 즉시 대응할 수 있도록 합니다.

시작하기

이제 사용할 데이터 이동 전략을 파악했으므로 다음 리소스를 시작할 수 있습니다.