다음을 통해 공유


Microsoft Fabric의 Data Factory란?

Microsoft Fabric의 Data Factory를 사용하면 분산된 데이터를 유용한 인사이트로 전환하는 등 비즈니스의 가장 어려운 과제 중 하나를 해결할 수 있습니다.

조직의 데이터는 데이터베이스, 파일, 클라우드 서비스 및 레거시 시스템 등 다양한 위치에 있습니다. 이렇게 하면 비즈니스의 전체 그림을 얻기가 어렵습니다. Data Factory는 온-프레미스 게이트웨이를 사용하는 다중 클라우드 환경 및 하이브리드 설정을 포함하여 170개가 넘는 데이터 원본에 연결합니다. 데이터를 대규모로 이동하고 변환하여 분석 및 의사 결정에 적합한 형식으로 전환하는 데 도움이 됩니다.

Microsoft Fabric의 데이터 통합 스택 다이어그램

데이터 이동, 오케스트레이션 및 변환을 통해 패브릭의 분석 및 데이터 개발 도구에 연결된 커넥터의 선택을 보여 주는 Microsoft Fabric의 Data Factory 다이어그램 이 모든 것은 패브릭 OneLake의 맨 위에 있으며, 전체 스택은 AI 기반 인텔리전스를 통해 짜여집니다.

첫 번째 데이터 분석 전략을 빌드하는 비즈니스 사용자이든, 복잡한 워크스트림을 만드는 개발자이든, 다음과 같은 적합한 도구를 찾을 수 있습니다.

  • 데이터 통합
  • 정리
  • Lakehouse 또는 Data Warehouse에서 분석할 수 있도록 준비하십시오.
  • 데이터 워크플로 자동화

데이터 통합이란?

데이터 통합은 전략적 데이터를 통합하여 액세스하고 분석할 수 있도록 하는 프로세스입니다. 데이터 기반 의사 결정을 내리고자 하는 모든 비즈니스의 핵심 부분입니다.

데이터를 통합하는 방법에는 여러 가지가 있지만 가장 일반적인 전략 중 하나는 ETL입니다. ETL은 추출, 변환, 로드를 의미합니다. 다양한 원본의 정보를 가져와 분석할 수 있는 형식으로 변환하고 분석 또는 보고를 위해 공통 대상 시스템에 로드합니다. 비즈니스의 데이터 플랫폼에서 ETL 프로세스를 구현하면 데이터 일관성, 품질 및 접근성이 향상됩니다.

각 단계에서 수행하는 일은 다음과 같습니다.

  • 추출: 원본에서 데이터를 읽고 중앙 스토리지 위치로 이동합니다. 원본은 데이터베이스, 파일, API, 웹 사이트 등이 될 수 있습니다.
  • 변환: 데이터를 정리, 보강 및 분석하기 쉬운 형식으로 변환합니다. 예를 들어 SQL 데이터베이스의 판매 데이터를 검사된 기록 판매 문서와 비교할 수 있습니다. 데이터를 추출한 후에는 동일한 형식으로 각 원본에서 데이터를 변환하고, 손상 또는 중복을 확인하고, 데이터를 단일 데이터 세트로 결합해야 합니다.
  • 로드: 데이터 웨어하우스 또는 데이터 레이크와 같은 대상 시스템에 변환된 데이터를 씁니다. 대상 시스템은 데이터에 대한 쿼리 및 보고서를 실행할 수 있는 위치입니다.

ETL 또는 ELT?

데이터를 사용할 때, 데이터를 이동하고 변환하는 방법이 중요하며, 모든 조직에는 서로 다른 요구 사항이 있습니다. 예: ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환). 각각 성능, 확장성 및 비용에 대한 요구 사항에 따라 강점이 있습니다.

ETL: 대상에 로드하기 전에 데이터를 변환합니다. 이는 데이터를 이동할 때 정리, 표준화 또는 보강해야 할 때 잘 작동합니다. 예를 들어 Data Factory의 Dataflow Gen 2를 사용하여 데이터를 웨어하우스 또는 Lakehouse에 로드하기 전에 대규모로 변환을 적용합니다.

ELT: 원시 데이터를 먼저 로드한 다음 저장된 위치에서 변환합니다. 이 방법은 패브릭의 OneLake, Spark Notebook 또는 SQL 기반 도구와 같은 분석 엔진의 기능을 사용합니다. ELT는 최신 클라우드 규모의 컴퓨팅을 사용하여 대규모 데이터 세트를 처리하는 데 적합합니다.

Fabric Data Factory는 둘 다 지원합니다. 당신은 할 수 있어요:

  • 즉각적인 데이터 품질 및 준비 상태를 위해 클래식 ETL 파이프라인 빌드
  • ELT 워크플로를 사용하여 대규모 변환에 통합 컴퓨팅 및 스토리지 활용
  • 유연성을 위해 동일한 솔루션에서 두 방법을 결합합니다.

Data Factory는 강력한 데이터 통합 솔루션입니다.

Data Factory는 데이터에 연결하고, 이동하고, 변환하고, 한 곳에서 데이터 이동 및 변환 작업을 오케스트레이션합니다. 비즈니스에 가장 적합한 전략을 결정하고 Data Factory는 이를 수행하는 도구를 제공합니다.

데이터에 연결: 온-프레미스, 클라우드 또는 다중 클라우드 환경에서 Data Factory는 데이터 원본 및 대상에 연결합니다. 데이터베이스, 데이터 레이크, 파일 시스템, API 등을 비롯한 광범위한 데이터 원본을 지원합니다. 지원되는 데이터 원본 및 대상의 전체 목록은 사용 가능한 커넥터 를 참조하세요.

데이터 이동: Data Factory는 필요에 따라 원본에서 대상으로 데이터를 이동하거나 기존 데이터에 쉽게 액세스할 수 있는 몇 가지 방법을 제공합니다.

  • 복사 작업 - 대량 복사, 증분 복사 및 CDC(변경 데이터 캡처) 복제를 포함하여 여러 배달 스타일을 기본적으로 지원하는 간소화된 데이터 이동을 위한 기본 솔루션입니다. 또한 직관적이며 사용하기 쉬운 환경을 통해 다양한 원본에서 많은 대상에 이르는 다양한 시나리오를 유연하게 처리할 수 있습니다.
  • 복사 작업 - 광범위한 사용자 지정, 광범위한 원본 및 대상에 대한 지원, 성능 향상을 위한 병렬 복사 수동 제어를 사용하여 모든 규모의 데이터를 한 곳에서 다른 위치로 이동합니다.
  • 미러링 - Microsoft Fabric의 OneLake 내에서 운영 데이터베이스의 거의 실시간 복제본을 만들어 분석 및 보고를 더 쉽게 만듭니다.

시나리오에 적합한 데이터 이동 방법을 선택하는 데 도움이 되는 데이터 이동 결정 가이드 를 참조하세요.

변환: Data Factory는 사용자 지정 변환 스크립트 또는 강력한 데이터 흐름 디자이너에 연결하는 작업을 제공합니다.

  • 파이프라인 활동 - 패브릭 노트북, HDInsight 작업, Spark 작업 정의, 저장 프로시저, SQL 스크립트 등 이러한 작업을 통해 사용자 지정 코드 또는 스크립트를 실행하여 데이터를 변환할 수 있습니다.
  • 데이터 흐름 Gen 2 - 300개가 넘는 변환이 있는 로우 코드 인터페이스를 사용하여 데이터를 변환합니다. 조인, 집계, 데이터 정리, 사용자 지정 변환 등을 수행할 수 있습니다.

오케스트레이션: Data Factory를 사용하면 단일 워크플로에서 여러 데이터 이동, 변환 및 기타 작업을 실행할 수 있는 파이프라인을 만들 수 있습니다.

AI 기반 데이터 통합

AI가 Data Factory 전체에 표시되므로 더 적은 노력으로 더 많은 작업을 수행할 수 있습니다. Data Factory용 부조종사 기능을 사용하면 자연어를 사용하여 파이프라인 및 데이터 흐름을 디자인, 편집 및 관리할 수 있습니다. 일반 영어 프롬프트를 입력하면 코필로트가 작동하는 ETL 단계로 바뀝니다.

또한 Copilot는 기존 데이터 흐름 쿼리 및 파이프라인을 요약하여 수행하는 작업을 신속하게 이해할 수 있도록 합니다. 오류가 발생하면 Copilot는 무엇이 잘못되었는지 설명하고 문제를 해결하는 방법을 제안합니다.

자세한 내용은 Data Factory 워크로드의 패브릭에서 Copilot를 참조하세요.

무엇을 시작해야 합니까?

Azure Data Factory를 이미 사용한다면 어떻게 해야 할까요?

Microsoft Fabric의 Data Factory는 더 간단한 방법으로 가장 복잡한 데이터 통합 문제를 처리하도록 빌드된 차세대 Azure Data Factory입니다.

두 서비스 간의 주요 차이점에 대한 비교 가이드를 참조하여 엔터프라이즈에 적합한 선택을 할 수 있습니다.

마이그레이션할 준비가 되면 마이그레이션 가이드를 따르세요.

자세한 내용을 확인하고 Microsoft Fabric을 시작하려면 다음 가이드를 따르세요.