Microsoft Fabric의 Data Factory를 사용하면 분산된 데이터를 유용한 인사이트로 전환하는 등 비즈니스의 가장 어려운 과제 중 하나를 해결할 수 있습니다.
조직의 데이터는 데이터베이스, 파일, 클라우드 서비스 및 레거시 시스템 등 다양한 위치에 있습니다. 이렇게 하면 비즈니스의 전체 그림을 얻기가 어렵습니다. Data Factory는 온-프레미스 게이트웨이를 사용하는 다중 클라우드 환경 및 하이브리드 설정을 포함하여 170개가 넘는 데이터 원본에 연결합니다. 데이터를 대규모로 이동하고 변환하여 분석 및 의사 결정에 적합한 형식으로 전환하는 데 도움이 됩니다.
데이터 이동, 오케스트레이션 및 변환을 통해 패브릭의 분석 및 데이터 개발 도구에 연결된 커넥터의 선택을 보여 주는 Microsoft Fabric의 Data Factory 다이어그램 이 모든 것은 패브릭 OneLake의 맨 위에 있으며, 전체 스택은 AI 기반 인텔리전스를 통해 짜여집니다.
첫 번째 데이터 분석 전략을 빌드하는 비즈니스 사용자이든, 복잡한 워크스트림을 만드는 개발자이든, 다음과 같은 적합한 도구를 찾을 수 있습니다.
- 데이터 통합
- 정리
- Lakehouse 또는 Data Warehouse에서 분석할 수 있도록 준비하십시오.
- 데이터 워크플로 자동화
데이터 통합이란?
데이터 통합은 전략적 데이터를 통합하여 액세스하고 분석할 수 있도록 하는 프로세스입니다. 데이터 기반 의사 결정을 내리고자 하는 모든 비즈니스의 핵심 부분입니다.
데이터를 통합하는 방법에는 여러 가지가 있지만 가장 일반적인 전략 중 하나는 ETL입니다. ETL은 추출, 변환, 로드를 의미합니다. 다양한 원본의 정보를 가져와 분석할 수 있는 형식으로 변환하고 분석 또는 보고를 위해 공통 대상 시스템에 로드합니다. 비즈니스의 데이터 플랫폼에서 ETL 프로세스를 구현하면 데이터 일관성, 품질 및 접근성이 향상됩니다.
각 단계에서 수행하는 일은 다음과 같습니다.
- 추출: 원본에서 데이터를 읽고 중앙 스토리지 위치로 이동합니다. 원본은 데이터베이스, 파일, API, 웹 사이트 등이 될 수 있습니다.
- 변환: 데이터를 정리, 보강 및 분석하기 쉬운 형식으로 변환합니다. 예를 들어 SQL 데이터베이스의 판매 데이터를 검사된 기록 판매 문서와 비교할 수 있습니다. 데이터를 추출한 후에는 동일한 형식으로 각 원본에서 데이터를 변환하고, 손상 또는 중복을 확인하고, 데이터를 단일 데이터 세트로 결합해야 합니다.
- 로드: 데이터 웨어하우스 또는 데이터 레이크와 같은 대상 시스템에 변환된 데이터를 씁니다. 대상 시스템은 데이터에 대한 쿼리 및 보고서를 실행할 수 있는 위치입니다.
ETL 또는 ELT?
데이터를 사용할 때, 데이터를 이동하고 변환하는 방법이 중요하며, 모든 조직에는 서로 다른 요구 사항이 있습니다. 예: ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환). 각각 성능, 확장성 및 비용에 대한 요구 사항에 따라 강점이 있습니다.
ETL: 대상에 로드하기 전에 데이터를 변환합니다. 이는 데이터를 이동할 때 정리, 표준화 또는 보강해야 할 때 잘 작동합니다. 예를 들어 Data Factory의 Dataflow Gen 2를 사용하여 데이터를 웨어하우스 또는 Lakehouse에 로드하기 전에 대규모로 변환을 적용합니다.
ELT: 원시 데이터를 먼저 로드한 다음 저장된 위치에서 변환합니다. 이 방법은 패브릭의 OneLake, Spark Notebook 또는 SQL 기반 도구와 같은 분석 엔진의 기능을 사용합니다. ELT는 최신 클라우드 규모의 컴퓨팅을 사용하여 대규모 데이터 세트를 처리하는 데 적합합니다.
Fabric Data Factory는 둘 다 지원합니다. 당신은 할 수 있어요:
- 즉각적인 데이터 품질 및 준비 상태를 위해 클래식 ETL 파이프라인 빌드
- ELT 워크플로를 사용하여 대규모 변환에 통합 컴퓨팅 및 스토리지 활용
- 유연성을 위해 동일한 솔루션에서 두 방법을 결합합니다.
Data Factory는 강력한 데이터 통합 솔루션입니다.
Data Factory는 데이터에 연결하고, 이동하고, 변환하고, 한 곳에서 데이터 이동 및 변환 작업을 오케스트레이션합니다. 비즈니스에 가장 적합한 전략을 결정하고 Data Factory는 이를 수행하는 도구를 제공합니다.
데이터에 연결: 온-프레미스, 클라우드 또는 다중 클라우드 환경에서 Data Factory는 데이터 원본 및 대상에 연결합니다. 데이터베이스, 데이터 레이크, 파일 시스템, API 등을 비롯한 광범위한 데이터 원본을 지원합니다. 지원되는 데이터 원본 및 대상의 전체 목록은 사용 가능한 커넥터 를 참조하세요.
데이터 이동: Data Factory는 필요에 따라 원본에서 대상으로 데이터를 이동하거나 기존 데이터에 쉽게 액세스할 수 있는 몇 가지 방법을 제공합니다.
- 복사 작업 - 대량 복사, 증분 복사 및 CDC(변경 데이터 캡처) 복제를 포함하여 여러 배달 스타일을 기본적으로 지원하는 간소화된 데이터 이동을 위한 기본 솔루션입니다. 또한 직관적이며 사용하기 쉬운 환경을 통해 다양한 원본에서 많은 대상에 이르는 다양한 시나리오를 유연하게 처리할 수 있습니다.
- 복사 작업 - 광범위한 사용자 지정, 광범위한 원본 및 대상에 대한 지원, 성능 향상을 위한 병렬 복사 수동 제어를 사용하여 모든 규모의 데이터를 한 곳에서 다른 위치로 이동합니다.
- 미러링 - Microsoft Fabric의 OneLake 내에서 운영 데이터베이스의 거의 실시간 복제본을 만들어 분석 및 보고를 더 쉽게 만듭니다.
시나리오에 적합한 데이터 이동 방법을 선택하는 데 도움이 되는 데이터 이동 결정 가이드 를 참조하세요.
변환: Data Factory는 사용자 지정 변환 스크립트 또는 강력한 데이터 흐름 디자이너에 연결하는 작업을 제공합니다.
- 파이프라인 활동 - 패브릭 노트북, HDInsight 작업, Spark 작업 정의, 저장 프로시저, SQL 스크립트 등 이러한 작업을 통해 사용자 지정 코드 또는 스크립트를 실행하여 데이터를 변환할 수 있습니다.
- 데이터 흐름 Gen 2 - 300개가 넘는 변환이 있는 로우 코드 인터페이스를 사용하여 데이터를 변환합니다. 조인, 집계, 데이터 정리, 사용자 지정 변환 등을 수행할 수 있습니다.
오케스트레이션: Data Factory를 사용하면 단일 워크플로에서 여러 데이터 이동, 변환 및 기타 작업을 실행할 수 있는 파이프라인을 만들 수 있습니다.
- 특정 시간에 실행되도록 파이프라인을 예약하거나 이벤트에 따라 트리거합니다.
- 파이프라인에는 루프 및 조건부와 같은 제어 흐름 논리가 포함되어 복잡한 워크플로를 처리하고 간단한 로우 코드 파이프라인 디자이너 UI를 사용하여 모든 데이터 처리를 오케스트레이션할 수 있습니다.
- 코드에서 오케스트레이션 프로세스를 표현하려는 경우 Fabric Data Factory는 Apache Airflow와 통합되어 Python을 사용하여 오케스트레이션을 위한 DAG를 빌드합니다.
AI 기반 데이터 통합
AI가 Data Factory 전체에 표시되므로 더 적은 노력으로 더 많은 작업을 수행할 수 있습니다. Data Factory용 부조종사 기능을 사용하면 자연어를 사용하여 파이프라인 및 데이터 흐름을 디자인, 편집 및 관리할 수 있습니다. 일반 영어 프롬프트를 입력하면 코필로트가 작동하는 ETL 단계로 바뀝니다.
또한 Copilot는 기존 데이터 흐름 쿼리 및 파이프라인을 요약하여 수행하는 작업을 신속하게 이해할 수 있도록 합니다. 오류가 발생하면 Copilot는 무엇이 잘못되었는지 설명하고 문제를 해결하는 방법을 제안합니다.
자세한 내용은 Data Factory 워크로드의 패브릭에서 Copilot를 참조하세요.
무엇을 시작해야 합니까?
- 구독이 활성 상태인 Microsoft Fabric 테넌트 계정. 계정이 없는 경우 체험 계정을 만들 수 있습니다.
- Microsoft Fabric 지원 작업 영역. 작업 영역을 만드는 방법을 알아봅니다.
Azure Data Factory를 이미 사용한다면 어떻게 해야 할까요?
Microsoft Fabric의 Data Factory는 더 간단한 방법으로 가장 복잡한 데이터 통합 문제를 처리하도록 빌드된 차세대 Azure Data Factory입니다.
두 서비스 간의 주요 차이점에 대한 비교 가이드를 참조하여 엔터프라이즈에 적합한 선택을 할 수 있습니다.
마이그레이션할 준비가 되면 마이그레이션 가이드를 따르세요.
관련 콘텐츠
자세한 내용을 확인하고 Microsoft Fabric을 시작하려면 다음 가이드를 따르세요.
- 가이드 데이터 공장 랩 - Fabric의 Data Factory 데모
- 무엇을 연결할 수 있나요? - Data Factory에 사용 가능한 모든 원본 및 대상
- 엔드투엔드 Data Factory 자습서 - 데이터 수집에서 변환 및 대상 시스템에 로드에 이르는 전체 ETL 프로세스를 안내합니다.