복사 작업은 여러 원본에서 여러 대상으로 데이터 이동을 간소화하기 위한 Microsoft Fabric Data Factory의 go-to 솔루션으로, 파이프라인이 필요하지 않습니다. 대량 복사, 증분 복사 및 CDC(변경 데이터 캡처) 복제를 비롯한 여러 배달 스타일에 대한 기본 지원을 통해 복사 작업은 직관적이고 사용하기 쉬운 환경을 통해 광범위한 데이터 이동 시나리오를 유연하게 처리할 수 있습니다. 데이터 통합을 익숙하지 않거나 필요한 위치에 데이터를 더 빠르게 가져올 수 있는 방법을 원하는 경우 복사 작업은 유연하고 사용자에게 친숙한 솔루션을 제공합니다.
Advantages
다른 데이터 이동 방법보다 복사 작업의 몇 가지 장점은 다음과 같습니다.
- 사용하기 쉬운 방법: 간단하고 안내된 환경으로 데이터 복사를 설정하고 모니터링합니다. 기술 전문 지식이 필요하지 않습니다.
- 효율적: 마지막 실행에서 새 데이터 또는 변경된 데이터만 복사하여 최소한의 수동 단계로 시간과 리소스를 절약합니다.
- 유연성: 이동할 데이터를 선택하고, 열을 매핑하고, 데이터를 작성하는 방법을 설정하고, 작업을 한 번 또는 정기적으로 실행하도록 예약합니다.
- 고성능: 확장 가능한 서버리스 시스템 덕분에 대량의 데이터를 빠르고 안정적으로 이동합니다.
데이터 이동 전략을 방문하여 복사 작업이 파이프라인의 미러링 및 복사 작업과 어떻게 비교되는지 확인할 수도 있습니다.
개념들
복사 모드(전체 복사, 증분 복사)
원본에서 대상으로 데이터를 복사하는 방법을 선택할 수 있습니다.
- 전체 복사: 작업이 실행되면 원본에서 대상으로 모든 데이터를 복사합니다.
- 증분 복사: 첫 번째 실행은 모든 항목을 복사하고, 후속 실행은 마지막 실행 이후 새 데이터 또는 변경된 데이터만 이동합니다.
증분 복사본(CDC, 워터마크)
증분 복사에서 초기 전체 복사 후에 실행된 모든 실행은 변경 내용만 전송합니다.
- 데이터베이스: 새 행 또는 업데이트된 행만 복사됩니다. CDC(변경 데이터 캡처)를 사용하도록 설정하면 삽입, 업데이트 및 삭제된 행이 포함됩니다.
- 스토리지: 최신 LastModifiedTime이 있는 파일만 복사됩니다.
복사 작업은 마지막으로 성공한 실행의 상태를 자동으로 추적하고 관리하므로 다음에 복사할 데이터를 알 수 있습니다.
- 데이터베이스: 각 테이블에 대해 증분 열을 선택해야 합니다. 이 열은 표식 역할을 하며 마지막 실행 이후 새로 만들거나 업데이트된 행을 복사 작업에 알릴 수 있습니다. 일반적으로 열은 날짜/시간 값 또는 증가하는 숫자입니다. 데이터베이스에 CDC가 설정된 경우 열을 선택할 필요가 없습니다. 복사 작업에서 변경 내용을 자동으로 검색합니다.
- 스토리지: 복사 작업은 원본 스토리지에 있는 파일의 LastModifiedTime을 마지막 실행에 기록된 값과 비교합니다. 최신 타임스탬프가 있는 파일만 복사됩니다.
복사 작업의 CDC(변경 데이터 캡처)에 대한 자세한 내용을 참조하세요.
복사 작업이 실패하면 데이터 손실에 대해 걱정할 필요가 없습니다. 복사 작업은 항상 마지막으로 성공한 실행의 상태에서 다시 시작됩니다. 실패는 복사 작업으로 관리되는 상태를 변경하지 않습니다.
업데이트 메서드(추가, 덮어쓰기, 병합)
대상에 데이터를 기록하는 방법을 결정할 수도 있습니다.
기본적으로 복사 작업은 새 데이터를 추가 하므로 전체 기록을 유지합니다. 원하는 경우 병합 (키 열을 사용하여 기존 행 업데이트) 또는 덮어쓰기 (기존 데이터 바꾸기)를 선택할 수 있습니다. 병합을 선택하는 경우 복사 작업은 기본적으로 기본 키를 사용합니다(있는 경우).
- 데이터베이스로 복사할 때: 새 행이 테이블에 추가됩니다. 지원되는 데이터베이스의 경우 기존 데이터를 병합하거나 덮어쓰도록 선택할 수도 있습니다.
- 스토리지로 복사할 때: 새 데이터가 새 파일로 저장됩니다. 이름이 같은 파일이 이미 있는 경우 해당 파일이 바뀝니다.
원본에서 증분 복사본을 수행하고 대상으로 병합하는 경우 원본의 행이 대상에 삽입되거나 업데이트됩니다. 원본에서 CDC 복제를 수행하고 대상으로 병합하는 경우 원본의 행이 대상에 삽입, 업데이트 또는 삭제됩니다.
증분 복사 다시 설정
다음 실행에서 전체 복사본으로 다시 설정하는 기능을 포함하여 증분 복사본을 유연하게 관리할 수 있습니다. 이는 원본과 대상 간에 데이터 불일치가 있을 때 매우 유용합니다. 다음 실행에서 복사 작업에서 전체 복사본을 수행하여 문제를 해결한 다음 나중에 증분 업데이트를 계속하도록 할 수 있습니다.
전체 작업 또는 테이블당 증분 복사를 다시 설정하여 세분화된 제어를 제공할 수 있습니다. 예를 들어 더 큰 테이블에 영향을 주지 않고 더 작은 테이블을 다시 복사할 수 있습니다. 즉, 보다 스마트한 문제 해결, 중단 감소 및 보다 효율적인 데이터 이동을 의미합니다.
경우에 따라 복사 작업을 편집할 때(예: 원본 테이블의 증분 열 업데이트) 복사 작업은 다음 실행 시 증분 복사본을 전체 복사본으로 다시 설정합니다. 이렇게 하면 원본과 대상 간의 데이터 일관성이 보장됩니다.
실행 옵션(실행, 일정, 이벤트 트리거)
복사 작업이 실행되는 시기를 유연하게 결정할 수 있습니다. 한 번 또는 일정에 따라 실행할 수 있습니다. 작업이 예약된 경우에도 언제든지 실행을 클릭하여 수동으로 트리거할 수 있습니다. 증분 복사에서 수동으로 트리거된 작업은 마지막 실행 이후 변경 내용만 전송합니다.
복사 작업에서 여러 일정을 지원하면 더 큰 제어를 얻을 수 있습니다. 단일 복사 작업에는 여러 일정이 있을 수 있습니다(예: 매일 오전 6시에 실행되고 다른 하나는 일요일에 매주 실행). 모든 일정은 동일한 복사 작업 내에서 직접 관리할 수 있으므로 오케스트레이션이 더 간단하고 더 명확하며 효율적입니다.
파이프라인에서 복사 작업 작업을 사용하는 경우 파이프라인의 오케스트레이션 및 트리거 기능을 활용할 수도 있습니다. 예를 들어 데이터 레이크에 도착하는 새 파일이나 데이터베이스의 변경 내용과 같은 특정 이벤트가 발생할 때 이벤트 트리거 를 사용하여 복사 작업 작업을 시작할 수 있습니다.
복사 작업 작업에 대한 자세한 내용을 참조하세요.
호스팅 옵션(VNet, 온-프레미스, 클라우드)
복사 작업을 사용하여 데이터가 온-프레미스, 클라우드 또는 가상 네트워크 내에 있는지 여부에 관계없이 모든 원본에서 대상으로 데이터를 이동할 수 있습니다. 복사 작업의 연결 페이지에서 온-프레미스 게이트웨이 또는 VNet 게이트웨이를 비롯한 여러 호스트 옵션 중에서 선택하여 방화벽 뒤 또는 VNet 내에서 데이터에 안전하게 액세스할 수 있습니다.
복사 작업 및 Virtual Network 데이터 게이트웨이를 사용하여 데이터 이동을 보호하려면 자세한 내용을 참조하세요.
운영화(GIT/CICD, 변수 라이브러리)
소스 제어, 연속 통합, 지속적인 배포 및 공동 작업 환경을 사용하여 복사 작업으로 성공적인 데이터 분석 프로젝트를 실행할 수 있습니다.
또한 변수 라이브러리를 지원하면 복사 작업에서 연결을 매개 변수화할 수 있습니다. 이 강력한 기능은 연결 값을 외부화하여 CI/CD를 간소화하므로 변수 라이브러리가 각 단계에 올바른 연결을 삽입하는 동안 여러 환경에 동일한 복사 작업을 배포할 수 있습니다.
복사 작업에 대한 자세한 내용은 CI/CD를 참조하세요.
Observability
복사 작업을 모니터링하는 방법에 대한 자세한 내용을 참조하세요.
지역 가용성
복사 작업에는 패브릭과 동일한 지역 가용성이 있습니다.
가격 책정
가격 책정 복사 작업의 세부 정보를 가져올 수 있습니다.
지원되는 커넥터
복사 작업을 사용하면 클라우드 데이터 저장소 간 또는 방화벽 뒤에 있거나 게이트웨이를 사용하여 가상 네트워크 내부에 있는 온-프레미스 원본 간에 데이터를 이동할 수 있습니다. 복사 작업은 다음 데이터 저장소를 원본 또는 대상으로 지원합니다.
커넥터 | 출처 | 목적지 | 읽기 - 최대 부하 | 읽기 - 점진적 로딩(워터마크 기반) | 읽기 - CDC(미리 보기) | 쓰기 - 추가 | 쓰기 - 재정의 | 쓰기 - 병합 |
---|---|---|---|---|---|---|---|---|
Azure SQL DB | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
오라클 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
내부 설치형 SQL Server | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
직물 창고 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
패브릭 레이크하우스 테이블 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
패브릭 레이크하우스 파일 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Amazon S3 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Data Lake Storage Gen2 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Blob Storage (애저 블롭 스토리지) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure SQL 관리형 인스턴스 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
눈송이 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Synapse Analytics | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Data Explorer(아주르 데이터 탐색기) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure PostgreSQL | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Google 클라우드 Storage | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
MySQL | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure MySQL | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
PostgreSQL | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
패브릭의 SQL 데이터베이스(미리 보기) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Amazon S3 호환 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SAP HANA | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
ODBC (오픈 데이터베이스 연결) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SQL Server용 Amazon RDS | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Google BigQuery (구글의 대규모 데이터 분석 플랫폼) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Salesforce | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Salesforce 서비스 클라우드 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure 테이블 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Files | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SFTP | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
FTP | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
IBM Db2 데이터베이스 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
베르티카 (Vertica) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
ServiceNow | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Oracle Cloud Storage | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
MariaDB | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Dataverse | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Dynamics 365 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Dynamics CRM | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
NoSQL용 Azure Cosmos DB | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
HTTP | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure Cosmos DB MongoDB용 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
MongoDB 아틀라스 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Mongo DB | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
ODATA | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SharePoint Online 목록 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Dynamics AX | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Azure AI 검색 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
폴더 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Greenplum | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
REST | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SAP 테이블 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
SAP BW Open Hub | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Cassandra | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Informix | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Oracle용 Amazon RDS | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Microsoft Access | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
프레스토 | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
비고
현재 지원되는 원본 저장소에서 CDC 복제를 위해 복사 작업을 사용하는 경우 지원되는 대상 저장소에는 Azure SQL Database, 온-프레미스 SQL Server, Azure SQL Managed Instance, 패브릭의 SQL Database(미리 보기) 및 Snowflake가 포함됩니다.
패브릭 아이디어에 대한 피드백을 제출하고 Fabric 커뮤니티에서 대화에 참여하세요.