이 문서에서는 Microsoft Fabric의 Data Factory 파이프라인에서 Parquet 형식을 구성하는 방법을 간략하게 설명합니다.
지원되는 기능
Parquet 형식은 원본 및 목적지로서 다음 작업과 커넥터에 대해 지원됩니다.
복사 작업의 Parquet 형식
Parquet 형식을 구성하려면 파이프라인 복사 작업의 원본 또는 대상에서 연결을 선택한 다음 파일 형식의 드롭다운 목록에서 Parquet을 선택합니다. 이 형식을 추가로 구성하려면 설정을 선택하세요.
Parquet 형식이 원본인 경우
파일 형식 섹션에서 설정을 선택하면 다음 속성이 팝업 파일 형식 설정 대화 상자에 표시됩니다.
- 압축 유형: 드롭다운 목록에서 Parquet 파일을 읽는 데 사용되는 압축 코덱을 선택합니다. 없음, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) 또는 lz4hadoop 중에서 선택할 수 있습니다.
Parquet 형식이 목적지인 경우
설정을 선택하면 다음 속성이 팝업 파일 형식 설정 대화 상자에 표시됩니다.
압축 유형: 드롭다운 목록에서 Parquet 파일을 쓰는 데 사용되는 압축 코덱을 선택합니다. 없음, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) 또는 lz4hadoop 중에서 선택할 수 있습니다.
V-Order 사용: parquet 파일 형식에 대한 쓰기 시간 최적화를 사용합니다. 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요. 기본적으로 사용하도록 설정되어 있습니다.
목적지 탭의 고급 설정에서 다음과 같은 Parquet 형식 관련 속성이 표시됩니다.
- 파일당 최대 행 수: 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰려고 하는 최대 행 수를 지정합니다.
-
파일 이름 접두사: 파일당 최대 행 수가 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은
<fileNamePrefix>_00000.<fileExtension>
입니다. 지정하지 않으면 파일 이름 접두사가 자동으로 생성됩니다. 원본인 파일 기반 저장소이거나 파티션 옵션이 활성화된 데이터 저장소인 경우 이 속성은 적용되지 않습니다.
지도 작성
매핑 탭 구성의 경우 Parquet 형식을 대상 데이터 저장소로 적용하지 않으면 매핑으로 이동합니다.
대상 데이터 형식 편집
매핑의 구성을 제외하고 Parquet 형식으로 대상 커넥터에 데이터를 복사하는 경우 고급 Parquet 형식 설정을 사용하도록 설정한 후 특정 대상 열 형식을 지정할 수 있습니다. 또한 IsNullable 옵션을 구성하여 각 Parquet 대상 열에서 null 값을 허용하는지 여부를 지정할 수 있습니다. IsNullable의 기본값은 .입니다 true
.
다음 매핑은 서비스에서 내부적으로 편집할 수 있도록 지원되는 중간 데이터 형식에서 Parquet 데이터 형식으로 사용됩니다.
중간 서비스 데이터 형식 | Parquet 논리 형식 | Parquet 물리적 형식 |
---|---|---|
DateTime | 옵션 1: null 옵션 2: 타임스탬프 |
옵션 1: INT96(기본값) 옵션 2: INT64(단위: MILLIS, MICROS, NANOS(기본값) |
DateTimeOffset | 옵션 1: null 옵션 2: 타임스탬프 |
옵션 1: INT96(기본값) 옵션 2: INT64(단위: MILLIS, MICROS, NANOS(기본값) |
TimeSpan | TIME | INT32(단위: MILLIS) INT64(단위: MICROS, NANOS(기본값) |
Decimal | 십진법 | INT32(1 <= precision <= 9) INT64(9 < 정밀도 <= 18) FIXED_LEN_BYTE_ARRAY(전체 자릿수 > 18)(기본값) |
GUID | 옵션 1: STRING 옵션 2: UUID |
옵션 1: BYTE_ARRAY(기본값) 옵션 2: 고정 길이 바이트 배열 (FIXED_LEN_BYTE_ARRAY) |
바이트 배열 | null | BYTE_ARRAY(기본값) 또는 FIXED_LEN_BYTE_ARRAY |
예를 들어 원본의 decimalData 열에 대한 형식은 중간 서비스 형식인 10진수로 변환됩니다. 위의 매핑 테이블에 따르면 대상 열의 매핑된 형식은 지정된 정밀도에 따라 자동으로 결정됩니다. 정밀도가 9 이하이면 INT32에 매핑됩니다. 정밀도 값이 9 초과 18 이하일 경우, INT64로 매핑됩니다. 전체 자릿수 정밀도가 18을 초과하면 FIXED_LEN_BYTE_ARRAY로 매핑됩니다.
Parquet에 대한 데이터 형식 매핑
Parquet 형식의 원본 커넥터에서 데이터를 복사할 때 Parquet 데이터 형식에서 서비스에서 내부적으로 사용하는 중간 데이터 형식으로 다음 매핑이 사용됩니다.
Parquet 논리 형식 | Parquet 물리적 형식 | 중간 서비스 데이터 형식 |
---|---|---|
null | BOOLEAN | 불리언 (Boolean) |
INT(8, 참) | INT32 | SByte |
INT(8, false) | INT32 | 바이트 |
INT(16, true) | INT32 | Int16 |
INT(16, false) | INT32 | UInt16 |
INT(32, true) | INT32 | Int32 |
INT(32, 거짓) | INT32 | UInt32 |
INT(64, true) | INT64 | Int64 |
INT(64, false) | INT64 | UInt64 |
null | FLOAT | Single |
null | 배 | Double |
십진법 | INT32, INT64, FIXED_LEN_BYTE_ARRAY 또는 BYTE_ARRAY | Decimal |
DATE | INT32 | 날짜 |
TIME | INT32 또는 INT64 | DateTime |
TIMESTAMP | INT64 | DateTime |
열거형 | BYTE_ARRAY | String |
UUID | FIXED_LEN_BYTE_ARRAY | GUID |
null | BYTE_ARRAY | 바이트 배열 |
STRING | BYTE_ARRAY | String |
Parquet 형식으로 대상 커넥터에 데이터를 복사할 때 서비스에서 내부적으로 사용하는 중간 데이터 형식에서 Parquet 데이터 형식으로 다음 매핑이 사용됩니다.
중간 서비스 데이터 형식 | Parquet 논리 형식 | Parquet 물리적 형식 |
---|---|---|
불리언 (Boolean) | null | BOOLEAN |
SByte | INT | INT32 |
바이트 | INT | INT32 |
Int16 | INT | INT32 |
UInt16 | INT | INT32 |
Int32 | INT | INT32 |
UInt32 | INT | INT32 |
Int64 | INT | INT64 |
UInt64 | INT | INT64 |
Single | null | FLOAT |
Double | null | 배 |
DateTime | null | INT96 |
DateTimeOffset | null | INT96 |
날짜 | DATE | INT32 |
TimeSpan | TIME | INT64 |
Decimal | 십진법 | INT32, INT64 또는 FIXED_LEN_BYTE_ARRAY |
GUID | STRING | BYTE_ARRAY |
String | STRING | BYTE_ARRAY |
바이트 배열 | null | BYTE_ARRAY |
테이블 요약
Parquet을 원본으로
Parquet 형식을 사용할 때 복사 작업 원본 섹션에서 지원되는 속성은 다음과 같습니다.
속성 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용하려는 파일 형식입니다. | Parquet | 예 | 유형(datasetSettings 에서):Parquet |
압축 유형 | Parquet 파일을 읽는 데 사용되는 압축 코덱입니다. | 이름을 없음 gzip(.gz) snappy lzo 브로틀리 (.br) Zstandard lz4 lz4frame bzip2(.bz2) lz4hadoop |
아니요 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet이 원본인 경우
Parquet 형식을 사용할 때 복사 작업 목적지 섹션에서 다음 속성이 지원됩니다.
속성 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용하려는 파일 형식입니다. | Parquet | 예 | 유형(datasetSettings 에서):Parquet |
V-Order 사용 | parquet 파일 형식에 대한 쓰기 시간 최적화입니다. | 선택됨 또는 선택 해제됨 | 아니요 | enableVertiParquet |
압축 유형 | Parquet 파일을 쓰는 데 사용되는 압축 코덱입니다. | 이름을 없음 gzip(.gz) snappy lzo 브로틀리 (.br) Zstandard lz4 lz4frame bzip2(.bz2) lz4hadoop |
아니요 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
파일당 최대 행 수 | 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰려고 하는 최대 행 수를 지정합니다. | <파일당 최대 행 수> | 아니요 | maxRowsPerFile |
파일 이름 접두사 |
파일당 최대 행 수가 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension> 입니다. 지정하지 않으면 파일 이름 접두사가 자동으로 생성됩니다. 원본인 파일 기반 저장소이거나 파티션 옵션이 활성화된 데이터 저장소인 경우 이 속성은 적용되지 않습니다. |
<파일 이름 접두사> | 아니요 | fileNamePrefix |