파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정을 사용하면 CSV, TSV 또는 JSON, Avro, Parquet 또는 텍스트 파일을 업로드하여 관리형 Delta Lake 테이블을 만들거나 덮어쓸 수 있습니다.
Unity 카탈로그 또는 Hive 메타스토어에서 관리되는 델타 테이블을 만들 수 있습니다.
참고 항목
또한 을(를) 사용하여 데이터 UI 추가 또는 COPY INTO를 통해 클라우드 스토리지에서 파일을 로드할 수 있습니다.
중요합니다
- 대상 스키마에서 테이블을 만들려면 실행 중인 컴퓨팅 리소스 및 권한에 액세스할 수 있어야 합니다.
- 작업 영역 관리자는 파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정을 사용하지 않도록 설정할 수 있습니다.
로컬 컴퓨터에서 작은 CSV, TSV, JSON, Avro, Parquet 또는 텍스트 파일을 가져와서 UI를 사용하여 델타 테이블을 만들 수 있습니다.
- 파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 한 번에 최대 10개의 파일 업로드를 지원합니다.
- 업로드된 파일의 총 크기는 2GB 미만이어야 합니다.
- 파일은 CSV, TSV, JSON, Avro, Parquet 또는 텍스트 파일이어야 하며 확장명이 ".csv", ".tsv"(또는 ".tab"), ".json", ".avro", ".parquet" 또는 ".txt"이어야 합니다.
- 압축된 파일(예:
zip
및tar
파일)은 지원되지 않습니다.
파일 업로드
-
새로 > 추가 또는 데이터 업로드를 클릭합니다.
- 테이블 만들기 또는 수정을 클릭합니다.
- 탐색 버튼을 클릭하거나 파일을 드롭 영역에 끌어다 놓으세요.
참고 항목
가져온 파일은 매일 가비지가 수집되는 계정 내의 안전한 내부 위치에 업로드됩니다.
테이블 미리 보기, 구성 및 만들기
컴퓨팅 리소스에 연결하지 않고 준비 영역에 데이터를 업로드할 수 있지만 테이블을 미리 보고 구성하려면 활성 컴퓨팅 리소스를 선택해야 합니다. 파일 업로드 UI는 SQL 웨어하우스, 서버리스 컴퓨팅 및 전용 컴퓨팅을 지원합니다. 그룹 클러스터는 지원되지 않습니다.
업로드된 테이블에 대한 옵션을 구성할 때 데이터의 50개 행을 미리 볼 수 있습니다. 파일 이름 아래의 표 또는 목록 단추를 클릭하여 데이터 프레젠테이션을 전환합니다.
Azure Databricks는 포함된 스키마에 대해 구성된 위치에 관리 테이블의 데이터 파일을 저장합니다. 스키마에서 테이블을 만들려면 적절한 권한이 필요합니다.
다음을 수행하여 테이블을 만들 원하는 스키마를 선택합니다.
- (Unity 카탈로그 사용 작업 영역에만 해당) 카탈로그 또는 레거시
hive_metastore
를 선택할 수 있습니다. - 스키마를 선택합니다.
- (선택 사항) 테이블 이름을 편집합니다.
참고 항목
드롭다운을 사용하여 기존 테이블 덮어쓰기 또는 새 테이블 만들기를 선택할 수 있습니다. 이름이 충돌하는 새 테이블을 만들려는 작업에는 오류 메시지가 표시됩니다.
테이블을 만들기 전에 옵션 또는 열을 구성할 수 있습니다.
테이블을 만들려면 페이지 아래쪽에서 만들기를 클릭합니다.
형식 옵션
형식 옵션은 업로드하는 파일 형식에 따라 달라집니다. 일반 서식 옵션은 헤더 표시줄에 표시되고, 덜 일반적으로 사용되는 옵션은 고급 특성 대화 상자에서 사용할 수 있습니다.
- CSV의 경우 다음 옵션을 사용할 수 있습니다.
- 첫 번째 행에 헤더 포함(기본적으로 사용): 이 옵션은 CSV/TSV 파일에 헤더가 포함되어 있는지 여부를 지정합니다.
- 열 구분 기호: 열 사이의 구분 기호 문자입니다. 단일 문자만 허용되며 백슬래시는 지원되지 않습니다. 기본적으로 CSV 파일의 경우 쉼표로 설정됩니다.
-
열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이
STRING
으로 유추됩니다. - 행이 여러 줄에 걸쳐 작성됩니다 (기본적으로 비활성화됨): 열의 값이 파일에서 여러 줄에 걸쳐 있을 수 있는지 여부입니다.
- 여러 파일에 스키마를 병합합니다. 여러 파일에서 스키마를 유추하고 각 파일의 스키마를 병합할지 여부입니다. 사용하지 않도록 설정하면 한 파일의 스키마가 사용됩니다.
- JSON의 경우 다음 옵션을 사용할 수 있습니다.
-
열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이
STRING
으로 유추됩니다. - 행이 여러 줄에 걸치도록 설정 (기본값 사용): 열의 값이 파일 내에서 여러 줄에 걸쳐 있을 수 있는지 여부입니다.
- 메모 허용 (기본적으로 사용): 파일에 메모가 허용되는지 여부입니다.
- 작은따옴표 허용(기본적으로 사용): 파일에서 작은따옴표가 허용되는지 여부입니다.
-
타임스탬프 유추(기본적으로 사용): 타임스탬프 문자열을 로 유추할지 여부입니다
TimestampType
.
-
열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이
- JSON의 경우 다음 옵션을 사용할 수 있습니다.
-
열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이
STRING
으로 유추됩니다. - 행이 여러 줄에 걸쳐 작성됩니다 (기본적으로 비활성화됨): 열의 값이 파일에서 여러 줄에 걸쳐 있을 수 있는지 여부입니다.
- 주석을 허용합니다. 파일에 메모가 허용되는지 여부입니다.
- 작은따옴표 허용: 파일에서 작은따옴표가 허용되는지 여부입니다.
-
타임스탬프 유추: 타임스탬프 문자열을 .로
TimestampType
유추할지 여부
-
열 형식 자동 검색(기본적으로 사용): 파일 콘텐츠에서 열 형식을 자동으로 검색합니다. 미리 보기 테이블에서 형식을 편집할 수 있습니다. false로 설정하면 모든 열 형식이
데이터 미리 보기는 서식 옵션을 편집할 때 자동으로 업데이트됩니다.
참고 항목
여러 파일을 업로드하면 다음 규칙이 적용됩니다.
- 헤더 설정은 모든 파일에 적용됩니다. 데이터 손실을 방지하기 위해 업로드된 모든 파일에 헤더가 일관되게 없거나 있는지 확인합니다.
- 업로드된 파일은 모든 데이터를 대상 테이블의 행으로 추가하여 결합합니다. 파일 업로드 중에 레코드 조인 또는 병합은 지원되지 않습니다.
열 이름 및 형식
열 이름 및 형식을 편집할 수 있습니다.
형식을 편집하려면 형식이 있는 아이콘을 클릭합니다.
참고 항목
STRUCT
또는ARRAY
에 대한 중첩 유형을 편집할 수 없습니다.열 이름을 편집하려면 열 맨 위에 있는 입력 상자를 클릭합니다.
열 이름은 쉼표, 백슬래시 또는 유니코드 문자(예: 이모지)를 지원하지 않습니다.
열 데이터 형식은 기본적으로 CSV 및 JSON 파일에 대해 유추됩니다.
STRING
>을 비활성화하여 모든 열을 형식으로 해석할 수 있습니다.
참고 항목
- 스키마 유추는 열 형식을 가장 잘 검색합니다. 열 형식을 변경하면 값을 대상 데이터 형식으로 올바르게 캐스팅할 수 없는 경우 일부 값이
NULL
로 캐스팅될 수 있습니다.BIGINT
를DATE
또는TIMESTAMP
열로 캐스팅하는 것은 지원되지 않습니다. Databricks에서는 먼저 테이블을 만든 다음, 나중에 SQL 함수를 사용하여 이러한 열을 변환하는 것이 좋습니다. - 특수 문자를 사용하여 테이블 열 이름을 지원하기 위해 파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 열 매핑을 활용합니다.
- 열에 주석을 추가하려면 테이블을 만들고 카탈로그 탐색기로 이동하여 주석을 추가할 수 있습니다.
지원되는 데이터 형식
파일 업로드 페이지를 사용하여 테이블 만들기 또는 수정은 다음 데이터 형식을 지원합니다. 개별 데이터 형식에 대한 자세한 정보는 SQL 데이터 형식을 참조하세요.
데이터 형식 | 설명 |
---|---|
BIGINT |
8바이트의 부호 있는 정수입니다. |
BOOLEAN |
부울(true , false ) 값입니다. |
DATE |
표준 시간대 없이 년, 월, 일 필드 값으로 구성된 값입니다. |
DOUBLE |
8바이트의 배정밀도 부동 소수점 숫자입니다. |
STRING |
문자 문자열 값입니다. |
TIMESTAMP |
세션 현지 표준 시간대가 있는 년, 월, 일, 시간, 분 및 초 필드의 값으로 구성된 값입니다. |
STRUCT |
필드 시퀀스에서 설명하는 구조가 있는 값입니다. |
ARRAY |
형식이 있는 요소 시퀀스로 구성된 값elementType ; |
DECIMAL(P,S) |
최대 정밀도 P 와 고정 스케일 S 를 갖는 숫자입니다. |
알려진 문제
BIGINT
를 'yyyy' 형식의 날짜처럼 DATE
와 같은 캐스팅할 수 없는 형식으로 캐스팅하면 오류가 발생할 수 있습니다.