다음을 통해 공유


Databricks Clean Rooms에서 출력 테이블 만들기 및 작업

이 페이지에서는 Notebook 실행에서 생성되고 Notebook 실행기 Unity 카탈로그 메타스토어에 공유되는 임시 읽기 전용 테이블인 출력 테이블을 소개합니다. 이 문서에서는 Notebook을 사용하여 출력 테이블을 만드는 방법과 실행자가 Unity 카탈로그 메타스토어에서 이러한 출력 테이블을 읽는 방법을 설명합니다.

출력 테이블 개요

출력 테이블을 사용하면 클린룸에서 실행되는 Notebook의 출력을 Unity 카탈로그 메타스토어의 출력 카탈로그에 임시로 저장할 수 있습니다. 여기서 Notebook 자체를 실행할 수 없는 팀 구성원이 데이터를 사용할 수 있도록 할 수 있습니다. Lakeflow 작업을 사용하여 노트북을 실행하고 출력 테이블에 대한 작업을 수행할 수도 있습니다. 클린룸 전자 필기장 작업 유형 및 작업 값에 대한 지원과 함께 출력 테이블을 사용하면 회의실 정리 전자 필기장에 의존하는 복잡한 워크플로를 만들 수 있습니다.

출력 테이블은 읽기 전용입니다.

Notebook을 실행하는 특정한 보안 주체(사용자, 그룹, 또는 서비스 주체)만 출력 테이블에 대한 기본 읽기 권한을 갖습니다. 쓰기 권한이 없습니다. 메타스토어 관리자는 Azure Databricks 계정의 다른 사용자에게 표준 Unity Catalog 권한 설정을 사용하여 읽기 권한을 부여할 수 있습니다.

출력 테이블은 중앙 클린룸의 기본 스토리지 위치에 30일 동안 저장되고 델타 공유를 사용하여 실행기 메타스토어에 공유됩니다. 출력 테이블을 30일 이상 유지하려면 로컬 스토리지에 복사해야 합니다.

각 Notebook 실행은 출력 카탈로그에 새 스키마를 만듭니다. 새 실행은 기존 출력 테이블을 추가할 수 없습니다.

메모

세 가지 클라우드 서비스(AWS, Azure 및 Google Cloud)에 걸쳐 Databricks에서 협업하는 사용자는 노트북을 공유할 수 있으며, 이 노트북을 실행하면서 생성된 출력 테이블을 읽을 수 있습니다.

출력 테이블 만들기

출력 테이블을 만들려면 세 부분으로 구성된 네임스페이스 테이블에서 cr_output_catalogcr_output_schema 매개 변수를 사용합니다. Notebook을 실행할 때마다 새 스키마가 생성됩니다.

다음 예제에서 Notebook 셀은 실행기 출력 카탈로그에서 overlapping_users라는 이름의 출력 테이블을 생성합니다. 이 테이블에는 이메일 주소가 collaborator.advertiser.profilescreator.publisher.profiles 테이블에 모두 표시되는 사용자가 나열됩니다.

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

출력 테이블 읽기

출력 테이블은 Notebook 실행기 메타스토어의 공유 카탈로그에 표시됩니다. 카탈로그 탐색기 카탈로그 창의 공유 카탈로그 목록에 표시됩니다.

출력 테이블을 읽는 것은 Unity 카탈로그의 다른 테이블을 읽는 것과 같습니다. 테이블에 SELECT, 공유 출력 카탈로그에서 USE CATALOG, 자동으로 생성된 스키마에 USE SCHEMA 있어야 합니다. 테이블을 만든 Notebook을 실행한 사용자에게는 기본적으로 이러한 권한이 있습니다.

메모

클린룸을 삭제하면 출력 카탈로그에서 모든 출력 테이블과 기록 데이터가 제거됩니다.

시작하기 전에

이 섹션에서는 출력 테이블을 읽기 위한 클라우드, 구성 및 컴퓨팅 요구 사항에 대해 설명합니다.

공유 출력 카탈로그 요구 사항

출력 테이블을 읽으려면 먼저 사용자가 출력 테이블을 보관하는 카탈로그를 만들어야 합니다. 클린룸당 한 번만 이 작업을 수행해야 합니다. 클린룸의 소유자는 기본적으로 출력 카탈로그를 읽고 관리할 수 있는 권한이 있습니다.

필요한 권한: EXECUTE CLEAN ROOM TASK

  1. Azure Databricks 작업 영역에서 데이터 아이콘을 클릭합니다.카탈로그.
  2. 빠른 액세스 페이지에서 클린 룸> 버튼을 클릭하세요.
  3. 목록에서 클린룸을 선택합니다.
  4. 오른쪽 창의 출력아래에서 카탈로그만들기를 클릭합니다.
  5. 출력 카탈로그 이름 입력하거나 <clean-room-name>_output기본값을 적용합니다.

출력 카탈로그는 카탈로그 탐색기 카탈로그 창의 공유 카탈로그 목록에 표시됩니다. 참여하는 각 클린룸에는 메타스토어에 하나의 공유 출력 카탈로그가 있을 수 있습니다.

컴퓨팅 요구 사항

출력 테이블에 대한 쿼리에는 서버리스 컴퓨팅이 필요합니다. 서버리스 컴퓨팅에 연결을 참조하세요.

출력 테이블을 읽는 데 필요한 권한

출력 테이블을 만든 Notebook을 실행한 사용자와 클린룸의 소유자는 기본적으로 출력 테이블을 읽고 관리할 수 있는 권한이 있습니다. 다른 모든 사용자에게는 다음 권한이 부여되어야 합니다.

  • 테이블 위의 SELECT
  • 출력 카탈로그의 USE CATALOG
  • 출력 스키마의 USE SCHEMA

노트북 실행

출력 카탈로그에서 공유 출력 테이블을 생성하려면 클린룸에 액세스할 수 있는 사용자가 Notebook을 실행해야 합니다. 클린룸에서 노트북 실행하기를 참조하세요. 각 Notebook 실행은 새 출력 스키마와 테이블을 만듭니다.

Lakeflow Jobs를 사용하여 노트북을 실행하고 출력 테이블에서 작업을 수행하여 복잡한 워크플로를 구현할 수 있습니다. Clean Room Notebook을 실행하려면 Lakeflow 작업 사용을 참조하세요.

출력 테이블 찾기 및 보기

출력 테이블을 만드는 Notebook을 실행하는 사용자는 Notebook 실행 기록의 출력 테이블에 대한 링크를 찾고 Clean Rooms UI에서 세부 정보 페이지를 실행할 수 있습니다. 두 경우 모두 링크는 출력 스키마 필드에 있습니다. 클린룸 전자 필기장 실행 모니터링을 참조하세요.

실행 기록:

실행 기록 출력 스키마 링크

실행 세부 정보:

실행 세부 정보에서 출력 스키마 링크

카탈로그 탐색기 카탈로그 창에서 공유 카탈로그 목록에서 출력 카탈로그를 찾을 수도 있습니다.

제한 사항

출력 테이블개요에 나열된 요구 사항 외에도시작하기 전에 출력 테이블에는 다음과 같은 제한 사항이 있습니다.

  • 출력 테이블은 출력 테이블 기능이 릴리스된 후에 클린룸을 만든 경우에만 지원됩니다.
  • 테이블만 지원됩니다. 예를 들어 볼륨과 뷰는 그렇지 않습니다.
  • 각 Notebook에서 지원할 수 있는 출력 테이블 수는 제한됩니다. 리소스 한도를 참조하세요.