다음을 통해 공유


데이터 원본 및 외부 서비스에 연결

이 페이지에서는 Azure Databricks와 외부 데이터 원본 및 서비스 간의 연결을 구성하는 관리자 및 전원 사용자에 대한 권장 사항을 제공합니다.

Azure Databricks 계정을 클라우드 개체 스토리지, 관계형 데이터베이스 관리 시스템, 스트리밍 데이터 서비스 및 CRM과 같은 엔터프라이즈 플랫폼과 같은 데이터 원본에 연결할 수 있습니다. Azure Databricks 계정을 비 스토리지 외부 서비스에 연결할 수도 있습니다.

개체 스토리지에 대한 연결 구성

Azure Databricks 워크로드에서 사용하는 대부분의 데이터는 Azure Data Lake Storage 또는 AWS S3와 같은 클라우드 개체 스토리지에 저장됩니다. 다음 중 하나를 사용하여 클라우드 개체 스토리지에 대한 액세스를 관리할 수 있습니다.

외부 데이터 시스템에 대한 연결 구성

Databricks는 외부 데이터 시스템에 대한 연결을 구성하기 위한 몇 가지 옵션을 제공합니다. 다음 표에서는 이러한 옵션에 대한 개략적인 개요를 제공합니다.

Option Description
쿼리 페더레이션 커넥터 Lakehouse Federation은 엔터프라이즈 데이터 시스템의 데이터에 대한 읽기 전용 액세스를 제공합니다. 쿼리 페더레이션 은 보안 JDBC 연결을 사용하여 PostgreSQL 및 MySQL과 같은 외부 데이터 시스템에 페더레이션합니다. 카탈로그 페더레이션 은 Hive Metastore, AWS Glue 또는 Snowflake Horizon Catalog와 같은 외부 카탈로그를 연결하여 파일 스토리지에서 직접 데이터를 쿼리합니다.
관리되는 수집 커넥터 Lakeflow Connect를 사용하면 관리자 사용자가 데이터 수집 UI에서 동시에 연결 및 관리되는 수집 파이프라인을 만들 수 있습니다. Lakeflow Connect에서 관리되는 커넥터를 참조하세요.
파이프라인을 만들 사용자가 관리자가 아닌 사용자이거나 Databricks API, Databricks SDK, Databricks CLI 또는 Databricks 자산 번들을 사용하려는 경우 관리자는 먼저 카탈로그 탐색기에서 연결을 만들어야 합니다. 이러한 인터페이스를 사용하려면 사용자가 파이프라인을 만들 때 기존 연결을 지정해야 합니다. 관리되는 수집 소스에 대한 연결을 참조하세요.
Streaming connectors Azure Databricks는 많은 스트리밍 데이터 시스템에 최적화된 커넥터를 제공합니다.
모든 스트리밍 데이터 원본의 경우 액세스를 제공하는 자격 증명을 생성하고 이러한 자격 증명을 Azure Databricks에 로드해야 합니다. 모든 구성 옵션 및 모든 액세스 모드에서 비밀을 사용할 수 있으므로 Databricks는 비밀을 사용하여 자격 증명을 저장하는 것이 좋습니다.
스트리밍 원본에 대한 모든 데이터 커넥터는 스트리밍 쿼리를 정의할 때 옵션을 사용하여 자격 증명 전달을 지원합니다. Lakeflow Connect의 표준 커넥터를 참조하세요.
Third-party integrations 타사 도구를 사용하여 외부 데이터 원본에 연결하고 레이크하우스로의 데이터 수집 과정을 자동화합니다. 일부 솔루션에는 역방향 ETL 및 외부 시스템의 Lakehouse 데이터에 대한 직접 액세스도 포함됩니다. Databricks 파트너 연결이란?을 참조하세요.
Drivers Azure Databricks에는 각 Databricks 런타임에 외부 데이터 시스템용 드라이버가 포함되어 있습니다. 필요에 따라 타사 드라이버를 설치하여 다른 시스템의 데이터에 액세스할 수 있습니다. 각 테이블에 대한 연결을 구성해야 합니다. 일부 드라이버에는 쓰기 액세스가 포함됩니다. 외부 시스템에 대한 연결을 참조하세요.
읽기 전용 쿼리 페더레이션의 경우에는 이러한 드라이버보다 항상 Lakehouse 페더레이션이 선호됩니다.
JDBC 네이티브 JDBC 지원을 기반으로 하는 외부 시스템용 드라이버가 몇 가지 포함되어 있으며, JDBC 옵션은 다른 시스템에 대한 연결을 구성하기 위한 확장 가능한 옵션을 제공합니다. 각 테이블에 대한 연결을 구성해야 합니다. JDBC를 사용하여 데이터베이스 쿼리를 참조하세요.
읽기 전용 쿼리 페더레이션의 경우에는 이러한 드라이버보다 항상 Lakehouse 페더레이션이 선호됩니다.

외부 서비스에 대한 연결 구성

Unity 카탈로그는 서비스 자격 증명이라는 보안 개체를 사용하여 스토리지가 아닌 서비스에 대한 액세스를 제어합니다. 서비스 자격 증명은 사용자가 Azure Databricks에서 연결해야 하는 외부 서비스에 대한 액세스를 제공하는 장기 클라우드 자격 증명을 캡슐화합니다. Unity 카탈로그를 사용하여 외부 클라우드 서비스에 연결 참조

데이터 원본 및 외부 서비스에 대한 액세스 관리 및 요청

대부분의 연결 방법에는 외부 데이터 원본 또는 서비스 및 Azure Databricks 작업 영역 모두에서 상승된 권한이 필요합니다. 일반적인 조직에서는 Azure Databricks 또는 외부 데이터 및 스토리지 공급자에서 데이터 연결을 직접 구성할 수 있는 충분한 권한이 있는 사용자는 거의 없습니다.

조직에서 이 페이지에서 연결된 문서에 설명된 패턴 중 하나를 사용하여 데이터 원본 또는 서비스에 대한 액세스를 이미 구성했을 수 있습니다. 조직에 데이터 및 타사 서비스에 대한 액세스를 요청하는 잘 정의된 프로세스가 있는 경우 Databricks는 해당 프로세스를 따르는 것이 좋습니다. 데이터 원본에 액세스하는 방법을 잘 모르는 경우 이 절차를 통해 다음을 수행할 수 있습니다.

  1. 카탈로그 탐색기를 사용하여 액세스할 수 있는 테이블 및 볼륨을 볼 수 있습니다. 카탈로그 탐색기란?을 참조하세요.
  2. 팀 동료 또는 관리자에게 액세스할 수 있는 데이터 원본에 대해 문의하세요.
    • 대부분의 조직에서는 ID 공급자(예: Okta 또는 Microsoft Entra ID)에서 동기화된 그룹을 사용하여 작업 영역 사용자에 대한 권한을 관리합니다. 팀의 다른 구성원이 액세스해야 하는 데이터 원본에 액세스할 수 있는 경우 작업 영역 관리자가 액세스 권한을 부여할 올바른 그룹에 추가하도록 합니다.
    • 동료가 특정 테이블, 볼륨 또는 데이터 원본을 구성한 경우 해당 개인이 데이터에 대한 액세스 권한을 부여할 수 있어야 합니다.

일부 조직에서는 특정 컴퓨팅 클러스터 및 SQL 웨어하우스에 데이터 액세스 권한을 연결합니다. 레거시 거버넌스 모델이지만 조직에서 이를 사용하고 특정 컴퓨팅 리소스에서 사용할 수 있는 데이터 원본을 알아보려면 컴퓨팅 탭에 나열된 컴퓨팅 작성자에 문의하세요.