Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página fornece recomendações para administradores e usuários avançados que estão configurando conexões entre o Azure Databricks e fontes de dados e serviços externos.
Você pode conectar sua conta do Azure Databricks a fontes de dados, como armazenamento de objetos na nuvem, sistemas de gerenciamento de banco de dados relacional, serviços de streaming de dados e plataformas corporativas, como CRMs. Você também pode conectar sua conta do Azure Databricks a serviços externos que não sejam de armazenamento.
Configurar conexões com o armazenamento de objetos
A maioria dos dados usados pelas cargas de trabalho do Azure Databricks é armazenada no armazenamento de objetos na nuvem, como o Azure Data Lake Storage ou o AWS S3. Você pode gerenciar o acesso ao armazenamento de objetos na nuvem usando uma das seguintes opções:
Unity Catalog (recomendado), que fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos em nuvem. Consulte Conectar-se ao armazenamento de objetos na nuvem usando o Unity Catalog.
Conectores herdados e padrões de conexão. Consulte Configurar o acesso ao armazenamento de objetos na nuvem para o Azure Databricks usando padrões herdados.
Configurar conexões com sistemas de dados externos
O Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:
Option | Description |
---|---|
Conectores de federação de consulta | A Lakehouse Federation fornece acesso somente leitura a dados em sistemas de dados corporativos. A federação de consultas usa conexões JDBC seguras para federar a sistemas de dados externos, como PostgreSQL e MySQL. A federação de catálogos conecta catálogos externos, como um Hive Metastore ou o Snowflake Horizon Catalog, para consultar dados diretamente no armazenamento de arquivos. |
Conectores de ingestão gerenciados | O Lakeflow Connect permite que os usuários administradores criem uma conexão e um pipeline de ingestão gerenciado ao mesmo tempo na interface do usuário de ingestão de dados. Consulte Conectores gerenciados no Lakeflow Connect. Se os usuários que criarão pipelines forem usuários não administradores ou planejarem usar APIs do Databricks, SDKs do Databricks, a CLI do Databricks ou o Databricks Asset Bundles, um administrador deverá primeiro criar a conexão no Gerenciador de Catálogos. Essas interfaces exigem que os usuários especifiquem uma conexão existente quando criam um pipeline. Consulte Conectar-se a fontes de ingestão gerenciadas. |
Conectores de streaming | O Azure Databricks fornece conectores otimizados para muitos sistemas de streaming de dados. Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregue essas credenciais no Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso. Todos os conectores de dados para fontes de streaming oferecem suporte à passagem de credenciais usando opções quando você define consultas de streaming. Consulte Conectores padrão no Lakeflow Connect. |
Integrações de terceiros | Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados para o lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect?. |
Drivers | O Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Ligar a sistemas externos. Para federação de consultas somente leitura, a Lakehouse Federation é sempre preferida em relação a esses drivers. |
JDBC | Vários drivers incluídos para sistemas externos se baseiam no suporte nativo a JDBC, e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte Consultar bancos de dados usando JDBC. Para federação de consultas somente leitura, a Lakehouse Federation é sempre preferida em relação a esses drivers. |
Configurar conexões com serviços externos
O Unity Catalog controla o acesso a serviços que não são de armazenamento usando um objeto protegível chamado credencial de serviço. Uma credencial de serviço encapsula uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo ao qual os usuários precisam se conectar a partir do Azure Databricks. Consulte Ligar-se a serviços externos de nuvem usando o Catálogo Unity
Gerenciar e solicitar acesso a fontes de dados e serviços externos
A maioria dos métodos de conexão requer privilégios elevados na fonte de dados ou serviço externo e no espaço de trabalho do Azure Databricks. Em organizações típicas, poucos usuários têm privilégios suficientes no Azure Databricks ou em provedores externos de dados e armazenamento para configurar as próprias conexões de dados.
Sua organização pode já ter configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a partir desta página. Se sua organização tem um processo bem definido para solicitar acesso a dados e serviços de terceiros, a Databricks recomenda seguir esse processo. Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudar:
- Use o Gerenciador de Catálogos para exibir as tabelas e volumes que você pode acessar. Consulte O que é o Catalog Explorer?.
- Pergunte aos seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.
- A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar permissões para usuários do espaço de trabalho. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa acessar, peça a um administrador do espaço de trabalho que o adicione ao grupo correto para conceder acesso.
- Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colega de trabalho, essa pessoa deverá ser capaz de conceder acesso aos dados.
Algumas organizações anexam permissões de acesso a dados a clusters de computação específicos e armazéns SQL. Este é um modelo de governança herdado, mas se sua organização o usa e você deseja saber quais fontes de dados estão disponíveis em um recurso de computação específico, entre em contato com o criador de computação listado na guia Computação .