Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página fornece recomendações para administradores e usuários de energia que estão configurando conexões entre o Azure Databricks e fontes de dados e serviços externos.
Você pode conectar sua conta do Azure Databricks a fontes de dados, como armazenamento de objetos de nuvem, sistemas de gerenciamento de banco de dados relacional, serviços de streaming de dados e plataformas corporativas, como CRMs. Você também pode conectar sua conta do Azure Databricks a serviços externos não armazenados.
Configurar conexões com o armazenamento de objetos
A maioria dos dados usados pelas cargas de trabalho do Azure Databricks é armazenada no armazenamento de objetos de nuvem, como o Azure Data Lake Storage ou o AWS S3. Você pode gerenciar o acesso ao armazenamento de objetos de nuvem usando um dos seguintes:
Catálogo do Unity (recomendado), que fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos de nuvem. Consulte Conectar-se ao armazenamento de objetos de nuvem usando o Catálogo do Unity.
Conectores herdados e padrões de conexão. Consulte Configurar o acesso ao armazenamento de objetos de nuvem para o Azure Databricks usando padrões herdados.
Configurar conexões com sistemas de dados externos
O Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:
Option | Description |
---|---|
Conectores de federação de consulta | A Federação lakehouse fornece acesso somente leitura a dados em sistemas de dados corporativos. A federação de consulta usa conexões JDBC seguras para federar sistemas de dados externos, como PostgreSQL e MySQL. A federação do catálogo conecta catálogos externos, como um Metastore do Hive, AWS Glue ou Snowflake Horizon Catalog, para consultar dados diretamente no armazenamento de arquivos. |
Conectores de ingestão gerenciada | Lakeflow Connect permite que usuários administradores criem uma conexão e um pipeline de ingestão gerenciado simultaneamente na interface de usuário para ingestão de dados. Consulte Conectores gerenciados no Lakeflow Connect. Se os usuários que criarão pipelines forem usuários não administradores ou planejarem usar APIs do Databricks, os SDKs do Databricks, a CLI do Databricks ou os Pacotes de Ativos do Databricks, um administrador deverá primeiro criar a conexão no Gerenciador de Catálogos. Essas interfaces exigem que os usuários especifiquem uma conexão existente ao criar um pipeline. Consulte Conectar-se às fontes de ingestão gerenciadas. |
Streaming connectors | O Azure Databricks fornece conectores otimizados para vários sistemas de dados de streaming. Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carreguem essas credenciais no Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, pois você pode usar segredos para todas as opções de configuração e em todos os modos de acesso. Todos os conectores de dados para fontes de streaming dão suporte à passagem de credenciais usando opções ao definir consultas de streaming. Consulte conectores Padrões no Lakeflow Connect. |
Third-party integrations | Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados no lakehouse. Algumas soluções também incluem o ETL reverso e acesso direto aos dados do lakehouse em sistemas externos. Consulte O que é o Databricks Partner Connect?. |
Drivers | O Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem o acesso de gravação. Consulte Conectar a sistemas externos. Para consultas de leitura, a Federação Lakehouse é sempre preferida em vez desses drivers. |
JDBC | Vários drivers incluídos para sistemas externos se baseiam no suporte nativo do JDBC e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte Consultar bancos de dados usando o JDBC. Para consultas de leitura, a Federação Lakehouse é sempre preferida em vez desses drivers. |
Configurar conexões com serviços externos
O Catálogo do Unity controla o acesso a serviços que não são de armazenamento usando um objeto protegível chamado credencial de serviço. Uma credencial de serviço encapsula uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo ao qual os usuários precisam se conectar do Azure Databricks. Consulte Conectar-se a serviços de nuvem externos usando o Catálogo do Unity
Gerenciar e solicitar acesso a fontes de dados e serviços externos
A maioria dos métodos de conexão exige privilégios elevados tanto na fonte de dados externa quanto no workspace do Azure Databricks. Em organizações típicas, poucos usuários têm privilégios suficientes no Azure Databricks ou em provedores de armazenamento e dados externos para configurar as próprias conexões de dados.
Sua organização pode já ter configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a partir desta página. Se sua organização tiver um processo bem definido para solicitar acesso a dados e serviços de terceiros, o Databricks recomenda seguir esse processo. Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento poderá ajudar:
- Use o Gerenciador de Catálogos para exibir as tabelas e os volumes que você pode acessar. Consulte O que é o Explorador de Catálogos?.
- Pergunte aos seus colegas ou gerentes sobre as fontes de dados que eles podem acessar.
- A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar permissões para usuários do workspace. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa de acesso, faça com que um administrador do workspace o adicione ao grupo correto para conceder acesso.
- Se uma determinada tabela, volume ou fonte de dados foi configurada por um colega de trabalho, esse indivíduo deve ser capaz de conceder-lhe acesso aos dados.
Algumas organizações anexam permissões de acesso a dados a clusters de computação e sql warehouses específicos. Esse é um modelo de governança herdado, mas se sua organização o usar e você quiser saber quais fontes de dados estão disponíveis em um recurso de computação específico, entre em contato com o criador de computação listado na guia Computação .