Compartilhar via


O que é o Data Factory no Microsoft Fabric?

O Data Factory no Microsoft Fabric ajuda você a resolver um dos desafios mais difíceis da empresa: transformar dados dispersos em insights úteis.

Os dados da sua organização residem em vários locais diferentes: bancos de dados, arquivos, serviços de nuvem e sistemas herdados. Isso dificulta a visão completa da sua empresa. O Data Factory conecta-se a mais de 170 fontes de dados, incluindo ambientes multinuvem e configurações híbridas com gateways locais. Ele ajuda você a mover e transformar seus dados em escala, transformando-os em formatos que funcionam bem para análise e tomada de decisões.

Diagrama da pilha de integração de dados no Microsoft Fabric.

Diagrama do Data Factory no Microsoft Fabric que mostra uma seleção de conectores vinculados a ferramentas de análise e desenvolvimento de dados no Fabric por meio da movimentação, orquestração e transformação de dados. Tudo isso está sobre o Fabric OneLake, e todo o conjunto é entrelaçado com inteligência artificial.

Se você for um usuário de negócios criando sua primeira estratégia de análise de dados ou um desenvolvedor criando fluxos de trabalho complexos, você encontrará as ferramentas certas para:

  • Reúna seus dados
  • Limpe-o
  • Prepare-o para análise em seu Lakehouse ou Data Warehouse
  • Automatizar seus fluxos de trabalho de dados

O que é a integração de dados?

A integração de dados é o processo de reunir seus dados estratégicos para que você possa acessá-los e analisá-los. É uma parte fundamental de qualquer negócio que deseja tomar decisões controladas por dados.

Há muitas maneiras de integrar seus dados, mas uma das estratégias mais comuns é o ETL. ETL significa Extrair, Transformar, Carregar. Ele obtém informações de várias fontes diferentes, transforma-as em um formato que você pode analisar e carrega-as em um sistema de destino comum para análise ou relatório. Quando você implementa um processo de ETL na plataforma de dados da sua empresa, ele melhora a consistência, a qualidade e a acessibilidade dos dados.

Veja o que cada fase faz:

  • Extração: lê dados de suas fontes e os move para um local de armazenamento central. As fontes podem ser bancos de dados, arquivos, APIs, sites e muito mais.
  • Transformação: limpa, enriquece e transforma seus dados em um formato fácil de analisar. Por exemplo, talvez você queira comparar dados de vendas de um banco de dados SQL com documentos de vendas históricos verificados. Depois de extrair os dados, você precisa transformar os dados de cada fonte para que eles fiquem no mesmo formato, verificar se há corrompidos ou duplicatas e combinar os dados em um único conjunto de dados.
  • Carregamento: grava os dados transformados em um sistema de destino, como um data warehouse ou data lake. O sistema de destino é onde você pode executar consultas e relatórios em seus dados.

ETL ou ELT?

Quando você trabalha com dados, a maneira como você move e transforma isso importa, e cada organização terá necessidades diferentes. Por exemplo: ETL (Extrair, Transformar, Carregar) e ELT (Extrair, Carregar, Transformar). Cada um tem pontos fortes, dependendo de suas necessidades de desempenho, escalabilidade e custo.

ETL: transforme seus dados antes de carregá-los em seu destino. Isso funciona bem quando você precisa limpar, padronizar ou enriquecer dados conforme eles se movem. Por exemplo, use o Dataflow Gen 2 do Data Factory para aplicar transformações em escala antes de carregar dados em um armazém de dados ou em um lakehouse.

ELT: carregue os dados brutos primeiro e transforme-os onde estão armazenados. Essa abordagem usa o poder de mecanismos de análise, como o OneLake do Fabric, o Spark Notebooks ou as ferramentas baseadas em SQL. O ELT funciona bem para lidar com grandes conjuntos de dados com computação moderna em escala de nuvem.

O Fabric Data Factory dá suporte a ambos. É possível:

  • Criar pipelines de ETL clássicos para garantir qualidade e prontidão imediata dos dados
  • Usar fluxos de trabalho ELT para aproveitar a computação integrada e o armazenamento para transformações em grande escala
  • Combinar ambas as abordagens na mesma solução para flexibilidade

O Data Factory é uma solução de integração de dados avançada

O Data Factory conecta-se aos seus dados, move-os, transforma-os e orquestra suas tarefas de movimentação e transformação de dados de um só lugar. Você decide qual estratégia funciona melhor para sua empresa e o Data Factory fornece as ferramentas para fazer isso.

Conecte-se aos seus dados: seja no local, na nuvem ou em ambientes multinuvem, o Data Factory se conecta às suas fontes de dados e destinos. Ele dá suporte a uma ampla gama de fontes de dados, incluindo bancos de dados, data lakes, sistemas de arquivos, APIs e muito mais. Consulte os conectores disponíveis para obter uma lista completa de fontes de dados e destinos com suporte.

Mover dados: o Data Factory fornece vários métodos para mover dados da origem para o destino ou fornecer acesso fácil aos dados existentes, dependendo de suas necessidades.

  • Trabalho de Cópia – solução preferencial para movimentação simplificada de dados com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação CDC (Captura de Dados de Alteração). Ele também oferece a flexibilidade para lidar com uma ampla gama de cenários, de muitas fontes a muitos destinos, tudo por meio de uma experiência intuitiva e fácil de usar.
  • Atividade de cópia – move dados de um lugar para outro em qualquer escala, com personalização abrangente, suporte para uma ampla variedade de fontes e destinos e controle manual da cópia paralela para melhorar o desempenho.
  • Espelhamento – Crie uma réplica quase em tempo real do banco de dados operacional no OneLake no Microsoft Fabric para facilitar a análise e os relatórios.

Consulte nosso guia de decisão de movimentação de dados para ajudá-lo a escolher o método de movimentação de dados correto para seu cenário.

Transformação: o Data Factory fornece atividades para conectá-lo aos scripts de transformação personalizados ou ao poderoso designer de fluxos de dados.

  • Atividades de pipeline – notebook fabric, atividade HDInsight, definição de trabalho do Spark, procedimento armazenado, scripts SQL e muito mais. Essas atividades permitem executar scripts ou código personalizados para transformar seus dados.
  • Fluxo de dados Gen 2 – Transformar seus dados usando uma interface de baixo código com mais de 300 transformações. Você pode executar junções, agregações, limpeza de dados, transformações personalizadas e muito mais.

Orquestrar: o Data Factory permite criar pipelines que podem executar várias movimentações de dados, transformações e outras atividades em um único fluxo de trabalho.

Integração de dados com a IA

A IA aparece em todo o Data Factory para ajudá-lo a fazer mais com menos esforço. O Copilot for Data Factory permite que você projete, edite e gerencie pipelines e fluxos de dados usando a linguagem natural. Você pode digitar prompts em inglês sem formatação, e o Copilot os transforma em etapas de ETL funcionais.

O Copilot também resume suas consultas e pipelines de fluxo de dados existentes, para que você possa entender rapidamente o que eles fazem. Se você encontrar erros, Copilot explicará o que deu errado e sugerirá maneiras de corrigi-lo.

Para obter detalhes, consulte Copilot in Fabric no ambiente do Data Factory.

O que você precisa para começar?

E se já usarmos o Azure Data Factory?

O Data Factory no Microsoft Fabric é a próxima geração do Azure Data Factory, criada para lidar com seus desafios de integração de dados mais complexos com uma abordagem mais simples.

Consulte nosso guia de comparação para obter as principais diferenças entre esses dois serviços, para que você possa fazer a escolha certa para sua empresa.

Quando estiver pronto para migrar, siga nosso guia de migração.

Para obter mais informações e para começar a usar o Microsoft Fabric, siga estes guias: