Compartilhar via


Guia de decisão do Microsoft Fabric: atividade de cópia, trabalho de cópia, fluxo de dados, Eventstream ou Spark

Use este guia de referência e os cenários de exemplo para ajudá-lo a decidir se você precisa de uma atividade de cópia, trabalho de cópia, um fluxo de dados, um Fluxo de Eventos ou Spark para suas cargas de trabalho do Microsoft Fabric.

Atividade de cópia, trabalho de cópia, fluxo de dados, eventstream e propriedades do Spark

Atividade de cópia de pipeline Trabalho de cópia Fluxo de dados Gen 2 Fluxo de eventos Spark
Caso de uso Migração de data lake e data warehouse,
ingestão de dados,
transformação leve
Ingestão de dados,
Cópia incremental,
Replicação
Migração do Data Lake e do Data Warehouse,
transformação leve
Ingestão de dados,
transformação de dados,
estrutura de dados,
criação de perfil de dados
ingestão de dados de evento,
transformação de dados de evento
Ingestão de dados,
transformação de dados,
processamento de dados
criação de perfil de dados
Persona primária do desenvolvedor Engenheiro de dados,
integrador de dados
Analista de Negócios,
Integrador de Dados,
Engenheiros de Dados
Engenheiro de dados,
integrador de dados,
analista de negócios
Engenheiro de dados,
cientista de dados,
desenvolvedor de dados
Integrador de dados,
engenheiro de dados
Conjunto de habilidades do desenvolvedor primário ETL,
SQL
JSON
ETL,
SQL
JSON
ETL,
M,
SQL
SQL, JSON, mensagens Spark (Scala, Python, Spark SQL, R)
Código escrito Sem código,
código baixo
Sem código,
código baixo
Sem código,
código baixo
Sem código,
código baixo
Code
Volume de dados Baixo para alto Baixo para alto Baixo para alto Médio a Alto Baixo para alto
Interface de desenvolvimento Mago
tela
Mago
tela
Consulta de energia Tela Caderno
Definição de trabalho do Spark
Fontes Mais de 50 conectores Mais de 50 conectores Mais de 150 conectores Banco de dados compatível com CDC (Captura de Dados de Alteração), Kafka, Sistemas de Mensagens que dão suporte ao padrão de publicação e assinatura, fluxos de eventos Centenas de bibliotecas do Spark
Destinos Mais de 40 conectores Mais de 40 conectores Lakehouse,
Banco de dados SQL do Azure,
Azure Data Explorer,
Análise do Azure Synapse
Eventhouse, Lakehouse, Alerta do Ativador, Fluxo Derivado, Ponto de Extremidade Personalizado Centenas de bibliotecas do Spark
Complexidade da transformação Baixo:
lightweight - conversão de tipo, mapeamento de coluna, arquivos de mesclagem/divisão, hierarquia de nivelamento
Baixo:
lightweight - conversão de tipo, mapeamento de coluna, arquivos de mesclagem/divisão, hierarquia de nivelamento
Baixo a alto:
Mais de 300 funções de transformação
Baixo:
leve
Baixo a alto:
suporte para bibliotecas nativas do Spark e de software livre

Cenários

Examine os cenários a seguir para obter ajuda para escolher como trabalhar com seus dados no Fabric.

Cenário 1

Leo, um engenheiro de dados, precisa ingerir um grande volume de dados de sistemas externos, tanto no local quanto na nuvem. Esses sistemas externos incluem bancos de dados, sistemas de arquivos e APIs. Leo não deseja escrever e manter código para cada operação de movimentação de dados ou conector. Ele quer seguir as melhores práticas das camadas de medalhão, com bronze, prata e ouro. Leo não tem nenhuma experiência com o Spark, então ele prefere arrastar e soltar a interface do usuário o máximo possível, com codificação mínima. E ele também quer processar os dados em um agendamento.

A primeira etapa é colocar os dados brutos no lakehouse da camada de bronze a partir de recursos de dados do Azure e várias fontes de terceiros (como Snowflake Web, REST, AWS S3, GCS etc.). Ele quer uma lakehouse consolidada, para que todos os dados de várias fontes lob, locais e de nuvem residam em um único lugar. Leo analisa as opções e seleciona a atividade de cópia de pipeline como a escolha apropriada para sua cópia binária bruta. Esse padrão se aplica à atualização de dados histórica e incremental. Com a atividade de cópia, o Leo poderá carregar dados gold em um data warehouse sem código se a necessidade surgir e os pipelines fornecerem ingestão de dados em alta escala que podem mover dados em escala petabyte. A atividade de cópia é a melhor opção de código baixo e sem código para mover petabytes de dados para lakehouses e armazéns de variedades de fontes, ad-hoc ou por meio de um agendamento.

Cenário 2

Mary é uma engenheira de dados com um profundo conhecimento dos vários requisitos de relatórios analíticos do LOB. Uma equipe upstream implementou com êxito uma solução para migrar vários dados históricos e incrementais do LOB para um lakehouse comum. Mary foi encarregada de limpar os dados, aplicar lógicas de negócios e carregá-los em vários destinos (como banco de dados SQL do Azure, ADX e um lakehouse) em preparação para suas respectivas equipes de relatórios.

Mary é um usuário experiente do Power Query e o volume de dados está no intervalo baixo a médio para obter o desempenho desejado. Os fluxos de dados fornecem interfaces sem código ou de baixo código para ingerir dados de centenas de fontes de dados. Com fluxos de dados, você pode transformar dados usando mais de 300 opções de transformação de dados e gravar os resultados em vários destinos com uma interface de usuário fácil de usar e altamente visual. Mary analisa as opções e decide que faz sentido usar o Dataflow Gen 2 como sua opção de transformação preferida.

Cenário 3

Prashant, um integrador de dados com profunda experiência em processos e sistemas de negócios. Uma equipe upstream expôs com êxito dados de eventos de aplicativos empresariais como mensagens que podem ser consumidas por meio de sistemas downstream. Prashant foi atribuído para integrar dados de eventos de aplicativos empresariais ao Microsoft Fabric para suporte a decisões em tempo real.

Considerando o volume de dados médio a alto e a preferência da organização por soluções sem código, o Prashant busca uma maneira de encaminhar eventos perfeitamente conforme eles ocorrem sem gerenciar agendas de extração. Para atender a essa necessidade, ele escolhe Eventstreams no Microsoft Fabric. Os fluxos de eventos dentro da experiência do Real-Time Intelligence permitem ingestão, transformação e roteamento de dados em tempo real para vários destinos, tudo sem escrever nenhum código.

Cenário 4

Adam é um engenheiro de dados que trabalha para uma grande empresa de varejo que usa uma lakehouse para armazenar e analisar seus dados de clientes. Como parte de seu trabalho, Adam é responsável por construir e manter os pipelines que extraem, transformam e carregam dados na lakehouse. Um dos requisitos de negócios da empresa é executar a análise de revisão do cliente para obter insights sobre as experiências de seus clientes e melhorar seus serviços.

Adam decide que a melhor opção é usar o Spark para criar a lógica de extração e transformação. O Spark fornece uma plataforma de computação distribuída que pode processar grandes quantidades de dados em paralelo. Ele escreve um aplicativo Spark usando Python ou Scala, que lê dados estruturados, semiestruturados e não estruturados do OneLake para análises e comentários do cliente. O aplicativo limpa, transforma e grava dados em tabelas Delta no lakehouse. Em seguida, os dados estão prontos para serem usados para análise downstream.

Cenário 5

Rajesh, um engenheiro de dados, tem a tarefa de ingerir dados incrementais de um SQL Server local em um Banco de Dados SQL do Azure. A instância do SQL Server local do Rajesh já tem o CDC (Change Data Capture) habilitado em tabelas-chave.

Rajesh está procurando uma solução simples, de baixo código, orientada por assistentes que lhe permita:

  • Selecionar várias tabelas de origem nativas habilitadas para CDC
  • Executar uma carga completa inicial
  • Alternar automaticamente para cargas de dados incrementais com base no CDC
  • Agendar atualizações de dados para atualizações recorrentes

Ele quer evitar escrever código personalizado ou gerenciar orquestrações complexas. Idealmente, ele quer um "assistente 5x5" onde ele possa realizar a instalação em apenas alguns cliques.

Rajesh escolhe o recurso de copiar tarefa no Microsoft Fabric. Com o suporte ao gateway local, ele se conecta com segurança ao SQL Server, seleciona as tabelas desejadas e configura o fluxo para chegar ao Banco de Dados SQL do Azure de destino.

A tarefa de cópia fornece uma experiência de movimentação de dados escalonável e sem complicações, atendendo aos requisitos de Rajesh sem a necessidade de manter pipelines complexos.