Compartilhar via


Guia de decisão do Microsoft Fabric: escolher uma estratégia de movimentação de dados

O Microsoft Fabric oferece várias maneiras de trazer dados para o Fabric, com base no que você precisa. Hoje, você pode usar espelhamento, atividades de cópia em pipelines ou trabalho de cópia. Cada opção oferece um nível diferente de controle e complexidade, para que você possa escolher o que melhor se ajusta ao seu cenário.

O espelhamento foi projetado para ser uma solução simples e gratuita para espelhar o banco de dados no Fabric, mas não abrange todos os cenários avançados. As atividades de cópia em pipelines oferecem recursos de ingestão de dados totalmente personalizáveis, mas eles exigem que você crie e gerencie o pipeline sozinho. O trabalho de cópia preenche a lacuna entre essas duas opções. Ele oferece mais flexibilidade e controle do que o Espelhamento, além de suporte nativo para cópia em lote e incremental, sem a complexidade da criação de pipelines.

Para ingestão de streaming em tempo real e cenários controlados por eventos, experimente Eventstreams do Fabric. Eles fornecem movimentação de dados de baixa latência, permitem transformar dados sem nenhuma transformação de código ou SQL e dão suporte ao roteamento baseado em conteúdo para vários destinos.

Captura de tela de uma árvore de decisão de estratégia de movimentação de dados, comparando espelhamento, fluxo de eventos, trabalho de cópia e atividade de cópia.

Conceitos principais

  • O espelhamento oferece uma maneira simples e gratuita de espelhar dados operacionais no Fabric para análise. Ele é otimizado para facilitar o uso com configuração mínima e grava em um único destino somente leitura no OneLake.

  • As atividades de cópia no Pipelines são criadas para usuários que precisam de fluxos de trabalho de ingestão de dados orquestrados e baseados em pipeline. Você pode personalizá-lo extensivamente e adicionar lógica de transformação, mas você precisa definir e gerenciar componentes de pipeline por conta própria, incluindo o acompanhamento do estado da última execução para cópia incremental.

  • Trabalho de Cópia facilita a ingestão de dados com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação CDC (captura de dados de mudanças), e você não precisa criar pipelines, enquanto ainda oferece acesso a várias opções avançadas. Ele dá suporte a muitas fontes e destinos e funciona bem quando você quer mais controle do que a função de espelhamento, mas menos complexidade do que o gerenciamento de pipelines com a atividade de cópia.

  • Fluxos de eventos: projetado para ingestão, transformação e processamento em tempo real de dados de streaming. Dá suporte a pipelines de baixa latência, gerenciamento de esquema e roteamento para destinos como Eventhouse, Lakehouse, Activator e pontos de extremidade personalizados que suportam AMQP, Kafka e HTTP.

Guia de decisão de movimentação de dados

Espelhamento Trabalho de cópia Atividade de Cópia (Pipeline) Fluxos de eventos
Fontes Bancos de dados + integração de terceiros ao Open Mirroring Todos os formatos e fontes de dados com suporte Todos os formatos e fontes de dados com suporte Mais de 25 fontes e todos os formatos
Destinos Formato de tabela no Fabric OneLake (somente leitura) Todos os destinos e formatos com suporte Todos os destinos e formatos com suporte Mais de 4 destinos
Flexibilidade Configuração simples com comportamento fixo Opções fáceis de usar + avançadas Opções avançadas e totalmente personalizáveis Opções simples e personalizáveis
Capacidade Espelhamento Trabalho de cópia Atividade de Cópia (Pipeline) Fluxos de eventos
Agendamento personalizado Yes Yes Contínuo
Gerenciamento de tabelas e colunas Yes Yes Sim (esquema, gerenciamento de eventos e campos)
Comportamento de cópia: Acrescentar, Upsert, Substituir Yes Yes Append
Observabilidade avançada + auditoria Yes Yes
Modos de cópia
Replicação contínua baseada em CDC Yes Yes Yes
Cópia em lote ou em massa Yes Yes Sim (replicação de instantâneo inicial cdc)
Suporte nativo para cópia incremental (baseada em marca d'água) Yes
Copiar usando a consulta definida pelo usuário Yes Yes
Casos de uso
Replicação contínua para análise e relatórios Yes Yes Yes
ELT/ETL controlado por metadados para data warehousing Yes Yes
Consolidação de dados Yes Yes Yes
Migração de dados/backup de dados/compartilhamento de dados Yes Yes Yes
Sem custo Yes
Desempenho previsível Yes Yes Yes

Cenários

Examine esses cenários para ajudá-lo a escolher qual estratégia de movimentação de dados funciona melhor para suas necessidades.

Cenário 1

James é gerente financeiro de uma companhia de seguros. Sua equipe usa o Banco de Dados SQL do Azure para acompanhar dados de política, declarações e informações do cliente em várias unidades de negócios. A equipe executiva deseja criar painéis em tempo real para monitoramento de desempenho de negócios, mas James não pode permitir que consultas de análise reduzam a velocidade dos sistemas operacionais que processam milhares de transações diárias.

James precisa de replicação contínua de dados sem nenhuma complexidade de instalação ou manutenção contínua. Ele não quer gerenciar o agendamento, configurar cargas incrementais ou se preocupar com a seleção de tabela - ele precisa de tudo espelhado automaticamente. Como isso é apenas para relatórios executivos, ter os dados em um formato somente leitura no OneLake funciona perfeitamente. A solução também precisa ser econômica, pois está saindo do orçamento do departamento.

James olha para as opções e escolhe Espelhamento. O espelhamento fornece a replicação contínua baseada em CDC de que ele precisa, manipulando automaticamente todas as tabelas sem nenhuma configuração. A simples configuração significa que ele não precisa de conhecimento técnico, e o custo livre se encaixa em seu orçamento. O formato tabular somente leitura no OneLake dá à sua equipe o acesso de análise em tempo real necessário sem afetar o desempenho operacional.

Cenário 2

Lisa é analista de negócios em uma empresa de logística. Ela precisa copiar dados de remessa de vários bancos de dados Snowflake para tabelas do Fabric Lakehouse para análise da cadeia de suprimentos. Os dados incluem registros históricos para a carga inicial e novas remessas que chegam ao longo do dia. Lisa quer executar esse processo em uma agenda personalizada a cada 4 horas durante o horário comercial.

Lisa precisa selecionar tabelas específicas de cada instância snowflake, mapear colunas para nomes padronizados e usar comportamento upsert para lidar com atualizações para registros de remessa existentes. Ela precisa de recursos de gerenciamento de tabelas e colunas para lidar com esquemas diferentes entre regiões e deseja monitoramento avançado para acompanhar a qualidade dos dados e o desempenho do processamento.

Lisa analisa as opções e seleciona Copiar trabalho. O trabalho de cópia fornece o agendamento personalizado de que ela precisa para seus requisitos de horário comercial, dá suporte a todas as fontes de dados, incluindo Snowflake, e oferece os recursos de gerenciamento de tabelas e colunas para sua configuração de várias regiões. A interface fácil de usar com opções avançadas de configuração permite que ela manipule a cópia incremental com detecção baseada em marca d'água e comportamento upsert sem criar pipelines.

Cenário 3

David é engenheiro de dados sênior em uma empresa de telecomunicações. Ele está criando um fluxo de trabalho complexo de ingestão de dados que precisa extrair dados de uso do cliente da Oracle usando consultas SQL personalizadas, aplicar transformações de negócios e carregá-los em vários destinos, incluindo o Fabric Warehouse e sistemas externos. O fluxo de trabalho também precisa ser coordenado com outras atividades de pipeline, como etapas de validação de dados e notificação.

David precisa de controle total sobre o processo de cópia, incluindo a capacidade de usar consultas definidas pelo usuário para unir tabelas e filtrar dados na origem. Ele precisa de opções de configuração avançadas e totalmente personalizáveis, desempenho previsível para grandes volumes de dados e a capacidade de integrar o processo de cópia em fluxos de trabalho de orquestração de pipeline mais amplos com dependências e tratamento de erros.

David analisa as opções disponíveis e escolhe Copiar Atividades em Pipelines. Essa abordagem lhe dá a configuração avançada e totalmente personalizável de que ele precisa, dá suporte a consultas definidas pelo usuário para extração de dados complexas e fornece a orquestração baseada em pipeline necessária para seu fluxo de trabalho. As funcionalidades avançadas de monitoramento e auditoria o ajudam a acompanhar o processo complexo, enquanto a estrutura de pipeline permite que ele coordene as atividades de cópia com outras etapas de processamento de dados.

Cenário 4

Ash é gerente de produto em uma empresa de telecomunicações. Sua equipe precisa monitorar as métricas de suporte ao cliente, como volumes de chamadas, tempos de espera e desempenho do agente, em tempo real para garantir a conformidade do SLA e melhorar a satisfação do cliente. Os dados são provenientes de vários sistemas operacionais, incluindo plataformas CRM, logs de call center e bancos de dados de atribuição de agente, e chegam em alta frequência ao longo do dia.

Ash usa Fabric Eventstreams para ingerir e transformar esses dados em movimento. Ela configura conectores de streaming para extrair dados de várias fontes, aplica transformações usando a experiência sem código e roteia os eventos processados para o Eventhouse para análise em tempo real. Ela integra o Data Activator para disparar alertas e fluxos de trabalho automatizados quando os limites de SLA são violados para que ela possa enviar notificações aos supervisores ou ajustar os níveis de pessoal dinamicamente.

O resultado é um painel em tempo real que é atualizado em segundos, dando à equipe da Ash visibilidade das métricas de desempenho ao vivo e habilitando decisões rápidas e controladas por dados. Essa arquitetura de streaming elimina a latência do processamento em lotes e capacita as empresas a responderem instantaneamente às necessidades dos clientes.

Introdução

Agora que você tem uma ideia de qual estratégia de movimentação de dados usar, você pode começar a usar esses recursos: