Compartilhar via


Escolher uma tecnologia de orquestração de pipeline de dados no Azure

A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline ajuda a automatizar esses fluxos de trabalho. Ele pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Opções para orquestração de pipeline de dados

No Azure, os seguintes serviços e ferramentas atendem aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Você pode usar esses serviços e ferramentas de forma independente ou combiná-los para criar uma solução híbrida. Por exemplo, o IR (integration runtime) no Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Esses serviços compartilham algumas funcionalidades, mas têm algumas diferenças importantes.

Principais critérios de seleção

Para restringir suas opções, considere os seguintes fatores:

  • Determine se você precisa de recursos de Big Data para mover e transformar seus dados. Essas capacidades normalmente usam vários gigabytes (GBs) a terabytes (TBs) de dados. Se você precisar dessas funcionalidades, escolha um serviço projetado para Big Data.

  • Identifique se você precisa de um serviço gerenciado que possa operar em escala. Se você fizer isso, escolha um serviço baseado em nuvem que não dependa do seu poder de processamento local.

  • Verifique se você tem fontes de dados localizadas localmente. Se você fizer isso, escolha um serviço que dê suporte a fontes de dados ou destinos locais e de nuvem.

  • Verifique se você armazena dados de origem no armazenamento de blobs em um HDFS (Sistema de Arquivos Distribuído hadoop). Se você fizer isso, escolha um serviço que dê suporte a consultas do Hive.

  • Determine se você precisa de orquestração avançada para fluxos de trabalho complexos de ETL (extração, transformação e carregamento) em várias fontes de dados. Se você fizer isso, escolha Fabric Data Factory porque ele fornece um conjunto de conectores, orquestração de pipeline e integração com ambientes locais e de nuvem. É ideal para a movimentação e transformação de dados em escala empresarial.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças de recursos.

Funcionalidades gerais

Capacidade Data Factory SSIS Oozie no HDInsight Fábrica de Dados do Fabric
Gerenciado Sim Não Sim Sim
Baseado em nuvem Sim Não (local) Sim Sim
Pré-requisito Assinatura do Azure SQL Server Assinatura do Azure, cluster HDInsight Workspace habilitado por infraestrutura de rede
Ferramentas de gerenciamento Portal do Azure, PowerShell, CLI, SDK do .NET SQL Server Management Studio (SSMS), PowerShell Shell Bash, API REST do Oozie, interface Web do usuário do Oozie Trabalho de cópia, espelhamento, atividades de pipeline, Dataflow Gen2
Precificação Pagar por uso Licenciamento, recursos adicionais aumentam o custo Incluído no cluster HDInsight Incluído com a capacidade do Fabric

Funcionalidades de pipeline

Capacidade Data Factory SSIS Oozie no HDInsight Fábrica de Dados do Fabric
Copiar dados Sim Sim Sim Sim
Transformações personalizadas Sim Sim Sim (trabalhos de MapReduce, Pig e Hive) Sim
Pontuação do Azure Machine Learning Sim Sim (com programação) Não Sim (via integração)
HDInsight sob demanda Sim Não Não Não
Lote do Azure Sim Não Não Sim
Pig, Hive e MapReduce Sim Não Sim Sim
Apache Spark Sim Não Não Sim
Executar pacotes do SSIS Sim Sim Não Sim
Fluxo de controle Sim Sim Sim Sim
Acessar dados locais Sim Sim Não Sim

Funcionalidades de escalabilidade

Capacidade Data Factory SSIS Oozie no HDInsight Fábrica de Dados do Fabric
Escalar verticalmente Sim Não Não Sim
Escalar horizontalmente Sim Não Sim (com a adição de nós de trabalho ao cluster) Sim
Otimizado para Big Data Sim Não Sim Sim

Abordagem alternativa

Além da orquestração tradicional baseada em lote, sua plataforma também pode usar inteligência em tempo real por meio do recurso Fabric Real-Time Intelligence. Essa abordagem permite a ingestão contínua de dados de streaming, a transformação in-flight e os fluxos de trabalho controlados por eventos para que você possa responder instantaneamente à medida que os dados chegam. Ele dá suporte a cenários de alto valor, como processamento de telemetria da Internet das Coisas (IoT), detecção de fraudes e monitoramento operacional.

Colaboradores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autor principal:

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Próximas etapas