Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline ajuda a automatizar esses fluxos de trabalho. Ele pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.
Opções para orquestração de pipeline de dados
No Azure, os seguintes serviços e ferramentas atendem aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:
- Fábrica de dados do Azure
- Apache Oozie no Azure HDInsight
- SQL Server Integration Services (SSIS)
- Fabric Data Factory
Você pode usar esses serviços e ferramentas de forma independente ou combiná-los para criar uma solução híbrida. Por exemplo, o IR (integration runtime) no Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Esses serviços compartilham algumas funcionalidades, mas têm algumas diferenças importantes.
Principais critérios de seleção
Para restringir suas opções, considere os seguintes fatores:
Determine se você precisa de recursos de Big Data para mover e transformar seus dados. Essas capacidades normalmente usam vários gigabytes (GBs) a terabytes (TBs) de dados. Se você precisar dessas funcionalidades, escolha um serviço projetado para Big Data.
Identifique se você precisa de um serviço gerenciado que possa operar em escala. Se você fizer isso, escolha um serviço baseado em nuvem que não dependa do seu poder de processamento local.
Verifique se você tem fontes de dados localizadas localmente. Se você fizer isso, escolha um serviço que dê suporte a fontes de dados ou destinos locais e de nuvem.
Verifique se você armazena dados de origem no armazenamento de blobs em um HDFS (Sistema de Arquivos Distribuído hadoop). Se você fizer isso, escolha um serviço que dê suporte a consultas do Hive.
Determine se você precisa de orquestração avançada para fluxos de trabalho complexos de ETL (extração, transformação e carregamento) em várias fontes de dados. Se você fizer isso, escolha Fabric Data Factory porque ele fornece um conjunto de conectores, orquestração de pipeline e integração com ambientes locais e de nuvem. É ideal para a movimentação e transformação de dados em escala empresarial.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças de recursos.
Funcionalidades gerais
| Capacidade | Data Factory | SSIS | Oozie no HDInsight | Fábrica de Dados do Fabric |
|---|---|---|---|---|
| Gerenciado | Sim | Não | Sim | Sim |
| Baseado em nuvem | Sim | Não (local) | Sim | Sim |
| Pré-requisito | Assinatura do Azure | SQL Server | Assinatura do Azure, cluster HDInsight | Workspace habilitado por infraestrutura de rede |
| Ferramentas de gerenciamento | Portal do Azure, PowerShell, CLI, SDK do .NET | SQL Server Management Studio (SSMS), PowerShell | Shell Bash, API REST do Oozie, interface Web do usuário do Oozie | Trabalho de cópia, espelhamento, atividades de pipeline, Dataflow Gen2 |
| Precificação | Pagar por uso | Licenciamento, recursos adicionais aumentam o custo | Incluído no cluster HDInsight | Incluído com a capacidade do Fabric |
Funcionalidades de pipeline
| Capacidade | Data Factory | SSIS | Oozie no HDInsight | Fábrica de Dados do Fabric |
|---|---|---|---|---|
| Copiar dados | Sim | Sim | Sim | Sim |
| Transformações personalizadas | Sim | Sim | Sim (trabalhos de MapReduce, Pig e Hive) | Sim |
| Pontuação do Azure Machine Learning | Sim | Sim (com programação) | Não | Sim (via integração) |
| HDInsight sob demanda | Sim | Não | Não | Não |
| Lote do Azure | Sim | Não | Não | Sim |
| Pig, Hive e MapReduce | Sim | Não | Sim | Sim |
| Apache Spark | Sim | Não | Não | Sim |
| Executar pacotes do SSIS | Sim | Sim | Não | Sim |
| Fluxo de controle | Sim | Sim | Sim | Sim |
| Acessar dados locais | Sim | Sim | Não | Sim |
Funcionalidades de escalabilidade
| Capacidade | Data Factory | SSIS | Oozie no HDInsight | Fábrica de Dados do Fabric |
|---|---|---|---|---|
| Escalar verticalmente | Sim | Não | Não | Sim |
| Escalar horizontalmente | Sim | Não | Sim (com a adição de nós de trabalho ao cluster) | Sim |
| Otimizado para Big Data | Sim | Não | Sim | Sim |
Abordagem alternativa
Além da orquestração tradicional baseada em lote, sua plataforma também pode usar inteligência em tempo real por meio do recurso Fabric Real-Time Intelligence. Essa abordagem permite a ingestão contínua de dados de streaming, a transformação in-flight e os fluxos de trabalho controlados por eventos para que você possa responder instantaneamente à medida que os dados chegam. Ele dá suporte a cenários de alto valor, como processamento de telemetria da Internet das Coisas (IoT), detecção de fraudes e monitoramento operacional.
Colaboradores
A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.
Autor principal:
- Zoiner Tejada | CEO e arquiteto
Para ver perfis não públicos no LinkedIn, entre no LinkedIn.
Próximas etapas
- Pipelines e atividades no Fabric Data Factory
- Provisionar o runtime de integração Azure-SSIS no Data Factory
- Usar o Oozie para executar um fluxo de trabalho no HDInsight
- Arquitetura medalhão no Fabric Real-Time Intelligence