Compartilhar via


Habilitar a resiliência de zona para cargas de trabalho do Azure

Para tornar seus aplicativos mais resilientes a falhas de hardware relacionadas à zona, interrupções de rede e desastres naturais, é importante projetar suas cargas de trabalho do Azure para resiliência de zona. Ao distribuir recursos em várias zonas de disponibilidade dentro de uma região, você reduz o risco de uma interrupção de zona única afetar serviços críticos.

Embora seja uma prática recomendada abordar a resiliência da zona durante o planejamento inicial e a implantação de cargas de trabalho, é comum querer converter cargas de trabalho não resilientes existentes em configurações resilientes à zona. Em geral, o processamento da habilitação da resiliência de zona para cargas de trabalho existentes é simples e a Microsoft continua simplificando o processo. No entanto, qualquer alteração na carga de trabalho pode introduzir uma quantidade de risco. Depois de entender os riscos envolvidos, você poderá avaliar e priorizar quais cargas de trabalho e serviços dentro dessas cargas de trabalho são mais vitais para sua empresa e, em seguida, aplicar resiliência de zona aos recursos mais impactantes primeiro.

Este artigo descreve as principais considerações para habilitar a resiliência de zona nas suas cargas de trabalho do Azure. Ele também ajuda você a planejar e implementar uma transição bem-sucedida para uma arquitetura mais resiliente.

Dica

Se você estiver no processo de projetar suas cargas de trabalho ou planejar fazer uma revisão de design de suas cargas de trabalho atuais, é importante seguir as recomendações para projetar pensando na redundância no Azure Well-Architected Framework (WAF). O guia de recomendações do WAF ajuda você a projetar redundância de carga de trabalho em vários níveis, com foco em fluxos de trabalho críticos. Para dar suporte à adoção da zona de disponibilidade, ele também descreve estratégias como implantações de várias regiões e selos de implantação.

O que é a resiliência de zona?

Os serviços do Azure podem ser resilientes a interrupções de zona de disponibilidade de duas maneiras principais:

  • Serviços com redundância de zona: Muitos serviços do Azure dão suporte à redundância de zona. Esses serviços replicam automaticamente dados entre zonas de disponibilidade, distribuem solicitações de entrada e fazem failover para zonas diferentes durante uma falha de zona. Cada serviço dá suporte a esses recursos de uma forma que faça sentido para esse serviço específico. Alguns serviços são redundantes por zona por padrão, enquanto outros serviços podem precisar que você configure a redundância de zona.

  • Serviços zonais: Alguns serviços do Azure são zonais, o que significa que eles podem ser fixados em uma zona de disponibilidade específica. Para obter resiliência de zona usando um serviço zonal, implante instâncias separadas do serviço em várias zonas de disponibilidade. Talvez você também precise gerenciar a distribuição de tráfego, a replicação de dados e o failover entre as instâncias.

Alguns serviços podem ser implantados em uma configuração zonal ou com redundância de zona. Para a maioria dos casos, é melhor implantar serviços com redundância de zona sempre que possível.

Para obter mais informações, veja Tipos de suporte à zona de disponibilidade.

Procedimento de habilitação de zona

Use as etapas a seguir para analisar sistematicamente suas cargas de trabalho do Azure, priorizá-las para resiliência de zona e habilitar a resiliência de zona para cada componente.

Pré-requisitos

Antes de começar, realize as seguintes ações:

  • Identifique cada carga de trabalho. Uma carga de trabalho refere-se a uma coleção de recursos de aplicativo, dados e infraestrutura de suporte que funcionam em conjunto para obter resultados de negócios definidos. Para saber mais sobre as cargas de trabalho e como defini-las, veja Cargas de trabalho do Azure Well-Architected Framework.

  • Priorize os fluxos de usuário e sistema de cada carga de trabalho. Entenda os caminhos críticos e as dependências das suas cargas de trabalho para determinar quais componentes tornar resilientes a zonas primeiro. Para obter mais informações sobre como usar a análise de fluxo crítico para priorizar fluxos de trabalho, consulte Priorizar cargas de trabalho para resiliência de zona.

  • Atribua uma classificação de criticidade a cada carga de trabalho e fluxo. Essa classificação ajuda você a entender o impacto de uma possível interrupção em sua empresa e orienta suas decisões sobre quais cargas de trabalho priorizar para resiliência de zona. Considere também a quantidade de tempo de inatividade aceitável enquanto reconfigura as cargas de trabalho.

    Você pode usar uma taxonomia para classificar suas cargas de trabalho com base em sua criticidade. Essa abordagem ajuda você a concentrar seus esforços nos serviços mais importantes.

    Considere a taxonomia de exemplo a seguir para classificar suas cargas de trabalho.

    Tipo de carga de trabalho Description Efeito da interrupção
    Criticamente importante Fluxos e cargas de trabalho críticos que precisam ser altamente confiáveis, sempre disponíveis, resilientes a falhas e operacionais Qualquer interrupção em funções essenciais imediatamente corre o risco de danos catastróficos aos negócios ou introduz riscos à vida humana.
    Comercialmente crítico Fluxos e cargas de trabalho essenciais que operam funções comerciais importantes A interrupção corre o risco de alguma perda financeira ou danos à marca.
    Operacional Contribui para a eficiência das operações de negócios, mas fora da linha de serviço direta para os clientes Pode tolerar algum nível de interrupção.
    Administrativo Fluxos e cargas de trabalho de produção internos não alinhados às operações de negócios Pode tolerar interrupções.

    Para obter mais informações sobre como classificar suas cargas de trabalho de acordo com a classificação de importância, veja Atribuir uma classificação de importância a cada fluxo.

  • Verifique se as regiões em que seus recursos do Azure residem dão suporte a zonas de disponibilidade. Consulte a lista de regiões do Azure. Se uma região não der suporte a zonas de disponibilidade, considere a possibilidade de transferir seus recursos para uma região que tenha esse suporte. Para obter mais informações, confira Migrar os recursos do Azure entre grupos de recursos, assinaturas e regiões.

Etapa 1: priorizar os serviços do Azure para resiliência de zona

Depois de determinar quais fluxos de carga de trabalho são mais críticos para seus negócios, você poderá se concentrar nos serviços do Azure dos quais esses fluxos dependem. Alguns serviços do Azure são mais críticos para seus aplicativos do que outros. Priorize esses serviços para ajudar a garantir que seus aplicativos permaneçam disponíveis e resilientes se ocorrer uma falha de zona.

Use as diretrizes a seguir para priorizar grupos de serviços do Azure com base na importância para suas cargas de trabalho. Considere sua arquitetura de aplicativo específica e os requisitos de negócios ao determinar a prioridade dos serviços para resiliência de zona.

  1. Comece com serviços de rede. As cargas de trabalho tendem a compartilhar serviços de rede, de modo que um aumento na resiliência desses serviços pode melhorar a resiliência de várias cargas de trabalho ao mesmo tempo.

    Muitos serviços de rede fundamentais são automaticamente redundantes por zona; porém, você deve se concentrar em componentes como Azure ExpressRoute gateways, Azure VPN Gateway, Azure Application Gateway, Azure Load Balancer e Azure Firewall.

  2. Aprimore a resiliência do armazenamento de dados operacional. Os armazenamentos de dados operacionais contêm dados valiosos que muitas vezes usam várias cargas de trabalho, portanto, melhorar a disponibilidade desses armazenamentos de dados pode ajudar muitas cargas de trabalho.

    Para resiliência do armazenamento de dados operacional, concentre-se em serviços como o Banco de Dados SQL do Azure, a Instância Gerenciada de SQL do Azure, o Armazenamento do Azure, o Azure Data Lake Gen2, o Azure Cosmos DB, o Servidor Flexível PostgreSQL do Azure, o Servidor Flexível MySQL do Azure e o Cache do Azure para Redis.

  3. Priorize os serviços de computação. Esses serviços geralmente são fáceis de replicar e distribuir entre zonas porque são sem estado.

    Os serviços de computação incluem Máquinas Virtuais do Azure, Conjuntos de Dimensionamento de Máquinas Virtuais do Azure, AKS (Serviço de Kubernetes do Azure), Serviço de Aplicativo do Azure, Ambiente do Serviço de Aplicativo, Azure Functions, Azure Service Fabric e Aplicativos de Contêiner do Azure.

  4. Reveja os recursos críticos para os negócios restantes que seus fluxos críticos utilizam. Esses recursos podem não ser tão críticos quanto os recursos listados anteriormente, mas eles ainda desempenham um papel na funcionalidade do aplicativo e você deve considerá-los para resiliência de zona.

  5. Examine o restante dos recursos operacionais de negócios. Tome decisões informadas sobre a possibilidade de torná-las resilientes à zona. Essa revisão inclui serviços que podem não se relacionar diretamente com suas cargas de trabalho críticas, mas ainda contribuem para o desempenho geral do aplicativo e a confiabilidade.

Etapa 2: avaliar abordagens de configuração de zona

Depois de priorizar suas cargas de trabalho e serviços do Azure, identifique a abordagem necessária para habilitar o suporte à zona de disponibilidade para cada serviço e entenda o que você precisa fazer para configurar a resiliência da zona.

Cada guia de serviço de confiabilidade do Azure fornece uma seção que descreve como habilitar a resiliência de zona para esse serviço. Esta seção ajuda você a entender o esforço necessário para tornar cada zona de serviço resiliente para que você possa planejar sua estratégia adequadamente. Para obter mais informações sobre um serviço específico, veja Guias de serviço de confiabilidade do Azure.

Use a tabela de configuração de zona para entender rapidamente as abordagens dos serviços comuns do Azure.

Importante

Se sua carga de trabalho incluir componentes implantados em uma configuração zonal (ou zona única), planeje tornar esses componentes resilientes a interrupções de zona. Uma abordagem comum é implantar instâncias separadas em outra zona de disponibilidade e alternar entre elas, se necessário.

Etapa 3: testar a latência

Ao tornar a zona de cargas de trabalho resiliente, considere a latência entre zonas de disponibilidade. Ocasionalmente, alguns sistemas herdados não podem tolerar a pequena quantidade de latência extra que o tráfego entre zonas introduz, especialmente quando você habilita a replicação síncrona dentro da camada de dados. Se você suspeitar que a latência entre zonas pode afetar sua carga de trabalho, execute testes antes e depois de habilitar a resiliência da zona.

Abordagens de configuração de zona para serviços do Azure

Cada serviço do Azure dá suporte a um tipo específico de suporte à zona de disponibilidade, que se baseia no uso pretendido do serviço e na arquitetura interna. Se você tiver um recurso que não esteja configurado para usar zonas de disponibilidade (ou um recurso nonzonal ), convém reconfigurá-lo com suporte à zona de disponibilidade. O guia de confiabilidade desse serviço fornece diretrizes ou links para instruções de configuração de zona de disponibilidade.

Esta seção fornece uma visão geral dos diferentes tipos de abordagens de configuração de zona e qual abordagem cada serviço dá suporte.

Importante

Quando você habilita a redundância de zona em um recurso, esse recurso se torna automaticamente resiliente a falhas de zona. Quando você usa uma configuração zonal para fixar o recurso em uma zona de disponibilidade específica, o recurso não é redundante automaticamente por zona. Você deve torná-lo resiliente a uma falha de zona. Para serviços zonais, este artigo reflete a complexidade e o custo de anexação a uma zona. Para obter mais informações sobre etapas extras para obter resiliência de zona, consulte o guia de confiabilidade do serviço.

A tabela de configuração de zonas lista a abordagem de configuração de zonas com suporte para vários serviços do Azure e contém um link para cada guia de confiabilidade desse serviço. O guia de confiabilidade fornece informações sobre como configurar recursos de serviço nonzonal para habilitar o suporte à zona de disponibilidade.

A tabela a seguir descreve cada abordagem de configuração de zona, incluindo o nível de esforço e o tempo de inatividade necessários para habilitar zonas de disponibilidade.

Abordagem Description Nível típico de esforço Pode exigir tempo de inatividade
Sempre com resiliência a zonas O serviço é resiliente à zona por padrão em regiões que dão suporte a zonas de disponibilidade. Nenhuma ação é necessária. None Não
Habilitação Alterações mínimas de configuração necessárias, como habilitar a redundância de zona nas configurações. O processo não afeta a disponibilidade, mas considera os efeitos no custo ou no desempenho. Low Não
Modification Provavelmente requer algumas alterações de configuração, como reimplantar recursos dependentes ou modificar configurações de rede. Medium Yes
Reimplantação Alterações significativas necessárias, como reimplantar recursos inteiros, aplicativos ou serviços ou migrar dados para novos serviços. High Yes

Entenda o custo de habilitar o suporte à zona de disponibilidade para um serviço. Para muitos serviços, habilitar zonas de disponibilidade não adiciona custo. Mas alguns serviços exigem uma camada específica, um número específico de unidades de capacidade ou ambas. Outros serviços cobram taxas diferentes quando você usa zonas de disponibilidade. A tabela na próxima seção lista o impacto de custo típico para cada serviço.

Observação

As informações neste artigo resumem a abordagem típica para habilitar o suporte à zona de disponibilidade e descrevem o impacto de custo típico. Mas alguns fatores podem afetar o funcionamento da solução específica. Por exemplo, alguns serviços são listados como sempre resilientes à zona, mas essa designação só se aplica a regiões específicas ou a camadas específicas do serviço. Use essas tabelas como ponto de partida, mas examine os outros recursos mencionados para entender os detalhes específicos.

Abordagem de configuração de serviços do Azure por zona

A tabela a seguir resume o suporte à zona de disponibilidade para muitos serviços do Azure e fornece uma abordagem, incluindo o impacto no custo, para habilitar o suporte à zona de disponibilidade para cada serviço.

Service Pode ser com redundância de zona Pode ser zonal Abordagem de configuração de zona típica Impacto de custo típico
Pesquisa de IA do Azure Yes Sempre com resiliência a zonas N/A
Gerenciamento de API do Azure Yes Yes Modification Nível mínimo necessário
Configuração de Aplicativos do Azure Yes Sempre com resiliência a zonas N/A
Serviço de Aplicativo do Azure Yes Habilitação Camada mínima e contagem de instâncias necessárias
Serviço de Aplicativo do Azure – Ambiente do Serviço de Aplicativo Yes Habilitação Contagem mínima de instâncias necessária
Gateway de Aplicativo do Azure Yes Yes Sempre com resiliência a zonas N/A
Serviço de Backup do Azure Yes Reimplantação Aumento de custo moderado
Azure Bastion Yes Yes Reimplantação Sem impacto no custo
Lote do Azure Yes Reimplantação Nenhum impacto de custo para o mesmo número de VMs (máquinas virtuais)
Armazenamento de Blobs do Azure Yes Habilitação Aumento de custo moderado
Cache do Azure para Redis – Enterprise Yes Reimplantação Sem impacto no custo
Cache do Azure para Redis – Standard e Premium Yes Habilitação Nível mínimo necessário
Aplicativos de Contêiner do Azure Yes Reimplantação Contagem mínima de réplicas necessária
Instâncias de Contêiner do Azure Yes Reimplantação Sem impacto no custo
Registro de Contêiner do Azure Yes Sempre com resiliência a zonas N/A
Azure Cosmos DB para NoSQL Yes Modification Nenhum, se a escala automática ou as gravações de várias regiões estiverem sendo usadas
Fábrica de dados do Azure Yes Sempre com resiliência a zonas N/A
Armazenamento do Azure Data Lake Yes Habilitação Aumento de custo moderado
Banco de Dados do Azure para MySQL - Servidor Flexível Yes Reimplantação Requer instância primária e de alta disponibilidade (HA)
Banco de Dados do Azure para PostgreSQL — Servidor Flexível Yes Habilitação Exige instância primária e de HA
Armazenamento em Disco do Azure (discos gerenciados) Yes Yes Habilitação Aumento de custo moderado
SAN Elástico do Azure Yes Reimplantação Aumento de custo moderado
Hubs de Eventos do Azure: camada dedicada Yes Sempre com resiliência a zonas Unidades de capacidade mínima (CUs) necessárias
Hubs de Eventos do Azure: todas as outras camadas Yes Sempre com resiliência a zonas N/A
Gateway do Azure ExpressRoute Yes Yes Modification Depende da camada
Arquivos do Azure Yes Habilitação Aumento de custo moderado
Azure Firewall Yes Yes Modification Sem impacto no custo
Azure Functions Yes Reimplantação Camada mínima e contagem de instâncias necessárias
Azure HDInsight Yes Reimplantação Nenhum impacto nos custos para o mesmo número de nós
Hub IoT do Azure Yes Sempre com resiliência a zonas N/A
Azure Key Vault Yes Sempre com resiliência a zonas N/A
AKS (Serviço de Kubernetes do Azure) Yes Reimplantação Sem impacto no custo
Azure Load Balancer Yes Yes Modification Sem impacto no custo
Aplicativos Lógicos do Azure – camada de Consumo Yes Sempre com resiliência a zonas N/A
Aplicativos Lógicos do Azure – camada Standard Yes Reimplantação Camada mínima e contagem de instâncias necessárias
Espaço Gerenciado do Azure para Grafana Yes Reimplantar Aumento de custo moderado
Azure Monitor: Log Analytics Yes Sempre com resiliência a zonas
Azure NetApp Files Yes Reimplantação Depende da configuração de replicação
Armazenamento de Filas do Azure Yes Habilitação Aumento de custo moderado
Barramento de Serviço do Azure Yes Sempre com resiliência a zonas N/A
Malha de Serviços do Azure Yes Yes Reimplantação Nenhum impacto de custo para o mesmo número de VMs
Azure Site Recovery Yes Reimplantação Sem impacto de custos para o Site Recovery, aumento de custo moderado para armazenamento de réplicas
Banco de Dados SQL do Azure: camada Comercialmente Crítica Yes Habilitação Sem impacto no custo
Banco de Dados SQL do Azure: camada de Uso Geral Yes Habilitação Aumento de custo moderado
Banco de dados SQL do Azure: camada de Hiperescala Yes Reimplantação Contagem mínima de réplicas necessária
Banco de Dados SQL do Azure: camada Premium Yes Habilitação Sem impacto no custo
Instância Gerenciada de SQL do Azure Yes Habilitação Aumento de custo moderado
Armazenamento de Tabelas do Azure Yes Habilitação Aumento de custo moderado
Conjuntos de dimensionamento de máquina virtual do Azure Yes Yes Reimplantação Nenhum impacto de custo para o mesmo número de VMs
Máquinas Virtuais do Azure Yes Reimplantação Nenhum impacto de custo para o mesmo número de VMs
Rede Virtual do Azure Yes Sempre com resiliência a zonas N/A
Endereço IP público. Yes Yes Sempre com resiliência a zonas N/A