Compartilhar via


Práticas recomendadas de manutenção de nuvem privada da Solução VMware no Azure

A Solução VMware no Azure realiza a manutenção periódica da nuvem privada. Essa manutenção inclui patches de segurança, atualizações secundárias e principais para a pilha de software do VMware. Esta página descreve o monitoramento do host, a correção e as melhores práticas recomendadas que ajudam a manter a nuvem privada pronta para manutenção.

Manutenção do host e gerenciamento do ciclo de vida

Um benefício das nuvens privadas da Solução VMware no Azure é que a plataforma é mantida para você. A Microsoft é responsável pelo gerenciamento do ciclo de vida do software VMware (ESXi, vCenter Server e vSAN) e dispositivos NSX. A Microsoft também é responsável por inicializar a configuração de rede, como criar o gateway de Camada 0 e habilitar o roteamento Norte-Sul. Você é responsável pela configuração do SDN do NSX: segmentos de rede, regras de firewall distribuídas, gateways de Camada 1 e balanceadores de carga.

Observação

Um gateway T0 é criado e configurado como parte de uma implantação de nuvem privada. Toda modificação no roteador lógico ou nas VMs do nó de borda NSX pode afetar a conectividade com sua nuvem privada e deve ser evitada.

A Microsoft é responsável por aplicar patches, atualizações ou upgrades ao ESXi, vCenter Server, vSAN e NSX em sua nuvem privada. O impacto de patches, atualizações e atualizações no ESXi, vCenter Server e NSX tem as seguintes considerações:

  • ESXi – não há nenhum impacto nas cargas de trabalho em execução na sua nuvem privada. O acesso ao vCenter Server e ao NSX não é bloqueado durante esse período. Durante esse tempo, recomendamos que você não planeje outras atividades como: dimensionar a nuvem privada, agendar ou iniciar migrações HCX ativas, fazer alterações na configuração do HCX e assim por diante, em sua nuvem privada.

  • vCenter Server – As cargas de trabalho em execução na nuvem privada não serão impactadas. Durante esse tempo, o vCenter Server não está disponível e você não pode gerenciar VMs (parar, iniciar, criar ou excluir). Recomendamos que você não planeje outras atividades, como escalar verticalmente a nuvem privada, criar novas redes e assim por diante, em sua nuvem privada. Ao usar interfaces de usuário do VMware Site Recovery Manager ou vSphere Replication, recomendamos que você não execute nenhuma das ações: configurar a Replicação do vSphere e configurar ou executar planos de recuperação de site durante a atualização do vCenter Server.

  • NSX – A carga de trabalho é afetada. Quando um host específico está sendo atualizado, as VMs nesse host podem perder a conectividade de 2 segundos para 1 minuto com qualquer um dos seguintes sintomas:

    • Erros de ping

    • Perda de pacote

    • Mensagens de erro (por exemplo, Host de Destino Não Alcançável e Rede não alcançável)

    Durante essa janela de atualização, todo o acesso ao plano de gerenciamento do NSX é bloqueado. Você não pode fazer alterações de configuração no ambiente NSX nesse período. Suas cargas de trabalho continuam sendo executadas normalmente, sujeitas ao impacto da atualização detalhada anteriormente.

    Durante o tempo de atualização, recomendamos que você não planeje outras atividades como, dimensionar a nuvem privada e assim por diante, em sua nuvem privada. Outras atividades podem impedir que a atualização seja iniciada ou podem ter impactos adversos na atualização e no ambiente.

Você é notificado por meio da Integridade do Serviço do Azure que inclui a linha do tempo da atualização. A notificação também fornece detalhes sobre o componente atualizado, seu efeito sobre cargas de trabalho, acesso à nuvem privada e outros serviços do Azure. É possível reagendar uma atualização conforme necessário.

As atualizações de software incluem:

  • Patches - Patches de segurança ou correções de bugs lançados pela VMware

  • Atualizações - Alteração da versão secundária de um componente de pilha do VMware

  • Upgrades - Alteração da versão principal de um componente de pilha do VMware

Observação

A Microsoft testa um patch de segurança crítico assim que ele é disponibilizado no VMware.

Soluções alternativas documentadas do VMware são implementadas em vez da instalação de um patch correspondente, até que as próximas atualizações programadas sejam implantadas.

Monitoramento e correção de host

A Solução VMware no Azure monitora continuamente a integridade dos componentes e da subposição do VMware. Quando a Solução VMware no Azure detecta uma falha, ela executa uma ação para reparar os componentes com falha. Quando a Solução VMware no Azure detecta uma degradação ou falha em um de seus nós, ela dispara o processo de correção do host.

A correção do host envolve a substituição do nó com falha por um novo nó íntegro no cluster. Em seguida, quando possível, o host com falha é colocado no modo de manutenção do VMware vSphere. O VMware vSphere vMotion move as VMs do host com falha para outros servidores disponíveis no cluster, potencialmente permitindo tempo de inatividade zero para migração dinâmica de cargas de trabalho. Se o host com falha não puder ser colocado no modo de manutenção, ele será removido do cluster. Antes que o host defeituoso seja removido, as cargas de trabalho do cliente são migradas para um host recém-adicionado.

Dica

Comunicação do cliente: um email é enviado para o endereço de email do cliente antes que a substituição seja iniciada e novamente após a substituição ser bem-sucedida.

Para receber emails relacionados à substituição de host, você precisa ser adicionado a qualquer uma das seguintes funções de RBAC (Controle de Acesso Role-Based) do Azure na assinatura: 'ServiceAdmin', 'CoAdmin', 'Owner', 'Colaborador'.

A Solução VMware no Azure monitora as seguintes condições no host:

  • Status do processador
  • Status da memória
  • Estado de conexão e energia
  • Status do ventilador do hardware
  • Perda de conectividade de rede
  • Status da placa do sistema de hardware
  • Erros ocorreram em um ou mais discos de um host vSAN
  • Tensão do hardware
  • Status de temperatura do hardware
  • Status de energia de hardware
  • Status do armazenamento
  • Falha de conexão

Práticas recomendadas de operações de manutenção

As seguintes ações são sempre recomendadas para garantir que as operações de manutenção do host sejam realizadas com êxito:

  • Utilização do armazenamento vSAN: Para manter o SLA (Contrato de Nível de Serviço), verifique se a utilização do espaço de armazenamento do cluster vSphere permanece abaixo de 75%. Se a utilização exceder 75%, as atualizações poderão levar mais tempo do que o esperado ou falhar totalmente. Se a utilização do armazenamento exceder 75%, considere adicionar um nó para expandir o cluster e evitar um possível tempo de inatividade durante as atualizações.
  • Regras de DRS (Agendador de Recursos Distribuídos): as regras anti-afinidade de VM-VM do DRS devem ser configuradas de forma a ter pelo menos hosts (N+1) no cluster, em que N é o número de VMs que fazem parte da regra de DRS.
  • Violação de FTT (Falhas a serem toleradas): para evitar a perda de dados, altere as VMs configuradas com uma política de armazenamento vSAN para FTT (Falhas a serem toleradas) de 0 para uma política de armazenamento vSAN compatível com o Microsoft SLA (FTT=1 para até cinco hosts em um cluster e FTT=2 para seis ou mais hosts em um cluster) e verifique se as operações de manutenção do host podem ser executadas perfeitamente.
  • Remova as montagens de CD-ROM da VM: VMs montadas com a manutenção de host de bloco do CD-ROMs do "modo de emulação". Verifique se os CD-ROMs estão montados em "Modo de passagem".
  • Porta serial/paralela ou dispositivo externo: Se você estiver usando um arquivo de imagem (ISO, FLP etc.), verifique se ele está acessível de todos os hosts ESXi no cluster. Armazene os arquivos em um armazenamento de dados que são compartilhados entre todos os servidores ESXi que participam do vMotion da máquina virtual. Para obter mais informações, consulte o artigo do Broadcom KB.
  • VMs órfãs: No caso de uma máquina virtual órfã, a VM (Máquina Virtual) precisa ser re-registrada se possível (se não tiver sido excluída) ou removida do inventário. Para obter mais informações, consulte o artigo do Broadcom KB.
  • Controlador SCSI compartilhado: Ao usar o compartilhamento de barramento SCSI, configure o tipo de barramento como "Físico" para VMs. As VMs conectadas aos controladores SCSCI virtuais serão desligadas. Para obter mais informações, consulte o artigo do Broadcom KB.
  • VMs e aplicativos de terceiros: Para VMs e aplicativos de terceiros:
    • Verifique se as soluções de terceiros implantadas na Solução VMware no Azure estão em conformidade e não interferem nas operações de manutenção.
    • Verifique se a VM não está instalada com uma regra de DRS "Deve executar" de VM-Host. Além disso, verifique se esses aplicativos são compatíveis com as versões futuras da plataforma VMware.
    • Consulte o fornecedor da solução e atualize com antecedência, se necessário, para manter a compatibilidade pós-atualização.

Códigos de alerta e tabela de correção

Código de erro Detalhes do erro Ação Recomendada
EPC_CDROM_EMULATEMODE Esse erro é encontrado quando CD-ROM na Máquina Virtual usa o modo de emulação, cuja imagem ISO não está acessível Siga este artigo KB para a remoção de qualquer CDROM montado nas Máquinas Virtuais de carga de trabalho do cliente no modo de emulação ou desanexação da ISO. É recomendável usar "Modo de passagem" para montar qualquer CD-ROM.
EPC_DRSOVERRIDERULE Esse erro é encontrado quando há uma Máquina Virtual com a Substituição de DRS definida como modo "Desabilitado". A VM não deve bloquear o vMotion ao colocar o host em manutenção. Defina regras de DRS parcialmente automatizadas para a VM. Consulte este documento para saber mais sobre as políticas de posicionamento da VM.
EPC_SCSIDEVICE_SHARINGMODE Esse erro é encontrado quando uma Máquina Virtual é configurada para usar um dispositivo que impede uma operação de manutenção: um dispositivo que é um controlador SCSI, que está envolvido no compartilhamento de ônibus Siga este artigo da base de dados para a remoção de qualquer controlador SCSI envolvido no compartilhamento de barramento anexado às VMs.
EPC_DATASTORE_INACCESSIBLE Este erro é encontrado quando qualquer armazenamento de dados externo anexado à nuvem privada da AVS se torna inacessível Siga este artigo para a remoção de qualquer Armazenamento de Dados obsoleto anexado ao cluster
EPC_NWADAPTER_STALE Esse erro é encontrado quando a interface de rede conectada na Máquina Virtual usa o adaptador de rede, que se torna inacessível Siga este artigo do KB para a remoção de todos os adaptadores de N/W obsoletos anexados às Máquinas Virtuais.
EPC_SERIAL_PORT Esse erro é encontrado quando a porta serial de uma Máquina Virtual está conectada a um dispositivo que não pode ser acessado no host de destino. Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível de todos os servidores ESXi no cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da máquina virtual. Consulte este artigo de KB do Broadcom para obter mais informações.
EPC_HARDWARE_DEVICE Esse erro é encontrado quando a porta/dispositivo USB paralela de uma máquina virtual está conectada a um dispositivo não pode ser acessada no host de destino. Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível de todos os servidores ESXi do cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da máquina virtual. Consulte este artigo de KB do Broadcom para obter mais informações.
EPC_INVALIDVM/EPC_ORPHANVM Esse erro é encontrado quando há uma VM órfã ou inválida no inventário Verifique se todas as máquinas virtuais estão acessíveis para o vCenter. Consulte este artigo do KB para obter mais informações.
EPC_VMHOSTDRSRULE Esse erro é encontrado quando há uma Máquina Virtual com a regra DRS de Afinidade de Host/Anti-Afinidade. A VM não deve bloquear o VMware vMotion ao colocar um host no modo de manutenção. Defina "regras obrigatórias" para afinidade VM-Host. Consulte este documento para obter mais informações.
EPC_FTT_ZERO Esse erro ocorre quando uma máquina virtual está configurada para "Falhas a Tolerar" como 0 ou "Sem redundância de dados". Siga este artigo do KB para configurar o FTT como 1 ou 2 para a Máquina Virtual.
EPC_FTTVIOLATION Esse erro é encontrado quando um cluster não tem o número mínimo de hosts necessários para a política de armazenamento. Adicionar hosts conforme necessário pela política de armazenamento ou alterar a política FTT da VM para permitir colocar o host em modo de manutenção. Consulte este artigo de KB para saber mais sobre a política de FTT.

Observação

Os administradores de locatário da Solução VMware no Azure não devem editar ou excluir os alarmes do VMware vCenter Server definidos anteriormente porque são gerenciados pelo plano de controle da Solução VMware no VCenter Server do Azure. Esses alarmes são usados pelo monitoramento da Solução VMware no Azure para disparar o processo de remediação de seu host.

Próximas etapas

Agora que você abordou as práticas recomendadas de manutenção de nuvem privada da Solução VMware no Azure, convém saber mais sobre: