Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a esta recomendação de lista de verificação da Excelência Operacional do Azure Well-Architected Framework:
| OE:08 | Estabeleça um processo estruturado de gerenciamento de incidentes. Crie um plano de resposta a incidentes que documente claramente todos os procedimentos. Defina claramente as responsabilidades humanas, como rodízios de plantão, gerenciamento de incidentes, acesso a recursos de emergência e execução de autópsias. Habilite estratégias de design na arquitetura que promovam detecção rápida, solução de problemas e correções. |
|---|
Quando ocorrem incidentes, a equipe de carga de trabalho deve ser preparada com procedimentos claros e estruturados.
Há dois aspectos fundamentais para a resposta a incidentes. A primeira é a arquitetura, com foco na criação de sistemas que dão suporte a procedimentos de resposta eficazes e impedem que falhas sejam em cascata entre componentes. O segundo é o procedimento, abrangendo detecção, contenção e triagem para gerenciar problemas rapidamente, seguido pela análise de causa raiz e pós-morte para evitar a recorrência. Os exercícios regulares ajudam a manter a preparação e garantir que o plano possa ser executado efetivamente.
Este artigo descreve estratégias comprovadas para criar uma arquitetura que ajuda na resposta e em um plano que mantém a equipe calma, coordenada e no controle.
Definições
| Prazo | Definition |
|---|---|
| Engenharia do Caos | Injetando deliberadamente falhas ou condições adversas em um sistema para testar seus procedimentos de resiliência e recuperação. |
| Contenção | Limitando o impacto de um incidente para impedir que ele afete outros componentes ou sistemas. |
| Detecção | Identificando que um incidente ocorreu ou está ocorrendo. |
| Análise posterior | Uma revisão estruturada e irrepreensível de um incidente envolvendo todas as equipes relevantes, capturando lições aprendidas e definindo melhorias acionáveis em processos, ferramentas e sistemas. |
| RCA (Análise de Causa Raiz) | Investigação e identificação das causas subjacentes de um incidente, incluindo fatores contribuintes, para evitar a recorrência. |
| RPO (Objetivo de Ponto de Recuperação) | A quantidade máxima aceitável de perda de dados medida no tempo. |
| RTO (Objetivo de Tempo de Recuperação) | A quantidade máxima aceitável de tempo que um sistema ou serviço pode ficar inoperante após um incidente antes de causar um impacto inaceitável. |
| Triagem | Avaliar e priorizar incidentes para determinar a resposta apropriada. |
Documentar o plano de resposta a incidentes
Um incidente pode estar relacionado a problemas de implantação, segurança ou desempenho. Independentemente disso, crie um plano de resposta a incidentes principal que abrange todo o processo. Defina procedimentos complementares para cada tipo de incidente que descrevem métodos de detecção distintos, etapas de contenção e recuperação, os stakeholders envolvidos específicos para esse tipo de incidente. Por exemplo, seu plano de incidentes de segurança pode ter processos relacionados ao SOC (Centro de Operações de Segurança), que não serão aplicáveis a um incidente de implantação.
Um plano de resposta a incidentes deve definir as principais funções envolvidas no gerenciamento de um incidente e as responsabilidades de cada um. A propriedade clara reduz a confusão e garante que as ações sejam coordenadas desde a detecção até a resolução. Identificar funções como gerente de incidentes, líder técnico e comunicações levam a configurar a responsabilidade e dar suporte à tomada de decisões consistente.
O plano deve incluir uma estrutura de comunicação e escalonamento que descreve como os incidentes são relatados, quem é notificado e por quais canais. Isso garante que as informações se movam rapidamente para as pessoas certas e evitem lacunas ou duplicação durante momentos críticos.
O plano também deve incluir os procedimentos principais que a equipe seguirá durante a detecção, triagem, contenção e recuperação. Essas etapas fornecem uma estrutura previsível para resposta e ajudam a manter a estabilidade operacional. As revisões regulares desses procedimentos mantêm o plano alinhado com as alterações do sistema e as lições aprendidas com incidentes anteriores.
Troca. Uma estratégia de resposta excessivamente agressiva pode disparar alarmes falsos ou escalonamentos desnecessários.
Da mesma forma, ações automáticas como dimensionamento ou autorrecuperação disparadas por violações de limite podem incorrer em custos extras e sobrecarga operacional. Como os limites ideais podem não ser óbvios, valide-os por meio de testes em ambientes inferiores e avaliações de produção cuidadosamente monitoradas para alinhar ações com seus requisitos reais.
Alocar recursos suficientes para infraestrutura, processos e equipe de resposta a incidentes
Planeje recursos suficientes para operar pelo menos duas configurações de carga de trabalho simultaneamente quando o fallback for necessário para evitar a interrupção do serviço. As equipes de carga de trabalho devem estar preparadas para dar suporte a ambas as configurações em produção quando necessário. Isso pode envolver a refatoração de cargas de trabalho, como desassociar componentes ou atualizar modelos de dados.
Do ponto de vista do resourcing humano, a equipe precisa equilibrar suas responsabilidades regulares com o trabalho de resposta a incidentes. Pode haver a necessidade de aumentar o número de funcionários ou envolver recursos externos. Eles podem ser suporte de plataforma do Azure, fornecedores de terceiros, equipes de TI centrais, especializadas em gerenciamento de incidentes e que têm contratos de suporte ativos em vigor. O plano de resposta a incidentes deve documentar claramente o que cada parte aborda, exclusões, procedimentos de escalonamento e tempos de resposta esperados.
Observação
Trabalhe com sua organização para preparar esses contratos de suporte com antecedência para que eles estejam prontamente disponíveis durante um incidente.
Mesmo com essas dependências externas, espere que alguns membros da equipe trabalhem diretamente com fornecedores, enquanto outros continuam com a triagem interna e a correção.
Mantenha as informações de contato para a equipe interna e do fornecedor atualizadas. Estabeleça procedimentos seguros e simples para autenticar e autorizar o acesso externo ou convidado com permissões apropriadas para logs e ambientes de produção.
Criar contenção e isolamento na arquitetura
Incidentes são inevitáveis, portanto, projete sua arquitetura para restringir falhas e limitar seu raio de explosão. Verifique se, quando um componente falha, o impacto é isolado e não é em cascata para outras partes do sistema.
Obtenha isso por meio de técnicas como segmentação de recursos, desacoplamento de componentes com microsserviços e a aplicação de padrões de design, como bulkheads ou publisher/subscriber em seu design. Considere também o uso de recursos externos, quando aplicável. Por exemplo, em vez de codificar valores de configuração dentro do aplicativo, use um repositório de configuração externo para gerenciar as configurações fora do código do aplicativo ou do pacote de implantação.
Criar recursos de monitoramento para detecção rápida
Um plano de resposta a incidentes forte depende de uma pilha de monitoramento bem projetada. Recursos como registro em log estruturado, painéis direcionados e alertas acionáveis ajudam as equipes a responder rapidamente, minimizar o ruído e evitar a fadiga de alertas.
Risco: . Uma resposta excessivamente agressiva ou uma estratégia de automação, como disparar alertas, escalonamentos ou dimensionamento automático com muita frequência, pode resultar em alarmes falsos, interrupções operacionais desnecessárias, aumento de custos devido a limites mal definidos.
Reduza esse risco realizando testes completos em ambientes mais baixos e cenários de produção controlados para refinar os limites de alerta e dimensionamento.
O monitoramento efetivo tem duas dimensões principais. Primeiro, o processo de resposta deve receber notificações oportunas do Azure em indicadores críticos, como integridade do serviço, status de dependência, violações de segurança e integridade de dados. Em segundo lugar, a solução em si deve emitir telemetria, logs, métricas e rastreamentos avançados e estruturados, que permitem a análise profunda, a triagem e a identificação da causa raiz.
Os principais fluxos de trabalho de negócios devem ser rastreáveis de ponta a ponta para que os incidentes possam ser reconstruídos com precisão. Por exemplo, em um sistema de processamento de pedidos, as equipes devem ser capazes de rastrear quando um pedido foi recebido, quando a autorização de pagamento foi tentada e onde ocorreu a falha. Projete componentes para facilitar a depuração com verbosidade de log configurável, dump de memória e compartilhamento seguro de dados de diagnóstico entre diferentes ambientes. Esses recursos fornecem a visibilidade e o contexto necessários para uma resposta rápida e eficaz a incidentes.
Facilitar com dados e práticas de diagnóstico
Crie a solução para tornar o diagnóstico e a resolução de problemas mais rápidos e confiáveis. A abordagem é inserir a depuração e a observabilidade no design do sistema.
Isso começa com a coleta adequada de todos os dados de diagnóstico relevantes, como falhas e despejos de memória. Verifique se as ferramentas necessárias estão em vigor para coletar, armazenar e compartilhar esses dados com segurança para uma correlação e análise eficazes. Ferramentas como rastreamentos de rede e servidores de símbolo devem ser integradas para dar suporte a recursos de depuração mais profundos. Por fim, verifique se todos os dados de diagnóstico estão protegidos contra adulteração por meio de armazenamento seguro, acesso restrito e controles de governança de dados adequados.
O sistema também deve incluir ganchos internos e alternâncias que dão suporte ao gerenciamento de incidentes. Esses mecanismos são úteis para desabilitar ou isolar componentes defeituosos em tempo real, sem reimplantação. Além disso, os recursos com falha devem ser preservados em um estado de quarentena para análise forense em vez de descartados imediatamente.
Visualizar dados de incidentes em um único painel de vidro
Crie um painel ou portal centralizado de gerenciamento de incidentes para atualizações de status em tempo real, visibilidade e compartilhamento de conhecimento. O painel deve atuar como uma fonte compartilhada de verdade, mantendo todos alinhados em prioridades, ações atuais e dependências. Incidentes são situações estressantes para as equipes e ter informações suficientes para manter o foco e ajudar na tomada de decisões oportunas. Também reforça uma cultura de responsabilidade e aprendizado contínuo.
Os principais componentes devem incluir dados de observabilidade, linhas do tempo, detalhes de propriedade e indicadores de gravidade. A visibilidade deve ser específica à função, com controles de segurança apropriados, como o RBAC, garantindo que os usuários possam acessar as informações necessárias sem expor dados confidenciais ou do cliente. Inclua links para recursos relevantes e instruções claras para orientar os usuários sobre as próximas etapas e suas responsabilidades. Opcionalmente, dê suporte a assinaturas sob demanda ou alertas para notificar as partes interessadas quando o status do incidente mudar.
Capturar e armazenar trilhas de auditoria
Crie sua solução com a auditoria como um requisito principal para dar suporte à resposta a incidentes. Embora as trilhas de auditoria sejam frequentemente vistas principalmente como uma medida de segurança, elas são igualmente críticas para análise operacional. O sistema deve capturar registros detalhados de alterações de configuração, ações administrativas e procedimentos operacionais, como implantações, backups e atividades de ajuste.
Testar o plano
Teste periodicamente os processos de resposta a incidentes usando simulações ou exercícios de engenharia do caos. Simule incidentes realistas para validar a capacidade de recuperação, verificar as metas de RTO e RPO, e garantir que os planos de comunicação e escalamento funcionem sob condições de pressão.
Sem esses testes, pequenas falhas podem rapidamente se transformar em interrupções prolongadas ou grandes perdas de dados, deixando as equipes lutando e as operações comerciais em risco. O teste oferece a capacidade de identificar lacunas antes que um incidente real ocorra, melhore a coordenação.
Transformar as descobertas do RCA em melhorias do sistema
Após cada incidente, realize uma RCA completa para identificar causas subjacentes e fatores que contribuem. Siga isso com um postmortem sem apontar culpados liderado por um facilitador imparcial, onde cada equipe envolvida compartilha observações, sucessos e oportunidades de melhoria.
Continuamente alimentar as lições de volta ao sistema reduz as chances de repetição de incidentes. Certifique-se de capturar e classificar itens acionáveis em três áreas: refinamento do plano de resposta a incidentes, aprimoramento na observabilidade para detectar problemas semelhantes anteriormente e melhoria do design da carga de trabalho.
Trazer agilidade e consistência por meio da automação
Incorpore a automação em todo o fluxo de trabalho de resposta a incidentes para reduzir o esforço manual e acelerar a resposta. Use ferramentas como Azure Batch, Runbooks, Funções e Aplicativos Lógicos para automatizar a detecção, a contenção, o alerta e a comunicação, na medida do possível. Mantenha uma biblioteca de scripts e modelos de IaC (infraestrutura como código) para análise de recuperação, validação, solução de problemas e causa raiz. Verifique se essas automações estão documentadas e acessíveis para que as equipes possam executá-las de forma confiável durante incidentes. Quanto mais você automatizar, mais consistente será sua resposta.
Facilitação do Azure
O Azure Monitor é uma solução abrangente para coletar, analisar e responder a dados de monitoramento de ambientes locais e de nuvem. Ele inclui uma plataforma de alerta robusta que você pode configurar para notificações automáticas e outras ações, como dimensionamento automático e outros mecanismos de autocorreção.
Use o Monitor para integrar o aprendizado de máquina. Automatize e otimize a triagem de incidentes e medidas proativas. Para obter mais informações, consulte AIOps e aprendizado de máquina no Monitor.
O Log Analytics é uma ferramenta de análise robusta integrada ao Monitor. Você pode usar o Log Analytics para executar consultas em logs agregados e obter insights sobre sua carga de trabalho.
A Microsoft oferece treinamento de preparação para incidentes relacionados ao Azure. Para obter mais informações, consulte Introdução à preparação para incidentes do Azure e Preparação para incidentes.
Use o monitor de conexão no Observador de Rede do Azure para acompanhar continuamente a conectividade de rede e o desempenho entre os recursos do Azure. Durante incidentes de emergência, pastas de trabalho personalizadas no monitor de conexão fornecem visibilidade em tempo real sobre integridade da conectividade, tendências de latência e status de alerta. Para fazer uma RCA eficaz e obter uma resolução mais rápida, use a solução de problemas de conexão dentro do conjunto de ferramentas de diagnóstico do Observador de Rede.
Use a análise de tráfego para analisar logs de fluxo de redes virtuais e para obter insights, como tráfego bloqueado, fluxos mal-intencionados e portas expostas. A criação de pastas de trabalho na análise de tráfego permite que as equipes monitorem o comportamento de tráfego ao vivo, recebam alertas e usem exibições de linha do tempo e topologia para identificar rapidamente os segmentos de rede afetados e responder efetivamente.
Links relacionados
- Recomendações para projetar e criar uma estrutura de observabilidade
- Recomendações para projetar uma estratégia confiável de monitoramento e alerta
- Recomendações para autocura e autopreservação
Lista de verificação de Excelência Operacional
Consulte o conjunto completo de recomendações.