Freigeben über


Architekturstrategien für das Entwerfen einer Strategie zur Reaktion auf Vorfälle

Gilt für diese Azure Well-Architected Framework Operational Excellence-Empfehlung:

OE:08 Richten Sie einen strukturierten Vorfallverwaltungsprozess ein. Erstellen Sie einen Plan zur Reaktion auf Vorfälle, der alle Verfahren eindeutig dokumentiert. Definieren Sie die Verantwortlichkeiten der Menschen, z. B. Anrufdrehungen, Vorfallverwaltung, Zugriff auf Notfallressourcen und das Ausführen von Postmortems. Aktivieren Sie Designstrategien in der Architektur, die schnelle Erkennung, Problembehandlung und Korrekturen fördern.

Wenn Vorfälle auftreten, sollte das für die Arbeitslast verantwortliche Team mit klaren und strukturierten Verfahren vorbereitet sein.

Es gibt zwei wichtige Aspekte für die Reaktion auf Vorfälle. Die erste ist architektonisch, konzentriert sich auf das Entwerfen von Systemen, die effektive Reaktionsverfahren unterstützen und verhindern, dass Fehler über Komponenten hinweg kaskadieren. Die zweite ist prozedural und umfasst Erkennung, Eindämmung und Triage zur schnellen Bewältigung von Problemen, gefolgt von Ursachenanalyse und Postmortems zur Vorbeugung von Wiederholungen. Regelmäßige Drills helfen dabei, die Bereitschaft aufrechtzuerhalten und sicherzustellen, dass der Plan effektiv ausgeführt werden kann.

In diesem Artikel werden bewährte Strategien zum Entwerfen einer Architektur beschrieben, die bei der Reaktion und einem Reaktionsplan hilft, der das Team ruhig, koordiniert und kontrolliert.

Definitionen

Begriff Definition
Chaostechnik Absichtliche Injektierung von Fehlern oder nachteiligen Bedingungen in ein System, um seine Resilienz- und Wiederherstellungsverfahren zu testen.
Containment Beschränken der Auswirkungen eines Vorfalls, um zu verhindern, dass er sich auf andere Komponenten oder Systeme auswirkt.
Erkennung Identifizierung, dass ein Vorfall aufgetreten ist oder gerade auftritt.
Postmortem Eine strukturierte, schuldlose Überprüfung eines Vorfalls, der alle relevanten Teams umfasst, erfasst gelernte Erkenntnisse und definiert umsetzbare Verbesserungen an Prozessen, Tools und Systemen.
RCA (Ursachenanalyse) Untersuchung und Identifizierung der zugrunde liegenden Ursache(en) eines Vorfalls, einschließlich Faktoren, um Wiederholungen zu verhindern.
RPO (Wiederherstellungspunkt-Ziel) Die maximale zulässige Menge an Datenverlusten, gemessen in der Zeit.
RTO (Recovery Time Objective) Die maximal zulässige Zeitspanne, in der ein System oder Dienst nach einem Vorfall ausfallen kann, bevor dies zu einer unakzeptablen Auswirkung führt.
Eingrenzung Bewerten und Priorisieren von Vorfällen zur Ermittlung der geeigneten Reaktion.

Erstellen von Eindämmung und Isolation in der Architektur

Vorfälle sind unvermeidlich, daher entwerfen Sie Ihre Architektur so, dass Fehler eingeschränkt und deren Strahlradius begrenzt werden. Stellen Sie sicher, dass im Falle eines Ausfalls einer Komponente die Auswirkungen isoliert sind und sich nicht auf andere Teile des Systems ausweiten.

Erreichen Sie dies durch Techniken wie die Aufteilung von Ressourcen, Komponenten mit Microservices entkoppeln und das Anwenden von Entwurfsmustern wie "Bulkheads" oder "Publish/Subscribe" in Ihrem Design. Ziehen Sie ggf. auch die Verwendung externer Ressourcen in Betracht. Verwenden Sie z. B. anstelle von Hartcodierungskonfigurationswerten innerhalb der Anwendung einen externen Konfigurationsspeicher, um Einstellungen außerhalb des Anwendungscodes oder Bereitstellungspakets zu verwalten.

Erstellen von Überwachungsfunktionen für schnelle Erkennung

Ein starker Plan für die Reaktion auf Vorfälle hängt von einem gut gestalteten Überwachungsstapel ab. Funktionen wie strukturierte Protokollierung, gezielte Dashboards und umsetzbare Warnungen helfen Teams, schnell zu reagieren, Rauschen zu minimieren und Warnungsermüdung zu vermeiden.

Effektive Überwachung hat zwei wichtige Dimensionen. Zunächst sollte der Antwortprozess zeitnah Benachrichtigungen von Azure zu kritischen Indikatoren wie Dienststatus, Abhängigkeitsstatus, Sicherheitsverletzungen und Datenintegrität erhalten. Zweitens muss die Lösung selbst umfangreiche, strukturierte Telemetrie, Protokolle, Metriken und Ablaufverfolgungen ausgeben, die eine umfassende Analyse, Triage und Ursachenidentifikation ermöglichen.

Die wichtigsten Geschäftsworkflows sollten end-to-end nachverfolgbar sein , damit Vorfälle genau rekonstruiert werden können. Beispielsweise sollten Teams in einem Auftragsverarbeitungssystem in der Lage sein, nachzuverfolgen, wann eine Bestellung empfangen wurde, wann die Zahlungsautorisierung versucht wurde und wo der Fehler aufgetreten ist. Entwerfen Sie Komponenten, um das Debuggen mit konfigurierbarer Protokollverwendbarkeit, Speicherabbildern und der sicheren Freigabe von Diagnosedaten in allen Umgebungen zu erleichtern. Diese Funktionen bieten die Sichtbarkeit und den Kontext, die für eine schnelle und effektive Reaktion auf Vorfälle erforderlich sind.

Unterstützen mit Diagnosedaten und Praktiken

Entwerfen Sie die Lösung, um Probleme schneller und zuverlässiger zu diagnostizieren und zu lösen. Der Ansatz besteht darin, Debugbarkeit und Beobachtbarkeit in das Systemdesign einzubetten.

Dies beginnt mit der richtigen Sammlung aller relevanten Diagnosedaten, z. B. Absturz- und Speicherabbilder. Stellen Sie sicher, dass die erforderlichen Tools vorhanden sind, um diese Daten sicher zu sammeln, zu speichern und freizugeben, um eine effektive Korrelation und Analyse zu ermöglichen. Tools wie Netzwerkablaufverfolgungs- und Symbolserver sollten integriert werden, um tiefere Debugfunktionen zu unterstützen. Stellen Sie schließlich sicher, dass alle Diagnosedaten vor Manipulationen durch sichere Speicherung, eingeschränkten Zugriff und ordnungsgemäße Steuerungen der Datengovernance geschützt sind.

Das System sollte auch integrierte Hooks und Umschaltungen enthalten, die die Vorfallverwaltung unterstützen. Diese Mechanismen sind hilfreich beim Deaktivieren oder Isolieren fehlerhafter Komponenten in Echtzeit, ohne erneute Bereitstellungen. Darüber hinaus sollten fehlgeschlagene Ressourcen in einem isolierten Zustand für die forensische Analyse beibehalten werden, anstatt sofort verworfen zu werden.

Visualisieren von Vorfalldaten in einem einzigen Glasbereich

Erstellen Sie ein zentrales Vorfallverwaltungs-Dashboard oder Portal für Echtzeitstatusaktualisierungen, Sichtbarkeit und Wissensfreigabe. Das Dashboard sollte als gemeinsame Wahrheitsquelle fungieren und alle an Prioritäten, aktuellen Aktionen und Abhängigkeiten ausrichten. Vorfälle sind stressige Situationen für Teams, bei denen es wichtig ist, genügend Informationen zur Verfügung zu haben, um die Konzentration aufrechtzuerhalten und bei der rechtzeitigen Entscheidungsfindung zu helfen. Sie stärkt auch eine Kultur der Rechenschaftspflicht und des kontinuierlichen Lernens.

Wichtige Komponenten sollten Beobachtbarkeitsdaten, Zeitverläufe, Besitzerdetails und Schweregradindikatoren enthalten. Die Sichtbarkeit sollte rollenspezifisch sein, mit geeigneten Sicherheitskontrollen wie RBAC, um sicherzustellen, dass Benutzer auf die benötigten Informationen zugreifen können, ohne vertrauliche oder Kundendaten verfügbar zu machen. Fügen Sie Links zu relevanten Ressourcen und klare Anweisungen ein, um Die Benutzer bei den nächsten Schritten und ihren Verantwortlichkeiten zu unterstützen. Optional können Sie On-Demand-Abonnements oder Warnungen unterstützen, um Die Beteiligten zu benachrichtigen, wenn sich der Vorfallstatus ändert.

Erfassen und Speichern von Prüfpfaden

Entwerfen Sie Ihre Lösung mit Überwachung als kernanforderung zur Unterstützung der Reaktion auf Vorfälle. Während Überwachungspfade häufig als Sicherheitsmaßnahme angesehen werden, sind sie für die betriebstechnische Analyse gleichermaßen wichtig. Das System sollte detaillierte Aufzeichnungen von Konfigurationsänderungen, administrativen Aktionen und betrieblichen Verfahren wie Bereitstellungen, Sicherungen und Optimierungsaktivitäten erfassen.

Dokumentieren des Vorfallreaktionsplans

Ein Plan für die Reaktion auf Vorfälle sollte die wichtigsten Rollen definieren, die bei der Verwaltung eines Vorfalls und der zuständigkeiten der einzelnen Fälle beteiligt sind. Klare Eigentümerschaft reduziert Verwirrung und stellt sicher, dass Aktionen von der Erkennung über die Auflösung koordiniert werden. Identifizieren Sie Rollen wie Vorfallmanager, technische Leiter und Kommunikationsleiter, um Verantwortlichkeit einzurichten und konsistente Entscheidungen zu unterstützen.

Der Plan muss eine Kommunikations- und Eskalationsstruktur enthalten, die angibt, wie Vorfälle gemeldet werden, wer benachrichtigt wird und über welche Kanäle. Dadurch wird sichergestellt, dass Informationen schnell an die richtigen Personen verschoben werden und Lücken oder Duplizierungen während kritischer Momente verhindern.

Der Plan muss auch die Kernverfahren enthalten, die das Team während der Erkennung, Triage, Eindämmung und Wiederherstellung befolgt. Diese Schritte bieten ein vorhersagbares Framework für die Reaktion und tragen dazu bei, die Betriebsstabilität aufrechtzuerhalten. Regelmäßige Überprüfungen dieser Verfahren halten den Plan im Einklang mit Systemänderungen und Lehren aus früheren Vorfällen.

Kompromiss. Eine übermäßig aggressive Reaktionsstrategie kann falsche Alarme oder unnötige Eskalationen auslösen.

Ebenso können automatische Aktionen wie Skalierung oder Selbstheilung, die durch Schwellenwertverletzungen ausgelöst werden, zusätzliche Kosten und betrieblichen Aufwand verursachen. Da die optimalen Schwellenwerte möglicherweise nicht offensichtlich sind, überprüfen Sie sie durch Tests in niedrigeren Umgebungen und überwachte Produktionsversuche, um Aktionen an Ihre tatsächlichen Anforderungen anzupassen.

Testen des Plans

Testen Sie regelmäßig Ihre Vorfallreaktionsprozesse mithilfe von Trockenläufen oder Chaostechnikübungen. Simulieren Sie realistische Vorfälle, um die Wiederherstellbarkeit zu überprüfen, RTO- und RPO-Ziele zu überprüfen und sicherzustellen, dass Kommunikations- und Eskalationspläne unter Druck funktionieren.

Ohne diese Tests können kleine Fehler schnell zu längeren Ausfällen oder großem Datenverlust führen, wodurch Teams in Bedrängnis geraten und Geschäftsabläufe gefährdet sind. Tests bieten Ihnen die Möglichkeit, Lücken zu erkennen, bevor ein echter Vorfall auftritt, um die Koordination zu verbessern.

Umwandeln von RCA-Ergebnissen in Systemverbesserungen

Führen Sie nach jedem Vorfall eine gründliche Ursachenanalyse durch, um zugrunde liegende Ursachen und beitragende Faktoren zu identifizieren. Führen Sie dies mit einem „blameless Postmortem“ durch, das von einem unparteiischen Vermittler geleitet wird, bei dem jedes Team Beobachtungen, Erfolge und Verbesserungsmöglichkeiten teilt.

Die kontinuierliche Zufuhr von Lektionen in das System reduziert die Wahrscheinlichkeit von Wiederholungsvorfällen. Stellen Sie sicher, dass Sie Aktionen erfordernde Elemente in drei Bereichen erfassen und klassifizieren: Verfeinerung des Plans zur Reaktion auf Vorfälle, Verbesserung der Beobachtbarkeit, um ähnliche Probleme früher zu erkennen und die Arbeitsauslastungsgestaltung zu verbessern.

Bringen Sie Flexibilität und Konsistenz durch Automatisierung

Integrieren Sie die Automatisierung im gesamten Workflow zur Reaktion auf Vorfälle, um den manuellen Aufwand zu reduzieren und die Reaktion zu beschleunigen. Verwenden Sie Tools wie Azure Batch, Runbooks, Funktionen und Logik-Apps, um die Erkennung, Eindämmung, Warnung und Kommunikation so weit wie praktisch zu automatisieren. Verwalten Sie eine Bibliothek von Skripts und Infrastruktur-as-Code-Vorlagen (IaC) für die Wiederherstellung, Validierung, Problembehandlung und Ursachenanalyse. Stellen Sie sicher, dass diese Automatisierungen dokumentiert und zugänglich sind, damit Teams sie während Vorfällen zuverlässig ausführen können. Je mehr Sie automatisieren, desto konsistenter wird Ihre Antwort sein.

Azure-Unterstützung

Azure Monitor ist eine umfassende Lösung zum Sammeln, Analysieren und Reagieren auf Überwachungsdaten aus Cloud- und lokalen Umgebungen. Es enthält eine robuste Warnplattform, die Sie für automatische Benachrichtigungen und andere Aktionen konfigurieren können, z. B. automatische Skalierung und andere Selbstheilungsmechanismen.

Verwenden Sie Monitor, um maschinelles Lernen zu integrieren. Automatisieren und Optimieren von Vorfallstriagen und proaktiven Maßnahmen. Weitere Informationen finden Sie unter AIOps und maschinelles Lernen in Monitor.

Log Analytics ist ein robustes Analysetool, das in Monitor integriert ist. Sie können Log Analytics verwenden, um Abfragen für aggregierte Protokolle auszuführen und Einblicke zu Ihrer Workload zu erhalten.

Microsoft bietet Azure-bezogene Schulungen zur Vorfallbereitschaft. Weitere Informationen finden Sie in der Einführung in die Azure-Vorfallbereitschaft und die Vorfallbereitschaft.

Verwenden Sie den Verbindungsmonitor in Azure Network Watcher, um die Netzwerkkonnektivität und Leistung über Azure-Ressourcen hinweg kontinuierlich nachzuverfolgen. Bei Notfallvorfällen bieten benutzerdefinierte Arbeitsmappen im Verbindungsmonitor Echtzeit-Einblicke in die Konnektivitätsintegrität, Latenztrends und Warnungsstatus. Um eine effektive RCA zu erreichen und eine schnellere Auflösung zu erzielen, verwenden Sie Verbindungsproblembehandlung in der Network Watcher-Suite von Diagnosetools.

Verwenden Sie Datenverkehrsanalysen , um Protokolle für virtuelle Netzwerkabläufe zu analysieren und Einblicke wie blockierter Datenverkehr, böswillige Flüsse und offengelegte Ports zu analysieren. Durch das Erstellen von Arbeitsmappen in der Datenverkehrsanalyse können Teams das Verhalten des Livedatenverkehrs überwachen, Warnungen empfangen und Zeitachsen- und Topologieansichten verwenden, um betroffene Netzwerksegmente schnell zu identifizieren und effektiv zu reagieren.

Checkliste für betriebliche Exzellenz

Lesen Sie die vollständigen Empfehlungen.