Architekturstrategien für die Reaktion auf Live-Leistungsprobleme

2025-08-29

Gilt für diese Checkliste für azure Well-Architected Framework Performance Efficiency:

PE:11

Reagieren Sie auf Liveleistungsprobleme. Planen Sie, wie Leistungsprobleme behoben werden, indem Sie klare Kommunikations- und Verantwortlichkeiten einbeziehen. Wenn eine problematische Situation auftritt, verwenden Sie, was Sie lernen, um präventive Maßnahmen zu identifizieren und in Ihre Arbeitsauslastung einzubeziehen. Implementieren Sie Methoden, um schneller zu normalen Vorgängen zurückzukehren, wenn ähnliche Situationen auftreten.

In diesem Leitfaden werden die bewährten Methoden für die Reaktion auf Liveleistungsprobleme beschrieben. Live-Leistungsprobleme beziehen sich auf Echtzeit-Herausforderungen und Engpässe, die das optimale Funktionieren einer Workload behindern können. Die Behebung dieser Probleme erleichtert nicht nur die sofortige Erkennung und Berichtigung der Leistungshcups, sondern stellt auch sicher, dass die Arbeitsauslastung konsistent ihren Leistungs-Benchmarks entspricht. Wenn sie nicht behoben werden, kann dies zu Komplikationen führen, einschließlich Verlangsamungen, Abstürze und Systemunzumutung und herabsetzen der Benutzererfahrung. Sie können auch verhindern, dass Benutzer ihre Aufgaben effizient erledigen und wiederum den Ruf der Organisation beeinträchtigen.

Definitionen

Begriff	Definition
Datenkorrelation	Ausrichten von Protokollen, Metriken und Ereignissen aus verschiedenen Teilen Ihrer Workload an die zugrunde liegenden Ursachen.
Ursachenanalyse	Ein Prozess zur Identifizierung der zugrunde liegenden Faktoren, die für ein Problem verantwortlich sind.
Selbstheilung	Die Möglichkeit, Probleme ohne menschliche Eingriffe automatisch zu reparieren.
Selbstprävention	Implementierungen innerhalb einer Workload, um potenzielle Probleme und Fehler zu verhindern.

Wenn ein Live-Leistungsproblem auftritt, müssen Sie mit den richtigen Daten und einem Plan vorbereitet sein, um auf das Problem zu reagieren. Dieser Plan sollte klare Kommunikations- und Verantwortlichkeiten umfassen. Das Hauptziel besteht darin, Lösungen zu implementieren, die eine schnelle Rückkehr zu regulären Vorgängen erleichtern und Einblicke aus dem Vorfall liefern. Die Integration präventiver Maßnahmen in Ihren Workflow ist eine zentrale Strategie. Das Ziel besteht darin, entweder zu verhindern, dass dasselbe Problem erneut auftritt oder seine Auswirkungen auf die Leistung verringert, wenn es nicht verhindert werden kann.

Vorbereiten auf Probleme

Die ideale Reaktion auf Live-Site-Leistungsprobleme ist präzise und schnell. Präzision und Geschwindigkeit bei der Leistungsbehebung erfordern Vorbereitung. Um effektiv auf Live-Leistungsprobleme zu reagieren, ist es wichtig, wichtige Leistungsmetriken zu überwachen, die Ursache der Probleme zu identifizieren und geeignete Lösungen oder Optimierungen zu implementieren. Um diese Schritte auszuführen, müssen Sie möglicherweise Arbeitsauslastungsprotokolle analysieren, Leistungstests durchführen, Code oder Konfigurationen optimieren und Ressourcen skalieren. In den folgenden Beispielen werden einige kritische Vorbereitungsbereiche beschrieben:

Weisen Sie genaue Architekturdiagramme auf. Ihre Architekturdiagramme sollten alle Komponenten enthalten und zeigen, wie sie interagieren. Visuelle Darstellung kann dabei helfen, Engpässe und einzelne Fehlerpunkte zu erkennen, die zu Leistungsbeeinträchtigungen oder Nichtverfügbarkeit führen können. Im Idealfall können Sie diese Probleme abfangen und entfernen, bevor sie Probleme verursachen, aber ein up-to-Datumsdiagramm kann Ihnen helfen, Probleme in Stressmomenten zu ermitteln.
Überprüfen sie den Datenzugriff. Daten und Protokolle von Überwachungsprozessen sind für die Reaktion auf Leistungsprobleme in Echtzeit und die Durchführung von Ursachenanalysen von entscheidender Bedeutung. Es ist jedoch wichtig, die Integrität und Vertraulichkeit der Daten aufrechtzuerhalten. Das Reagieren auf Live-Site-Leistungsprobleme erfordert häufig Zugriff auf zugrunde liegende Daten, auf die möglicherweise nicht normal zugegriffen werden kann. Sie müssen sicherstellen, dass Mitarbeiter zugriff auf die Daten haben, die sie benötigen, wenn Probleme auftreten. Sie sollten jedoch nur zeitlich eingeschränkten, geringsten Zugriff gewähren und diesen Zugriff auf autorisierte Mitarbeiter beschränken.
Automatische Benachrichtigungen festlegen. Warnungen können Ihnen helfen, Probleme zu identifizieren und zu beheben, sobald sie auftreten. Warnungen sollten Benachrichtigungen generieren, wenn die Arbeitsauslastung von den Leistungsbaselines abweicht. Im Laufe der Zeit sollten Sie Warnungskonfigurationen optimieren, um zu viele oder zu wenige Benachrichtigungen zu generieren. Die Überwachungslösungen, die Sie verwenden, müssen genügend Daten sammeln, um Warnungen zu generieren. Diese Warnungen sollten mit Leistungszielen und etablierten Basiswerten übereinstimmen. Sie sollten vermeiden, Benachrichtigungen zu Problemen zu generieren, die für Ihre Ziele relevant sind. Beispiele für Warnungen sind Beeinträchtigungen der CPU-Auslastung, des Arbeitsspeichers, der Reaktionszeiten und der Datenbankleistung.

Erstellen eines Triageplans

Das Erstellen eines Triageplans umfasst die Entwicklung eines strukturierten Ansatzes zum Identifizieren, Eskalieren, Analysieren, Priorisieren und Kommunizieren von Live-Site-Leistungsproblemen. Ein Triageplan ist eine Strategie für die Reaktion auf Live-Leistungsprobleme. Dadurch wird sichergestellt, dass Leistungsunterbrechungen zeitnah und effektiv mit klaren Rollen und Verfahren behoben werden. Die meisten Leistungsprobleme sind keine Notfallwiederherstellungsprotokolle, sie können sich jedoch auf die Arbeitsauslastungsfunktionalität auswirken, um die Triageplanung zu erfordern. Ein gut dokumentierter Triageplan stellt sicher, dass alle Teammitglieder ausgerichtet sind und schnell reagieren können, wodurch die Auswirkungen auf Benutzer und Workloads minimiert werden. Ein Triageplan sollte die folgenden Komponenten enthalten:

Identifizierung und Überwachung: Implementieren Sie ein System, um Leistungsprobleme in Echtzeit zu identifizieren und zu überwachen. Sie sollten über eine Liste der Kontaktinformationen von Personen verfügen, die in der Lage sind, Entscheidungen zu treffen oder Probleme auf höhere Ebenen zu eskalieren. Der Plan sollte auch Rollen und Zuständigkeiten identifizieren. Es muss dokumentieren, welche Konten Zugriff auf geschützte Informationen erhalten und wie lange.
Eskalationsprozess: Definieren Sie einen klaren Eskalationsprozess, um sicherzustellen, dass Leistungsprobleme zeitnah an die entsprechenden Teams oder Einzelpersonen eskaliert werden. Die Prozessdefinition sollte Kontaktinformationen und Richtlinien für eskalierende Probleme enthalten.
Analyse der Ursachen: Entwickeln Sie einen Prozess für die Durchführung einer Ursachenanalyse, um die zugrunde liegende Ursache jedes Leistungsproblems zu identifizieren. Der Prozess sollte die Analyse von Protokollen und Leistungsmetriken und die Durchführung von Diagnosetests umfassen, um die Quelle der einzelnen Probleme zu ermitteln.
Priorisierung: Richten Sie ein Priorisierungsframework ein, um den Schweregrad von Leistungsproblemen zu ermitteln und sie basierend auf deren Auswirkungen auf die Workload und die Benutzer zu priorisieren.
Kommunikation: Erstellen Sie einen Kommunikationsplan, um die Beteiligten über den Status von Leistungsproblemen und den Fortschritt ihrer Lösung auf dem Laufenden zu halten. Erwägen Sie regelmäßige Updates, Statusberichte und klare Kommunikationskanäle.
Dokumentation: Dokumentieren Sie den Triageplan, einschließlich aller Schritte, Prozesse und bewährten Methoden. Diese Dokumentation sollte für die Teammitglieder, die an der Reaktion auf Leistungsprobleme beteiligt sind, leicht zugänglich sein.

Entwickeln von Methoden zum Identifizieren und Beheben von Problemen

Das Beheben von Liveleistungsproblemen umfasst das Identifizieren und Beheben von Faktoren, die zu Leistungsbeeinträchtigungen oder Ineffizienzen in einer Live-Workload führen können. Daten, die Sie während der Überwachung sammeln, sind unschätzbar, wenn Sie leistungsbezogene Vorfälle untersuchen und beheben. Diese Daten enthalten einen historischen Datensatz der Leistungsmetriken. Wenn Überwachungsdaten verfügbar sind, können Sie Ursachen analysieren und Faktoren identifizieren. Sie sollten alle relevanten Überwachungsdaten verwenden, um jedes Leistungsproblem zu verstehen und zu beheben.

Verwenden der Ursachenanalyse

Die Ursachenanalyse erfordert Hypothesentests. Nachdem Sie Überwachungsdaten überprüft haben, sollten Sie potenzielle Ursachen des Leistungsproblems auflisten und testen. Um eine Ursachenanalyse für ein Live-Leistungsproblem durchzuführen, können Sie die folgenden Schritte ausführen:

Sammeln von Informationen. Sammeln Sie so viele Informationen wie möglich über das Leistungsproblem. Beispiele hierfür sind Fehlermeldungen, Protokolle, Leistungsmetriken und andere relevante Daten.
Definieren Sie das Problem. Definieren Sie das Problem eindeutig, indem Sie die Symptome identifizieren und die Auswirkungen, die das Problem auf die Arbeitsauslastung oder die Benutzer hat.
Untersuchen Sie potenzielle Ursachen. Beschränken Sie den Umfang der Analyse, indem Sie die spezifische Komponente oder den Bereich der Workload identifizieren, in der das Leistungsproblem auftritt. Identifizieren Sie potenzielle Ursachen des Leistungsproblems basierend auf den gesammelten Informationen. Dieser Vorgang kann die Analyse von Code, Konfigurationseinstellungen, Infrastruktur oder externen Abhängigkeiten umfassen.
Korrelieren von Daten. Tauchen Sie tiefer in die gesammelten Daten ein, um Muster, Anomalien oder Korrelationen zu identifizieren, die zu dem Leistungsproblem beitragen können. Die Datenkorrelation ist der Schlüssel zur Identifizierung von Leistungsproblemen und Ursachen. Sie kann das Überprüfen von Protokollen, die Analyse von Leistungsmetriken und das Durchführen von Tests umfassen.
Testen Sie Hypothesen. Formulieren Sie Hypothesen basierend auf den potenziellen Ursachen, die Sie identifizieren. Führen Sie Tests durch, um Ihre Hypothesen zu überprüfen oder zu widerlegen. Sie sollten eine Testumgebung verwenden, um festzustellen, ob Sie den Fehler replizieren können.
Implementieren sie Lösungen. Nachdem Sie eine Ursache identifiziert haben, entwickeln und implementieren Sie Lösungen, um das Leistungsproblem zu beheben.
Überwachen und Überprüfen. Nachdem Sie die Lösungen implementiert haben, überwachen Sie die Workload kontinuierlich, um sicherzustellen, dass das Leistungsproblem behoben ist. Überprüfen Sie die Effektivität der Lösungen, indem Sie Leistungsmetriken und Benutzerfeedback überwachen.

Kompromiss: Die Schritte einer Ursachenanalyse, z. B. das Identifizieren möglicher Ursachen, Testen von Hypothesen und dokumentieren der Analyse, können zeitaufwändig sein. Um Leistungsprobleme zu korrelieren, müssen Sie auch Daten sammeln und speichern. Die erforderliche Zeit und Infrastruktur können den Betriebsteams erhebliche Arbeit und Kosten für die Arbeitsauslastung hinzufügen.

Risiko: Wenn Sie eine Ursachenanalyse ohne ordnungsgemäße Sicherheitsschutzschienen durchführen, besteht das Risiko, dass Sie vertrauliche Informationen verfügbar machen, wenn Sie Zugriff auf Protokolle und Daten gewähren.

Einbinden des Anbietersupports

Der Anbietersupport kann ein wesentlicher Schritt sein, wenn Sie sich mit laufenden Leistungsproblemen befassen. Anbieter verfügen über die Expertise, Tools, Ressourcen und Erfahrungen, um Probleme mit ihren Produkten zu beheben. Ihr Supportvertrag mit Ihrem Lieferanten bestimmt den Umfang des Supports, den ein Anbieter bereitstellt.

Häufig ist es am besten, parallel zu Lieferanten zu arbeiten. Sie sollten einen Plan erstellen, damit einige Teammitglieder mit dem Lieferantensupport zusammenarbeiten, während andere weiterhin Leistungsprobleme triagen und beheben. Anbietersupportteams können auch Vorschläge dazu machen, wie Sie Antworten auf ähnliche Ereignisse verhindern und automatisieren können.

Sie müssen Kontaktinformationen für Ihr Personal zur Verfügung haben. Anbieter benötigen möglicherweise auch Zugriff auf Daten, um sich effektiv an der Problemlösung zu beteiligen. Sie müssen über einen Plan für die Authentifizierung und Autorisierung externer oder Gastkonten verfügen, um auf Überwachungsdaten zuzugreifen.

Aus Erkenntnissen lernen

Nachdem Sie ein Leistungsproblem mit Livewebsites behoben haben, müssen Sie überprüfen, was passiert ist. Ziel ist es, aus Leistungsproblemen zu lernen und nicht nur Probleme zu identifizieren. Die beste Möglichkeit, zu lernen, ist die Dokumentation. Dokumentieren Sie jedes Problem, und erläutern Sie, wie Sie es beheben können. Wenn ein Anbieter geholfen hat, arbeiten Sie mit dem Anbieter zusammen, um Ihre Dokumentation zu verbessern, Ihr Team zu schulen und Ihre Arbeitsauslastung entsprechend zu ändern.

In der Dokumentation sollte angegeben werden, wie sie verhindern können, dass jedes Problem erneut auftritt. Eine Möglichkeit, wiederkehrende Probleme zu vermeiden, besteht darin, Automatisierung einzuführen, um auf häufige Probleme zu reagieren. Automatisierung sollte selbstheilend und Selbstpräventionsqualitäten zu einer Arbeitsauslastung hinzufügen. Zusammen mit der Automatisierung können Sie verfeinerte Warnungen erstellen, die Ihnen helfen, frühzeitig auf Leistungsproblemindikatoren zu reagieren.

Azure-Erleichterung

Entwickeln von Methoden zum Identifizieren und Beheben von Problemen: Azure bietet verschiedene Tools, mit denen Sie auf Live-Leistungsprobleme reagieren können:

Azure Monitor ist eine umfassende Überwachungslösung, die Einblicke in die Leistung und Integrität Ihrer Anwendungen und Infrastruktur bietet. Monitor bietet Features wie Metriken, Protokolle, Warnungen und Dashboards, um Leistungsprobleme zu überwachen und zu diagnostizieren.
Application Insights ist ein APM-Dienst (Application Performance Management), der Entwicklern und DevOps-Experten hilft, Liveanwendungen zu überwachen. Es erkennt automatisch Leistungsanomalien, sammelt Protokolle und Ereignisse auf Anwendungsebene und stellt Analysetools zum Diagnostizieren von Problemen bereit.
Log Analytics ist ein Dienst, der Protokolldaten aus verschiedenen Quellen sammelt und analysiert, einschließlich Anwendungen, virtuellen Computern und Azure-Ressourcen. Wenn Sie Log Analytics verwenden, können Sie Protokolldaten abfragen und analysieren, um Einblicke in die Leistung und das Verhalten Ihrer Anwendungen zu erhalten.

Empfehlungen für Selbstheilung und Selbsterhaltung

Prüfliste zur Leistungseffizienz

Lesen Sie den vollständigen Satz von Empfehlungen.

Prüfliste zur Leistungseffizienz

Feedback

War diese Seite hilfreich?

Freigeben über

Architekturstrategien für die Reaktion auf Live-Leistungsprobleme

Vorbereiten auf Probleme

Erstellen eines Triageplans

Entwickeln von Methoden zum Identifizieren und Beheben von Problemen

Verwenden der Ursachenanalyse

Einbinden des Anbietersupports

Aus Erkenntnissen lernen

Azure-Erleichterung

Verwandte Links

Prüfliste zur Leistungseffizienz

Feedback

Zusätzliche Ressourcen