Freigeben über


Analyse der Gesundheit und des Status Ihres Kubernetes-Clusters mit Azure Monitor

Azure Monitor bietet eine Reihe von Ansichten im Azure-Portal, die Leistung und Protokolldaten kombinieren, die aus Ihrem Kubernetes-Cluster gesammelt werden, um ihre Integrität und Leistung zu analysieren. In diesem Artikel werden die verschiedenen ansichten beschrieben, die verfügbar sind und wie sie mit den vorhandenen Daten interagieren und interpretieren können.

Multiclusteransicht

Um die Multiclusteransicht zu öffnen, wählen Sie "Container" im Abschnitt "Insights " des Menüs "Monitor " im Azure-Portal aus. Diese Ansicht zeigt den Integritätsstatus aller überwachten Kubernetes-Cluster an, die in Ihren Abonnements über Ressourcengruppen hinweg bereitgestellt werden. Mit dieser Ansicht können Sie Cluster, die sich in einem kritischen oder fehlerhaften Zustand befinden, schnell identifizieren und ihnen außerdem helfen, die Überwachung für alle Cluster in Ihrer Umgebung zu aktivieren und zu konfigurieren. Ausführliche Informationen finden Sie unter Aktivieren der Überwachung für AKS-Cluster .

Screenshot: Beispiel für ein Multi-Cluster-Dashboard in Azure Monitor.

Hinweis

Azure Stack (Vorschau) und Nicht-Azure (Vorschau) werden in dieser Ansicht nicht mehr unterstützt.

Wählen Sie die Spalte "Knoten " aus, um die Registerkarte "Knoten " in der Einzelclusteransicht für diesen Cluster zu öffnen. Öffnen Sie die Registerkarte "Controller " für den Cluster mit einem geeigneten Filter, indem Sie die Spalte " Benutzer pods " oder "System pods " auswählen.

In der folgenden Tabelle werden die verschiedenen Gesundheitsstatus beschrieben, die in dieser Ansicht angezeigt werden. Der Gesundheitszustand bestimmt den gesamten Clusterstatus als den schlechtesten der drei Zustände. Wenn einer der drei Zustände unbekannt ist, wird im Gesamtclusterzustand "Unbekannt" angezeigt.

Der Status BESCHREIBUNG
Gesund Für den virtuellen Computer werden keine Probleme erkannt, und sie funktioniert wie erforderlich.
Warnung Mindestens ein Problem wird erkannt, das behoben werden muss, oder der Gesundheitszustand kann kritisch werden.
Kritisch Mindestens ein kritisches Problem wird erkannt, das behoben werden muss, um den normalen Betriebszustand wie erwartet wiederherzustellen.
Nicht autorisiert Der Benutzer verfügt nicht über erforderliche Berechtigungen zum Lesen von Daten im Arbeitsbereich oder in der Datensammlungsregel, die die Daten sammelt.
Nicht gefunden Entweder der Arbeitsbereich, die Ressourcengruppe oder das Abonnement, das den Arbeitsbereich enthält, wurde gelöscht.
Aktivieren von Aufzeichnungsregeln Aktivieren Sie Prometheus-Aufzeichnungsregeln , um Daten mit höherer Leistung und Prometheus-Visualisierungen zu entsperren.
Falsch konfiguriert Es ist ein Problem aufgetreten.
Fehler Beim Versuch, die Daten aus dem Arbeitsbereich zu lesen, ist ein Fehler aufgetreten.
Keine Daten In den letzten 30 Minuten wurden keine Daten an den Arbeitsbereich gemeldet.
Unbekannt Wenn der Dienst keine Verbindung mit dem Knoten oder pod herstellen konnte, ändert sich der Status in einen unbekannten Zustand.
Ausstehend Die Überwachungskonfiguration für Arc-fähige Cluster dauert in der Regel etwa 5 Minuten. Wenn der Cluster von Azure getrennt ist, wird dieser Vorgang möglicherweise verzögert.
Seit X Stunden anhängig Die Überwachungskonfiguration für den Arc-fähigen Cluster dauert länger als erwartet.
gescheitert Die Überwachungskonfiguration für den Arc-fähigen Cluster war nicht erfolgreich.

Die folgende Tabelle bietet eine Aufschlüsselung der Berechnung, die die Gesundheitszustände eines überwachten Clusters in der Multi-Cluster-Sicht steuert.

Überwachter Cluster Der Status Verfügbarkeit
Benutzerpod Gesund
Warnung
Kritisch
Unbekannt
100 %
90–99 %
<90 %
Keine Meldung in den letzten 30 Minuten erfolgt
Systempod Gesund
Warnung
Kritisch
Unbekannt
100 %

100 %
Keine Meldung in den letzten 30 Minuten erfolgt
Knoten Gesund
Warnung
Kritisch
Unbekannt
>85 %
60 – 84 %
<60 %
Keine Meldung in den letzten 30 Minuten erfolgt

Einzelclusteransicht

Um die einzelne Clusteransicht zu öffnen, wählen Sie entweder einen Cluster aus der Multiclusteransicht aus, oder wählen Sie "Monitor " aus dem Menü eines Clusters aus. Diese Ansicht bietet mehrere Registerkarten, mit denen Sie auf eine tiefere Ebene des Zustands und der Leistung des ausgewählten Clusters gehen können.

Options

Screenshot der Visualisierungseinstellung für die einzelne Clusteransicht.

Option BESCHREIBUNG
Visualisierung Hiermit können Sie auswählen, welche Datenquelle zum Auffüllen der Ansicht verwendet wird. Verwaltete Prometheus-Visualisierungen sind die bevorzugte Einstellung, die Prometheus-Metriken verwendet, die in einem Azure Monitor-Arbeitsbereich gespeichert sind. Diese sind aktiviert, wenn Sie verwaltete Prometheus für den Cluster aktivieren. Log Analytics-Visualisierungen verwenden Leistungsdaten, die in einem Log Analytics-Arbeitsbereich gespeichert sind. Sie sammeln diese Daten möglicherweise nicht, wenn Sie keine Leistungsdaten in Ihrem Protokollierungsprofil sammeln. Diese Option ist nicht verfügbar, wenn Managed Prometheus für den Cluster nicht aktiviert ist.
Refresh Aktualisiert die Daten in der Ansicht.
Monitoreinstellungen Öffnet die Überwachungskonfigurationseinstellungen für den Cluster. Ausführliche Informationen finden Sie unter Aktivieren der Überwachung für AKS-Cluster .
Grafana anzeigen Zeigt eine Liste aller verwalteten Grafana-Instanzen an, die mit dem Azure Monitor-Arbeitsbereich für den Cluster verknüpft sind. Sie können entweder Dashboards für die Instanz öffnen oder die Konfiguration der Instanz anzeigen.
Empfohlene Warnungen Konfigurieren Sie empfohlene Warnungen für den Cluster. Weitere Informationen finden Sie unter Erstellen empfohlener Warnungen für Kubernetes-Cluster .
Alle Cluster anzeigen Öffnen Sie die Multiclusteransicht.

Filtern von Daten

Jede der Registerkarten in der Einzelclusteransicht bietet Optionen zum Filtern der dargestellten Daten. Jede Registerkarte verfügt über einen Filter für den Zeitraum der gesammelten Daten. Auf den Registerkarten "Knoten", " Controller" und "Container " können Sie filterdaten oder nach Knoten oder Namespace hinzufügen, indem Sie "Filter hinzufügen" auswählen.

Registerkarte „Übersicht“

Die Registerkarte "Übersicht " enthält eine Reihe von Kacheln, die den Status und die Leistung dieses Clusters anzeigen. Einige dieser Kacheln sind möglicherweise deaktiviert, wenn Sie bestimmte Überwachungsfeatures nicht aktiviert haben. In diesem Fall bietet die Kachel eine Option zum Starten des Onboardingprozesses für den Cluster. Ausführliche Informationen finden Sie unter Aktivieren der Kubernetes-Überwachung mithilfe des Azure-Portals .

Registerkarten "Knoten", "Controller" und "Container"

Auf den Registerkarten "Knoten", " Controller" und "Container " wird eine Liste dieser Ressourcen für den Cluster angezeigt. Die Registerkarten werden deaktiviert, wenn Sie keine Leistungsdaten für den Cluster sammeln. In diesem Fall bietet die Registerkarte eine Option zum Starten des Onboardingprozesses für den Cluster. Ausführliche Informationen finden Sie unter Aktivieren der Kubernetes-Überwachung mithilfe des Azure-Portals .

Der Status

Die Symbole im Feld "Status " geben den Onlinestatus des Elements an, wie in der folgenden Tabelle beschrieben.

Symbol Der Status
Wartend oder angehalten
Zuletzt als ausgeführt gemeldet, hat aber seit mehr als 30 Minuten nicht geantwortet
Erfolgreich beendet oder Fehler beim Beenden
Status „Fehler“

Metrik auswählen

Die Registerkarten "Knoten", "Controller" und "Container " enthalten eine Option zum Auswählen der Metrik, die für die Werte in der Ansicht verwendet wird.

Screenshot, der eine Leistungsansicht von Containerknoten zeigt.

Wählen Sie zum Überprüfen der Arbeitsspeicherauslastung in der Dropdownliste Metrik die Option Arbeitsspeicher RSS oder Arbeitssatz für Arbeitsspeicher aus. Arbeitsspeicher RSS wird nur für die Kubernetes-Version 1.8 und höher unterstützt. Andernfalls werden Werte für Min % als NaN angezeigt. Dieser numerische Datentypwert stellt einen nicht definierten oder nicht darstellbaren Wert dar.

Im Arbeitsspeicher-Arbeitssatz sind der „residente“ Speicher und der virtuelle Speicher (Cache) enthalten. Dies ist der gesamte Speicher, der von der Anwendung verwendet wird. Unter Arbeitsspeicher-RSS wird nur der Hauptspeicher angezeigt (der residente Speicher). Diese Metrik zeigt die tatsächliche Kapazität des verfügbaren Arbeitsspeichers an.

  • Residenter Speicher oder Hauptspeicher ist die tatsächliche Menge an Arbeitsspeicher, die auf dem Computer für die Knoten des Clusters verfügbar ist.
  • Beim virtuellen Speicher handelt es sich um reservierten Festplattenspeicher (Cache), der vom Betriebssystem verwendet wird, um bei hoher Speicherauslastung Daten aus dem Arbeitsspeicher auf den Datenträger auszulagern und bei Bedarf in den Arbeitsspeicher zurückzuholen.

Metrikberechnung auswählen

Die Perzentil-Auswahl definiert, wie die Metrik über den ausgewählten Zeitraum aggregiert wird. Der Titel der aggregierten Spalte wird entsprechend der ausgewählten Option geändert.

Screenshot: Perzentilauswahl für die Datenfilterung.

Trendspalte

Wenn Sie den Mauszeiger auf das Balkendiagramm unter der Spalte Trend bewegen, zeigt jeder Balken innerhalb eines Stichprobenzeitraums von 15 Minuten entweder die CPU- oder Speicherauslastung an – je nachdem, welche Metrik ausgewählt ist. Verwenden Sie nach dem Auswählen des Trenddiagramms per Tastatur die Tastenkombination ALT+BILD-AUF oder ALT+BILD-AB, um die Balken einzeln zu durchlaufen. Sie erhalten die gleichen Details wie beim Bewegen des Mauszeigers auf den Balken.

Screenshot: Beispiel für das Zeigen auf ein Trendbalkendiagramm.

Im nächsten Beispiel hat Container für den ersten Knoten in der Liste (aks-nodepool1-) den Wert 25. Dieser Wert ist eine Zusammenfassung der bereitgestellten Container insgesamt.

Screenshot: Beispiel für ein Rollup von Containern pro Knoten.

Eigenschaftenbereich

Wählen Sie ein beliebiges Element aus, um einen Eigenschaftenbereich zu öffnen, in dem die Eigenschaften des ausgewählten Elements angezeigt werden. Wenn ein Linux-Knoten ausgewählt ist, werden im Abschnitt Local Disk Capacity (Kapazität der lokalen Festplatte) auch der verfügbare Speicherplatz auf der Festplatte und der prozentual für jede Festplatte auf dem Knoten genutzte Speicherplatz angezeigt. In diesem Bereich können Sie auch Kubernetes-Containerprotokolle (stdout/stderror), Ereignisse und Pod-Metriken anzeigen, indem Sie oben im Bereich die Registerkarte "Liveereignisse " auswählen. Weitere Informationen zu dieser Funktion finden Sie unter Anzeigen von Kubernetes-Protokollen, -Ereignissen und Podmetriken in Echtzeit.

Protokolldaten anzeigen

Wenn Sie Protokolldaten für die ausgewählte Ressource basierend auf vordefinierten Protokollsuchen anzeigen möchten, wählen Sie im Eigenschaftenbereich die Option "Ereignisse in Log Analytics anzeigen " aus. Weitere Informationen zu diesen Daten- und Protokollabfragen finden Sie unter "Abfragen von Containerprotokollen".

Knoten-Tab

In der folgenden Tabelle werden die Spalten im Knoten-Tab beschrieben.

Kolumne BESCHREIBUNG
Name Der Name des Hosts.
Der Status Kubernetes-Ansicht des Knotenstatus.
Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Durchschnittlicher Prozentsatz von Knoten basierend auf dem Perzentil für die ausgewählte Dauer.
Min, Durchschnitt, 50, 90, 95, Max Tatsächlicher Durchschnittswert der Knoten basierend auf dem Perzentil für den ausgewählten Zeitraum. Der Mittelwert wird ausgehend vom festgelegten CPU-/Speichergrenzwert für einen Knoten gemessen. Für Pods und Container ist dies der vom Host gemeldete Durchschnittswert.
Container Anzahl von Containern
Betriebszeit Stellt den Zeitraum dar, der seit dem Start oder Neustart eines Knotens verstrichen ist.
Controller Nur für Container und Pods. Zeigt an, unter welchem Controller sich ein Element befindet. Nicht alle Pods befinden sich in einem Controller, sodass einige N/A anzeigen.
Trend Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Balkendiagrammtrend, der die durchschnittliche Perzentilmetrik des Controllers in Prozent anzeigt.

Die Zeilenhierarchie auf der Registerkarte "Knoten " folgt dem Kubernetes-Objektmodell. Erweitern Sie einen Knoten, um seine Pods anzuzeigen. Wenn mehrere Container zu einem Pod zusammengefasst sind, werden sie als letzte Zeile in der Hierarchie angezeigt. Sie können auch anzeigen, wie viele nicht auf Pods bezogene Workloads auf dem Host ausgeführt werden, falls Prozessor oder Arbeitsspeicher des Hosts überlastet sind.

Screenshot: Beispiel für die Kubernetes-Knotenhierarchie in der Leistungsansicht.

Windows Server-Container werden nach allen Linux-basierten Knoten in der Liste angezeigt. Wenn Sie einen Windows Server-Knoten erweitern, können Sie einen oder mehrere Pods und Container anzeigen, die auf dem Knoten ausgeführt werden. Nachdem ein Knoten ausgewählt wurde, werden im Eigenschaftenbereich Versionsinformationen angezeigt.

Screenshot: Beispielknotenhierarchie mit aufgeführten Windows Server-Knoten.

Virtuelle Knoten mit Azure Container Instances, auf denen das Linux-Betriebssystem ausgeführt wird, werden nach dem letzten AKS-Clusterknoten in der Liste angezeigt. Wenn Sie einen virtuellen Container Instances-Knoten erweitern, können Sie mindestens einen Container Instances-Pod und die auf dem Knoten ausgeführten Container anzeigen. Metriken werden nicht für Knoten gesammelt und gemeldet, sondern nur für Pods.

Screenshot: Beispielknotenhierarchie mit aufgeführten Container Instances.

Auf einem erweiterten Knoten können Sie per Drilldown von dem Pod oder Container, der auf dem Knoten ausgeführt wird, zum Controller navigieren, um für diesen Controller gefilterte Leistungsdaten anzuzeigen. Wählen Sie den Wert in der Spalte Controller für den spezifischen Knoten aus.

Screenshot, der den Drill-down vom Knoten zum Controller in der Leistungsansicht zeigt.

Die Eintragsansicht "Andere Prozesse " soll Ihnen helfen, die Ursache der hohen Ressourcenauslastung auf Ihrem Knoten deutlich zu verstehen. Diese Informationen helfen Ihnen, die Verwendung zwischen containerisierten Prozessen und nicht containerisierten Prozessen zu unterscheiden. Hierbei handelt es sich um nicht containerisierte Prozesse, die auf Ihrem Knoten ausgeführt werden und Folgendes umfassen:

  • Selbstverwaltete oder verwaltete Kubernetes-Prozesse, die nicht containerisiert sind
  • Container-Laufzeitprozesse
  • Kubelet
  • Systemprozesse, die auf Ihrem Knoten ausgeführt werden
  • Andere Nicht-Kubernetes-Workloads, die auf Knotenhardware oder einer VM ausgeführt werden

Der Wert von anderen Prozessen lautet Total usage from CAdvisor - Usage from containerized process.

Registerkarte "Controller"

Auf der Registerkarte "Controller " können Sie den Leistungsstatus Ihrer Controller, virtuellen Knotencontroller und virtuellen Knoten-Pods anzeigen, die nicht mit einem Controller verbunden sind.

Screenshot: Leistungsansicht von <Name>-Controllern

Die Zeilenhierarchie beginnt mit einem Controller. Wenn Sie einen Controller erweitern, sehen Sie einen oder mehrere Pods. Wenn Sie einen Pod erweitern, wird in der letzten Zeile der Container angezeigt, der im Pod gruppiert ist. Von einem erweiterten Controller aus können Sie per Drilldown zu dem Knoten navigieren, auf dem er ausgeführt wird, um für diesen Controller gefilterte Leistungsdaten anzuzeigen. Container Instances-Pods, die nicht mit einem Controller verbunden sind, werden in der Liste als Letztes aufgeführt.

Screenshot: Beispielcontrollerhierarchie mit aufgelisteten Container Instances-Pods.

Wählen Sie den Wert in der Spalte Knoten für den spezifischen Controller aus.

Screenshot: Exemplarischer Drilldownvorgang vom Controller zum Knoten in der Leistungsansicht.

In der folgenden Tabelle werden die Spalten auf der Registerkarte "Controller " beschrieben.

Kolumne BESCHREIBUNG
Name Der Name des Controllers.
Der Status Der Rollup-Status der Container nach Abschluss der Ausführung. Das Statussymbol zeigt basierend auf dem, was der Pod bereitstellt, eine Anzahl an. Es zeigt die schlechtesten beiden Zustände an. Wenn Sie den Mauszeiger über den Status bewegen, wird ein Rollupstatus aller Pods im Container angezeigt. Wenn der Status „Bereit“ nicht vorliegt, wird der Statuswert (0) angezeigt.
Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Durchschnittliches Rollup des durchschnittlichen Prozentsatzes jeder Entität für die ausgewählte Metrik und das ausgewählte Perzentil.
Min, Durchschnitt, 50, 90, 95, Max Rollup der durchschnittlichen CPU-Millicore oder Speicherleistung des Containers für das ausgewählte Perzentil. Der Mittelwert wird ausgehend vom festgelegten CPU-/Speichergrenzwert für einen Pod gemessen.
Container Gesamtanzahl der Container für den Controller oder Pod.
Neustarts Rollup der Anzahl von Containerneustarts.
Betriebszeit Stellt den Zeitraum dar, der seit dem Start eines Containers verstrichen ist.
Node Nur für Container und Pods. Zeigt an, unter welchem Controller sich ein Element befindet.
Trend Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Balkendiagrammtrend, der die durchschnittliche Perzentilmetrik des Controllers anzeigt.

Registerkarte "Container"

Auf der Registerkarte "Container " können Sie die Leistungsintegrität Ihrer Container anzeigen.

Screenshot: Leistungsansicht von <Name>-Containern

Von einem Container aus können Sie per Drilldown zu einem Pod oder Knoten navigieren, um für das entsprechende Objekt gefilterte Leistungsdaten anzuzeigen. Wählen Sie den Wert in der Spalte Pod oder Knoten für den spezifischen Container aus.

Screenshot: Beispiel für einen Drilldown vom Knoten zu den Containern in der Leistungsansicht.

In der folgenden Tabelle werden die Spalten auf der Registerkarte "Container " beschrieben.

Kolumne BESCHREIBUNG
Name Der Name des Containers,
Der Status Status des Containers.
Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Zusammenfassung des durchschnittlichen Prozentsatzes jeder Entität für die ausgewählte Metrik und das ausgewählte Perzentil.
Min, Durchschnitt, 50, 90, 95, Max Rollup der durchschnittlichen CPU-Millicore oder Speicherleistung des Containers für das ausgewählte Perzentil. Der Mittelwert wird ausgehend vom festgelegten CPU-/Speichergrenzwert für einen Pod gemessen.
Pod Container, in dem sich der Pod befindet.
Node  Der Knoten, in dem sich der Container befindet.
Neustarts Stellt den Zeitraum dar, der seit dem Start eines Containers verstrichen ist.
Betriebszeit Stellt den Zeitraum dar, der seit dem Start oder Neustart eines Containers verstrichen ist.
Trend Min. %, Mittelw. %, 50. %, 90. %, 95. %, Max. % Balkendiagrammtrend, der die durchschnittliche Perzentilmetrik des Containers in Prozent anzeigt.

Nächste Schritte

  • Informationen zum Erstellen von Warnungen für hohe CPU-Auslastung und Arbeitsspeicherauslastung zur Unterstützung Ihrer DevOps-Prozesse und -Verfahren bzw. Betriebsprozesse und -verfahren finden Sie unter Erstellen von Leistungswarnungen mit Container Insights.
  • Sehen Sie sich die Beispiele zu Protokollabfragen an, um vordefinierte Abfragen und Beispiele zu sehen, die Sie zur Auswertung oder Anpassung von Warnungen, Visualisierungen oder Analysen Ihrer Cluster verwenden können.