observability-monitoring-monitor-setup
Umfassende Monitoring- und Observability-Einrichtung
Die Implementierung von Monitoring von Grund auf ist komplex und fehleranfällig. Diese Skill bietet bewährte Muster für Metriken, Tracing und Logging, die die MTTR reduzieren und volle Systemtransparenz bieten.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "observability-monitoring-monitor-setup". Set up Prometheus scraping for a Kubernetes cluster with automatic pod discovery
Erwartetes Ergebnis:
- Prometheus-Konfiguration mit kubernetes_sd_configs für Auto-Discovery
- Pod-Annotationen erforderlich für Scrape-Targeting
- Relabel-Regeln zum Filtern und Taggen entdeckter Targets
- Verifizierungsschritte zur Bestätigung des Scrapings
Verwendung von "observability-monitoring-monitor-setup". Create an alert for memory usage exceeding 90%
Erwartetes Ergebnis:
- PromQL-Ausdruck mit container_memory_working_set_bytes
- Alert-Regel mit geeigneten Schwellenwerten und Dauer
- Runbook-Schritte zur Untersuchung von Speicherdruck
- Grafana-Panel-Abfrage zur Visualisierung von Speichertrends
Sicherheitsaudit
SicherThis skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.
Qualitätsbewertung
Was du bauen kannst
Greenfield-Service-Monitoring
Richten Sie einen vollständigen Observability-Stack für einen neuen Microservice von Anfang an mit Metriken, Tracing und Logging ein.
Produktions-Incident-Response
Erstellen Sie umsetzbare Dashboards und Alerts, um die MTTR zu reduzieren und proaktive Problemerkennung zu ermöglichen.
SLO-Definition und -Tracking
Definieren Sie Service Level Objectives mit Fehlerbudgets und implementieren Sie Burn-Rate-Monitoring für Reliability Engineering.
Probiere diese Prompts
Helfen Sie mir, Prometheus-Metriken zu meiner Node.js-API hinzuzufügen. Ich benötige Request-Zählung, Fehlerrate und Latenz-Tracking. Zeigen Sie mir die prom-client-Einrichtung und wie ich einen /metrics-Endpoint bereitstelle.
Erstellen Sie ein Grafana-Dashboard-JSON für meinen Payment-Service, das die vier Golden Signals zeigt. Beziehen Sie Panels für Request-Rate, Fehlerrate, p95/p99-Latenz und Sättigungsmetriken ein.
Ich brauche Alert-Regeln für hohe Fehlerrate (>5% für 5 Minuten) und langsame Antwortzeit (p95 >1s für 10 Minuten). Konfigurieren Sie Alertmanager, um kritische Alerts an PagerDuty und Warnungen an Slack zu routen.
Definieren Sie SLOs für meine API mit einem Verfügbarkeitsziel von 99,9% über 30 Tage. Zeigen Sie mir, wie ich das Fehlerbudget berechne, Multi-Window-Burn-Rate-Alerts einstelle und Grafana-Panels für SLO-Tracking erstelle.
Bewährte Verfahren
- Verwenden Sie Histogramm-Buckets, die an Ihre SLO-Ziele angeglichen sind, für genaue Perzentilberechnung
- Fügen Sie konsistente Labels (Service, Umgebung, Version) zu allen Metriken für effektives Filtern hinzu
- Testen Sie Alerts gegen historische Daten, um Fehlalarme zu minimieren, bevor Sie Benachrichtigungen aktivieren
Vermeiden
- Alles ohne klare Zuständigkeit zu überwachen führt zu Alert-Fatigue und ignorierten Seiten
- Die Verwendung von durchschnittlicher Latenz anstatt Perzentilen verbirgt Tail-Latenz-Probleme, die Benutzer betreffen
- Dashboards einzurichten, bevor definiert wird, welche Fragen sie beantworten sollen, verschwendet Aufwand