observability-engineer
Produktions-Observability-Systeme entwerfen
Dieses Skill hilft Ihnen dabei, umfassende Monitoring-, Logging- und Tracing-Systeme für Unternehmensanwendungen zu entwerfen und zu implementieren. Es bietet Expertenleitung zu SLI/SLO-Management, Distributed Tracing und Incident-Response-Workflows.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "observability-engineer". Entwerfen Sie eine Monitoring-Strategie für unseren Checkout-Service, der täglich 100K Bestellungen abwickelt
Erwartetes Ergebnis:
- Metriksammlung: Deployen Sie Prometheus mit Recording-Rules für Order-Durchsatz, Latenz-Perzentile (p50, p95, p99) und Fehlerraten nach Typ
- Key Dashboards: Erstellen Sie Executive-Overview, operative Echtzeit- und Troubleshooting-Drill-Down-Ansichten in Grafana
- Alerting: Konfigurieren Sie Alerts für p99-Latenz > 2s, Fehlerrate > 1% und Checkout-Erfolgsrate < 99%
- Tracing: Implementieren Sie OpenTelemetry-Auto-Instrumentierung mit Trace-Sampling bei 10% und vollem Tracing für Fehler
- Logging: Strukturierte JSON-Logs mit Order-ID, User-ID und Latenz für Korrelation mit Traces
Verwendung von "observability-engineer". Definieren Sie SLOs für unsere Zahlungs-API mit 99,9% Verfügbarkeitsziel
Erwartetes Ergebnis:
- SLI-Definition: Erfolgreiche Zahlungsanfragen / Gesamtzahl Zahlungsanfragen, gemessen über 5-Minuten-Fenster
- SLO: 99,9% Erfolgsrate über 30-Tage-Rolling-Fenster = 43,8 Minuten erlaubtes Error Budget
- Error-Budget-Alerts: Burn-Rate-Alert bei 2x (87,6 Min/Tag) und 10x (438 Min/Tag) Schwellenwerten
- Verbrauchs-Tracking: Dashboard mit verbleibendem Error Budget, täglicher Burn-Rate und projiziertem Breach-Datum
Sicherheitsaudit
SicherPrompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.
Qualitätsbewertung
Was du bauen kannst
Microservices-Monitoring-Architektur entwerfen
Erstellen Sie eine umfassende Monitoring-Strategie für ein Microservices-System mit 50+ Services, einschließlich Metriksammlung, Distributed Tracing und Alerting.
SLI/SLO-Framework etablieren
Definieren Sie Service-Level-Indikatoren, -Ziele und Error Budgets für API-Services mit 99,9% Verfügbarkeitszielen und Burn-Rate-Monitoring.
Distributed Tracing implementieren
Richten Sie Distributed Tracing für eine E-Commerce-Plattform ein, um Latenz-Engpässe zu identifizieren und Root-Cause-Analysen über Service-Grenzen hinweg durchzuführen.
Probiere diese Prompts
Entwerfen Sie eine Monitoring-Strategie für einen [Service-Typ], der [Traffic-Volumen] Anfragen pro Tag verarbeitet. Include Metriksammlung, Logging-Ansatz und Alerting-Empfehlungen.
Helfen Sie mir, SLIs und SLOs für unsere [Service-Name] API mit [Verfügbarkeitsziel]% Verfügbarkeit zu definieren. Include Error-Budget-Berechnung und Burn-Rate-Alerts.
Erstellen Sie einen Incident-Response-Workflow für [Incident-Typ] einschließlich Alert-Routing, Eskalationsverfahren, Runbook-Empfehlungen und Post-Incident-Analyseprozess.
Analysieren Sie unser aktuelles Observability-Setup und empfehlen Sie Kostensenkungsstrategien. Wir verwenden derzeit [Tools] und generieren [Volumen] Telemetriedaten täglich.
Bewährte Verfahren
- Beginnen Sie mit Business-Outcomes - definieren Sie, was zuverlässiger Service für Benutzer bedeutet, bevor Sie Metriken wählen
- Implementieren Sie progressive Instrumentierung: zuerst Metriken für Sichtbarkeit, dann Traces für Debugging, dann Logs für Details
- Alerten Sie auf Symptome, nicht Ursachen - benachrichtigen Sie, wenn Benutzer betroffen sind, nicht wenn interne Komponenten ausfallen
Vermeiden
- Alerts für jeden möglichen Fehler erstellen - führt zu Alert-Fatigue und ignorierten Benachrichtigungen
- Alles ohne Zweck überwachen - erhöht Kosten und reduziert Signalqualität
- SLOs zu eng festlegen - verursacht unnötigen Stress und Budget-Burnout
Häufig gestellte Fragen
Welche Tools unterstützt dieses Skill?
Kann dieses Skill Monitoring-Infrastruktur bereitstellen?
Wie fange ich mit Observability an?
Was ist der Unterschied zwischen Monitoring und Observability?
Wie reduziere ich Alert-Rauschen?
Was sind SLIs, SLOs und Error Budgets?
Entwicklerdetails
Autor
sickn33Lizenz
MIT
Repository
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineerRef
main
Dateistruktur
📄 SKILL.md