Fähigkeiten slo-implementation

📊

slo-implementation

Name: slo-implementation
Author: sickn33

Sicher

Implementierung von SLOs und Error Budgets für SRE

Auch verfügbar von: wshobson

Balance zwischen Zuverlässigkeit und Feature-Geschwindigkeit durch messbare SLO-Ziele und Error Budgets. Schluss mit Debatten über Zuverlässigkeit - beginnen Sie mit der Messung nach branchenüblichen SRE-Praktiken.

Unterstützt: Claude Codex Code(CC)

📊 71 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "slo-implementation". Helfen Sie mir, SLIs und SLOs für meinen API-Service zu definieren. Ich benötige Verfügbarkeits- und Latenzziele.

Erwartetes Ergebnis:

Hier sind empfohlene SLIs für Ihre API:

Verfügbarkeits-SLI:
- Erfolgreiche Anfragen / Gesamtanfragen
- Ziel: 99,9% (ermöglicht 43,2 Min/Monat Ausfallzeit)
- PromQL: sum(rate(http_requests_total{status!~'5..'}[28d])) / sum(rate(http_requests_total[28d]))

Latenz-SLI (p95 < 500ms):
- Anfragen unter Schwellenwert / Gesamtanfragen
- Ziel: 99% (1% der Anfragen können langsam sein)
- PromQL: sum(rate(http_request_duration_seconds_bucket{le='0.5'}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))

Error Budget:
- 0,1% Budget = 43,2 Minuten/Monat
- Burn-Rate-Alerts implementieren, um zu erkennen, wann Budget zu schnell verbraucht wird

Verwendung von "slo-implementation". Erstellen Sie Prometheus-Alerting-Rules für Multi-Window-Burn-Rate-Erkennung.

Erwartetes Ergebnis:

Multi-Window-Burn-Rate-Alert-Regeln:

Fast-Burn-Alert (Kritisch):
- Fenster: 1 Stunde und 5 Minuten Bestätigung
- Schwellenwert: 14,4x Burn-Rate
- Löst aus bei: Verbrauch von 2% Error Budget in 1 Stunde
- Aktion: On-Call-Ingenieur sofort benachrichtigen

Slow-Burn-Alert (Warnung):
- Fenster: 6 Stunden und 30 Minuten Bestätigung
- Schwellenwert: 6x Burn-Rate
- Löst aus bei: Verbrauch von 5% Error Budget in 6 Stunden
- Aktion: Ticket für nächsten Werktag erstellen

Error Budget aufgebraucht (Kritisch):
- Auslöser: Verbleibendes Error Budget < 0%
- Dauer: 5 Minuten anhaltend
- Aktion: Feature-Freeze, Alle-hands-zur-Zuverlässigkeit

Verwendung von "slo-implementation". Entwerfen Sie eine Error-Budget-Richtlinie für ein 99,9% SLO-Ziel.

Erwartetes Ergebnis:

Error-Budget-Richtlinie für 99,9% SLO:

Budget: 0,1% = 43,2 Minuten pro Monat

Bei 100% Budget verbleibend:
- Normale Entwicklungsgeschwindigkeit
- Alle Features dürfen ausgeliefert werden

Bei 50% Budget verbleibend:
- Nicht-essentielle Änderungen verschieben
- Zusätzliche Tests für Releases erforderlich
- Monitoring-Abdeckung erhöhen

Bei 10% Budget verbleibend:
- Nicht-kritische Features einfrieren
- Nur Sicherheits- und Hotfix-Releases
- Tägliche Zuverlässigkeits-Standups

Bei 0% Budget verbleibend:
- Vollständiger Feature-Freeze
- 100% Fokus auf Zuverlässigkeitsverbesserungen
- Keine Releases ohne SRE-Genehmigung
- Root-Cause-Analyse erforderlich

Sicherheitsaudit

Sicher

v1 • 2/25/2026

Static analysis detected 35 potential security issues, all of which are false positives. The flagged 'Ruby/shell backtick execution' patterns are Markdown code formatting (backticks) used for PromQL queries and YAML examples. The 'weak cryptographic algorithm' flags are documentation text and annotations, not actual encryption code. This skill contains only documentation with no executable code, network operations, or security vulnerabilities.

Gescannte Dateien

344

Analysierte Zeilen

befunde

Gesamtzahl Audits

Probleme mit niedrigem Risiko (2)

SKILL.md:38-45 SKILL.md:52-57 SKILL.md:98-115 SKILL.md:151-194 SKILL.md:198-240

False Positive: Code Block Formatting

Static analyzer flagged Markdown code blocks (using backticks) as 'Ruby/shell backtick execution'. These are documentation code examples for PromQL queries and YAML configurations, not executable shell commands.

SKILL.md:3 SKILL.md:215 SKILL.md:229 SKILL.md:239

False Positive: Documentation Text

Static analyzer flagged 'weak cryptographic algorithm' at lines 3, 215, 229, 239. These are plain text descriptions and YAML comments in documentation, not actual cryptographic implementations.

Auditiert von: claude

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

100

Spezifikationskonformität

Was du bauen kannst

Zuverlässigkeits-Baseline etablieren

Definition initialer SLIs und SLOs für einen neuen Microservice, um messbare Zuverlässigkeitsziele zu setzen und Alerting zu erstellen, das tatsächliche Probleme ohne False-Alarm-Müdigkeit erkennt.

Error-Budget-Governance implementieren

Erstellung von Error-Budget-Richtlinien, die riskante Deployments automatisch einfrieren, wenn die Zuverlässigkeit nachlässt, um Feature-Geschwindigkeit mit Stabilitätsanforderungen in Einklang zu bringen.

Alert-Müdigkeit reduzieren

Ersetzen spröder Schwellenwert-Alerts durch Multi-Window-Burn-Rate-Alerts, die nur bei signifikanter Zuverlässigkeitsverschlechterung auslösen und Benachrichtigungsrauschen um 80% reduzieren.

Probiere diese Prompts

Basis-SLOs definieren

Helfen Sie mir, SLIs und SLOs für meinen API-Service zu definieren. Ich benötige Verfügbarkeits- und Latenzziele.

Error-Budget-Richtlinie erstellen

Entwerfen Sie eine Error-Budget-Richtlinie für ein 99,9% SLO-Ziel. Definieren Sie Aktionen bei 100%, 50%, 10% und 0% verbleibendem Budget.

SLO-Alerts erstellen

Erstellen Sie Prometheus-Alerting-Rules für Multi-Window-Burn-Rate-Erkennung. Verwenden Sie Fast-Burn (1h/5m) und Slow-Burn (6h/30m) Fenster.

SLO-Compliance überprüfen

Analysieren Sie meine aktuellen SLO-Compliance-Daten. Zeigen Sie verbleibendes Error Budget, Burn-Rate-Trends und empfehlen Sie, ob Feature-Releases eingefroren werden sollten.

Bewährte Verfahren

Beginnen Sie mit nutzerorientierten SLIs, die direkt die Kundenerfahrung messen, statt Backend-Metriken
Setzen Sie erreichbare SLOs leicht unter die aktuelle Leistung, um normale Schwankungen zuzulassen und konstantes Alerting zu vermeiden
Verwenden Sie Multi-Window-Burn-Rate-Alerts (kombinieren Sie kurze und lange Fenster), um False Positives durch vorübergehende Spitzen zu eliminieren
Überprüfen Sie SLOs vierteljährlich, um sicherzustellen, dass sie weiterhin Geschäftsprioritäten und tatsächliche Nutzerbedürfnisse widerspiegeln

Vermeiden

SLO-Ziele auf 100% Verfügbarkeit setzen, was das gesamte Error Budget eliminiert und jegliche Feature-Entwicklung verhindert
Alerts auf rohen Metrik-Schwellenwerten statt Burn-Rates erstellen, was Alert-Müdigkeit durch normale Schwankungen verursacht
Zu viele SLIs definieren, was den Fokus verwässert und es unmöglich macht, Zuverlässigkeitsverbesserungen zu priorisieren
SLOs ohne Executive-Buy-In für Error-Budget-Richtlinien implementieren, was die Governance nicht durchsetzbar macht

Häufig gestellte Fragen

Was ist der Unterschied zwischen SLI, SLO und SLA?

SLI (Service Level Indicator) ist eine gemessene Metrik wie Verfügbarkeitsprozentsatz. SLO (Service Level Objective) ist Ihr internes Ziel für diese Metrik, wie 99,9% Verfügbarkeit. SLA (Service Level Agreement) ist die externe Zusage gegenüber Kunden, die niedriger als Ihr internes SLO sein sollte, um einen Puffer zu bieten.

Warum sollte ich nicht 100% Zuverlässigkeit anstreben?

100% Zuverlässigkeit lässt null Error Budget, was bedeutet, dass jeder Vorfall das SLO sofort verletzt. Dies verhindert jegliche Feature-Entwicklung, da Sie kein Risiko eingehen können. Ein 99,9%-Ziel erlaubt 43 Minuten Ausfallzeit pro Monat für Wartung und Experimente bei hervorragender Nutzererfahrung.

Wie wähle ich den richtigen SLO-Prozentsatz?

Analysieren Sie Ihre aktuelle Leistung über 30 Tage, setzen Sie das SLO leicht unter diese Baseline. Berücksichtigen Sie Nutzererwartungen, Wettbewerbs-Benchmarks und Geschäftsauswirkungen. Beginnen Sie konservativ (99%) und verschärfen Sie, sobald Sie Vertrauen aufbauen. Das Ziel sind erreichbare Ziele, die echte Probleme erkennen, nicht Perfektion.

Was ist Multi-Window-Burn-Rate-Alerting?

Multi-Window-Alerts erfordern, dass sowohl ein kurzes Fenster (wie 1 Stunde) als auch ein langes Fenster (wie 6 Stunden) Burn-Rate-Schwellenwerte gleichzeitig überschreiten. Dies eliminiert False Positives durch kurze Spitzen und erkennt anhaltende Verschlechterung. Beispiel: Alert nur, wenn Burn-Rate in sowohl 1-Stunden- als auch 5-Minuten-Fenstern 14,4x überschreitet.

Wie funktioniert Error-Budget-Governance?

Error Budgets übersetzen SLOs in umsetzbare Entwicklungsrichtlinien. Wenn Budget vorhanden ist, Features normal ausliefern. Bei schwindendem Budget riskante Änderungen einfrieren. Bei 0% Budget alle Features stoppen, bis Zuverlässigkeit sich verbessert. Dies schafft eine automatische Feedback-Schleife zur Balance von Innovation und Stabilität.

Welche Tools benötige ich zur SLO-Implementierung?

Sie benötigen ein Metrik-System (Prometheus empfohlen), Visualisierung (Grafana) und Alerting (Alertmanager). Dieser Skill liefert PromQL-Abfragen, Recording-Rules und Alert-Konfigurationen. Deployen Sie diese auf Ihrem bestehenden Monitoring-Stack, dann bauen Sie Dashboards zur Compliance-Verfolgung.

Entwicklerdetails

Autor

sickn33

Lizenz

MIT

Repository

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/slo-implementation

Ref

main

Dateistruktur

📄 SKILL.md