observability-monitoring-slo-implement
Implémenter des SLO et des budgets d'erreur
Concevoir et implémenter des objectifs de niveau de service avec des SLI et des budgets d'erreur pour mesurer et améliorer la fiabilité du système tout en équilibrant la vélocité des fonctionnalités.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "observability-monitoring-slo-implement". Concevoir des SLO pour un nouveau service de checkout e-commerce
Résultat attendu:
Un framework SLO complet incluant : classification par niveau (critique), objectif de disponibilité (99,95%), SLI de latence (p95 < 500ms), SLI de taux d'erreur (< 0,1%), calcul du budget d'erreur (4,38 heures/mois) et seuils d'alerte de taux de consommation.
Utilisation de "observability-monitoring-slo-implement". Créer des règles d'enregistrement Prometheus pour le suivi SLO
Résultat attendu:
Configuration YAML avec des règles d'enregistrement pour le taux de requêtes, le taux de succès sur plusieurs fenêtres temporelles (5m, 30m, 1h), les percentiles de latence (p50, p95, p99) et les calculs de taux de consommation du budget d'erreur.
Audit de sécurité
SûrStatic analysis detected 57 potential issues, but manual review confirms all findings are false positives. The skill contains documentation with Python code examples for SLO implementation - no actual executable code, no network calls, and no cryptographic operations. The placeholder URLs use example.com domain. This is a legitimate DevOps reliability skill.
Problèmes à risque moyen (2)
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
Définir des SLO pour un nouveau service API
Créer des SLO de disponibilité, de latence et de taux d'erreur avec des objectifs appropriés basés sur la criticité du service
Configurer l'alerting de budget d'erreur
Configurer des alertes de taux de consommation multi-fenêtres pour détecter la consommation rapide et lente du budget d'erreur
Établir un processus de revue SLO
Créer des modèles de revue SLO hebdomadaire et des processus de gouvernance pour les équipes d'ingénierie
Essayez ces prompts
Aidez-moi à concevoir des SLO pour mon service de traitement des paiements. Il gère 10 000 requêtes par minute et nécessite une haute fiabilité. Quel objectif de disponibilité devrais-je définir et comment définir les SLI ?
Je dois implémenter des SLI pour un service API REST utilisant Prometheus. Montrez-moi comment créer des requêtes SLI de disponibilité et de latence qui suivent le pourcentage de requêtes réussies et les requêtes sous 500ms.
Configurez des alertes de taux de consommation de budget d'erreur pour mon service avec un objectif SLO de 99,9%. J'ai besoin de règles d'alerte pour la consommation rapide (page immédiatement) et lente (créer un ticket).
Établissez un framework de gouvernance SLO pour mon équipe avec les rôles et responsabilités, des modèles de revue hebdomadaire et des processus de communication avec les parties prenantes.
Bonnes pratiques
- Commencer avec des objectifs SLO conservateurs et les resserrer en fonction des données de performance réelles du service
- Utiliser plusieurs fenêtres temporelles pour les alertes de taux de consommation afin de détecter la consommation rapide et lente du budget
- Aligner les objectifs SLO avec les priorités métier et les attentes des utilisateurs, pas avec la commodité technique
Éviter
- Définir des objectifs SLO trop serrés initialement, entraînant des alertes constantes et la fatigue d'alerte
- Utiliser uniquement des SLI de disponibilité sans considérer les métriques de latence ou de qualité
- Créer des SLO sans alignement des parties prenantes ou contexte métier