observability-monitoring-monitor-setup
Configurer une surveillance et observabilité complètes
La mise en place d'un système de surveillance à partir de zéro est complexe et sujette aux erreurs. Cette compétence fournit des modèles éprouvés pour les métriques, le traçage et la journalisation qui réduisent le MTTR et offrent une visibilité complète du système.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "observability-monitoring-monitor-setup". Configurer le scraping Prometheus pour un cluster Kubernetes avec découverte automatique des pods
Résultat attendu:
- Configuration Prometheus avec kubernetes_sd_configs pour la découverte automatique
- Annotations de pod requises pour la cible de scraping
- Règles de réétiquetage pour filtrer et taguer les cibles découvertes
- Étapes de vérification pour confirmer que le scraping fonctionne
Utilisation de "observability-monitoring-monitor-setup". Créer une alerte pour une utilisation mémoire dépassant 90%
Résultat attendu:
- Expression PromQL utilisant container_memory_working_set_bytes
- Règle d'alerte avec seuils et durée appropriés
- Étapes de runbook pour investiguer la pression mémoire
- Requête de panneau Grafana pour visualiser les tendances mémoire
Audit de sécurité
SûrThis skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.
Score de qualité
Ce que vous pouvez construire
Surveillance de nouveau service
Configurer une pile d'observabilité complète pour un nouveau microservice dès le premier jour avec métriques, traçage et journalisation.
Réponse aux incidents de production
Créer des tableaux de bord et alertes actionnables pour réduire le MTTR et permettre une détection proactive des problèmes.
Définition et suivi des SLO
Définir des objectifs de niveau de service avec des budgets d'erreur et implémenter une surveillance du taux de consommation pour l'ingénierie de la fiabilité.
Essayez ces prompts
Aidez-moi à ajouter des métriques Prometheus à mon API Node.js. J'ai besoin du comptage de requêtes, du taux d'erreur et du suivi de latence. Montrez-moi la configuration prom-client et comment exposer un endpoint /metrics.
Créez un JSON de tableau de bord Grafana pour mon service de paiement affichant les quatre signaux dorés. Incluez des panneaux pour le taux de requêtes, le taux d'erreur, la latence p95/p99 et les métriques de saturation.
J'ai besoin de règles d'alerte pour un taux d'erreur élevé (>5% pendant 5 minutes) et un temps de réponse lent (p95 >1s pendant 10 minutes). Configurez Alertmanager pour router les alertes critiques vers PagerDuty et les avertissements vers Slack.
Définissez des SLO pour mon API avec une cible de disponibilité de 99,9% sur 30 jours. Montrez-moi comment calculer le budget d'erreur, configurer des alertes de taux de consommation multi-fenêtres et créer des panneaux Grafana pour le suivi des SLO.
Bonnes pratiques
- Utilisez des buckets d'histogramme alignés avec vos cibles SLO pour un calcul précis des percentiles
- Ajoutez des labels cohérents (service, environnement, version) à toutes les métriques pour un filtrage efficace
- Testez les alertes contre des données historiques pour minimiser les faux positifs avant d'activer les notifications
Éviter
- Surveiller tout sans propriété claire conduit à la fatigue des alertes et aux pages ignorées
- Utiliser la latence moyenne au lieu des percentiles masque les problèmes de latence de queue affectant les utilisateurs
- Configurer des tableaux de bord avant de définir les questions auxquelles ils doivent répondre gaspille des efforts