monitoring-observability
Configurer la surveillance et l'observabilité
Cette compétence aide les développeurs et les ingénieurs DevOps à mettre en œuvre des systèmes complets de surveillance, de journalisation et d'alerte en utilisant des outils standard de l'industrie comme Prometheus et Grafana.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "monitoring-observability". Configurer les métriques Prometheus pour mon application Express
Résultat attendu:
Configuration du point de terminaison des métriques avec histogramme personnalisé pour la durée des requêtes, compteur pour le nombre total de requêtes et métriques système par défaut.
Utilisation de "monitoring-observability". Créer des alertes pour un taux d'erreur élevé
Résultat attendu:
Règle d'alerte Prometheus avec évaluation de 5 minutes, seuil de 5% pour les erreurs 5xx, étiquette de sévérité critique.
Audit de sécurité
SûrThis is a documentation skill containing example code for monitoring systems. All static findings are false positives: the detected patterns are legitimate code examples (TypeScript, YAML), standard Node.js environment variable usage for configuration, documentation links to known monitoring tools, and Prometheus query syntax. No actual security risks present.
Motifs détectés
Score de qualité
Ce que vous pouvez construire
Configuration de la surveillance en production
Mettre en place une surveillance complète avant de déployer les applications en production
Préparation à la réponse aux incidents
Créer des règles d'alerte et des tableaux de bord pour une identification rapide de la cause racine pendant les incidents
Optimisation des performances
Identifier les goulots d'étranglement grâce à la collecte et la visualisation des métriques
Essayez ces prompts
Configurer la collecte de métriques Prometheus pour mon application Node.js Express. Inclure les métriques par défaut et un histogramme personnalisé pour la durée des requêtes HTTP.
Créer des règles d'alerte Prometheus pour un taux d'erreur élevé (erreurs 5xx supérieures à 5%), un temps de réponse lent (p95 supérieur à 1 seconde) et une indisponibilité du service.
Implémenter le logger Winston avec format JSON, horodatage et traces d'erreur pour mon application Node.js.
Créer un point de terminaison /health qui vérifie la connectivité de la base de données, la disponibilité de Redis et retourne l'état global du service.
Bonnes pratiques
- Définir des objectifs de niveau de service (SLO) clairs avant de configurer les alertes pour éviter la fatigue d'alertes
- Utiliser les étiquettes à cardinalité élevée avec précaution pour éviter les problèmes de performance dans Prometheus
- Écrire des runbooks pour chaque alerte afin de permettre une réponse rapide aux incidents
Éviter
- Ne pas journaliser de données sensibles comme les mots de passe, les clés API ou les informations personnellement identifiables
- Éviter de créer trop d'alertes ce qui entraîne de la fatigue d'alertes et des notifications ignorées
- Ne pas utiliser d'étiquettes à cardinalité élevée comme les IDs utilisateur ou les jetons de session dans les métriques
Foire aux questions
Quelle est la différence entre les métriques et les journaux ?
Que sont les signaux clés dans la surveillance ?
Comment éviter la fatigue d'alertes ?
Qu'est-ce que le modèle pull de Prometheus ?
Comment surveiller des métriques métier personnalisées ?
Que doit contenir une vérification de l'état ?
Détails du développeur
Auteur
supercent-ioLicence
MIT
Dépôt
https://github.com/supercent-io/skills-template/tree/main/.agent-skills/monitoring-observability/Réf
main
Structure de fichiers
📄 SKILL.md