Question 1

Quelle est la différence entre les métriques et les journaux ?

Accepted Answer

Les métriques sont des mesures numériques collectées à des intervalles (comme le taux de requêtes), tandis que les journaux sont des événements discrets avec un contexte détaillé. Utilisez les métriques pour les alertes et les tableaux de bord, les journaux pour le débogage de problèmes spécifiques.

Question 2

Que sont les signaux clés dans la surveillance ?

Accepted Answer

Les signaux clés sont quatre métriques essentielles : la latence (temps de réponse), le trafic (volume de requêtes), les erreurs (taux d'erreur) et la saturation (utilisation des ressources). Celles-ci offrent une visibilité complète sur la santé du système.

Question 3

Comment éviter la fatigue d'alertes ?

Accepted Answer

Créez uniquement des alertes pour des problèmes actionnables nécessitant une réponse immédiate. Définissez des seuils et des durées d'évaluation appropriés. Documentez un runbook pour chaque alerte.

Question 4

Qu'est-ce que le modèle pull de Prometheus ?

Accepted Answer

Prometheus récupère les métriques des cibles à des intervalles configurés plutôt que d'avoir les applications à envoyer les données. Cela offre une meilleure fiabilité et simplifie le code de l'application.

Question 5

Comment surveiller des métriques métier personnalisées ?

Accepted Answer

Utilisez les bibliothèques clientes Prometheus pour définir des compteurs, jauges, histogrammes ou résumés personnalisés dans votre code d'application. Exposez-les via un point de terminaison /metrics.

Question 6

Que doit contenir une vérification de l'état ?

Accepted Answer

Une vérification de l'état doit vérifier les dépendances critiques (base de données, cache, API externes), retourner l'état global (sain/dégradé/malsain) et inclure les informations de latence pour chaque vérification.

monitoring-observability

Tester

Audit de sécurité

Motifs détectés

Score de qualité

Ce que vous pouvez construire

Configuration de la surveillance en production

Préparation à la réponse aux incidents

Optimisation des performances

Essayez ces prompts

Bonnes pratiques

Éviter

Foire aux questions

Détails du développeur