Question 1

Comment choisir le bon intervalle de scraping pour mes métriques ?

Accepted Answer

Commencez avec 15s pour la plupart des services. Utilisez 5s pour les systèmes sensibles à la latence ou lors du débogage. Évitez les intervalles en dessous de 5s car ils augmentent la charge Prometheus sans bénéfice proportionnel.

Question 2

Dois-je tracer chaque requête ou échantillonner ?

Accepted Answer

Échantillonnez en production. Utilisez l'échantillonnage head-based (par ex. 10% des requêtes) pour les services à fort trafic. Tracez 100% en staging. Tracez toujours les erreurs quel que soit le taux d'échantillonnage.

Question 3

Quelle est la différence entre la surveillance RED et USE ?

Accepted Answer

RED (Rate, Errors, Duration) est pour les services面向 utilisateur. USE (Utilization, Saturation, Errors) est pour les ressources d'infrastructure. Utilisez RED pour la surveillance d'application, USE pour les nœuds et bases de données.

Question 4

Comment définir des cibles SLO significatives ?

Accepted Answer

Basez les cibles sur les attentes des utilisateurs et les exigences métier, pas sur les performances actuelles. Commencez de façon conservative (99%) et resserrez au fur et à mesure que la fiabilité s'améliore. Mesurez sur des fenêtres de 28-30 jours.

Question 5

Ai-je besoin des trois piliers (métriques, journaux, traces) dès le premier jour ?

Accepted Answer

Commencez par les métriques - elles sont les moins chères et répondent à 'qu'est-ce qui est cassé'. Ajoutez la journalisation pour 'pourquoi c'est cassé'. Ajoutez le traçage pour les systèmes distribués quand le débogage des problèmes inter-services devient difficile.

Question 6

Pendant combien de temps dois-je conserver les données de surveillance ?

Accepted Answer

Conservez les métriques haute résolution (échantillons bruts) pendant 15-30 jours pour le débogage. Utilisez le sous-échantillonnage ou les règles d'enregistrement pour les tendances à long terme. Stockez les journaux selon les exigences de conformité, typiquement 90 jours minimum.

observability-monitoring-monitor-setup

Tester

Audit de sécurité

Score de qualité

Ce que vous pouvez construire

Surveillance de nouveau service

Réponse aux incidents de production

Définition et suivi des SLO

Essayez ces prompts

Bonnes pratiques

Éviter

Foire aux questions

Détails du développeur