Question 1

Wie wähle ich das richtige Scrape-Intervall für meine Metriken?

Accepted Answer

Beginnen Sie mit 15s für die meisten Services. Verwenden Sie 5s für latenzsensitive Systeme oder beim Debugging. Vermeiden Sie Intervalle unter 5s, da sie die Prometheus-Last erhöhen ohne proportionalen Nutzen.

Question 2

Sollte ich jeden Request tracen oder stichproben?

Accepted Answer

Stichproben in Produktion. Verwenden Sie head-basiertes Sampling (z.B. 10% der Requests) für Services mit hohem Traffic. Trace 100% in Staging. Trace immer Fehler unabhängig von der Sampling-Rate.

Question 3

Was ist der Unterschied zwischen RED und USE Monitoring?

Accepted Answer

RED (Rate, Errors, Duration) ist für benutzerorientierte Services. USE (Utilization, Saturation, Errors) ist für Infrastrukturressourcen. Verwenden Sie RED für Application-Monitoring, USE für Nodes und Datenbanken.

Question 4

Wie setze ich aussagekräftige SLO-Ziele?

Accepted Answer

Setzen Sie Ziele basierend auf Benutzererwartungen und Geschäftsanforderungen, nicht auf aktueller Leistung. Beginnen Sie konservativ (99%) und verschärfen Sie, wenn sich die Zuverlässigkeit verbessert. Messen Sie über 28-30-Tage-Fenster.

Question 5

Brauche ich von Anfang an alle drei Säulen (Metriken, Logs, Traces)?

Accepted Answer

Beginnen Sie mit Metriken - sie sind am günstigsten und beantworten 'was kaputt ist'. Fügen Sie Logging hinzu für 'warum es kaputt ging'. Fügen Sie Tracing für verteilte Systeme hinzu, wenn das Debuggen von Service-übergreifenden Problemen schwierig wird.

Question 6

Wie lange sollte ich Monitoring-Daten aufbewahren?

Accepted Answer

Bewahren Sie hochauflösende Metriken (rohe Samples) für 15-30 Tage zum Debugging auf. Verwenden Sie Downsampling oder Recording-Regeln für langfristige Trends. Speichern Sie Logs basierend auf Compliance-Anforderungen, typischerweise mindestens 90 Tage.

observability-monitoring-monitor-setup

Teste es

Sicherheitsaudit

Qualitätsbewertung

Was du bauen kannst

Greenfield-Service-Monitoring

Produktions-Incident-Response

SLO-Definition und -Tracking

Probiere diese Prompts

Bewährte Verfahren

Vermeiden

Häufig gestellte Fragen

Entwicklerdetails