Question 1

如何为我的指标选择正确的抓取间隔？

Accepted Answer

大多数服务使用 15 秒。在延迟敏感的系统或调试时使用 5 秒。避免使用低于 5 秒的间隔，因为会增加 Prometheus 负载而不会带来相应的好处。

Question 2

我应该追踪每个请求还是进行采样？

Accepted Answer

在生产环境中进行采样。对于高流量服务，使用基于头部的采样（例如 10% 的请求）。在预发环境中追踪 100%。无论采样率如何，始终追踪错误。

Question 3

RED 和 USE 监控有什么区别？

Accepted Answer

RED（速率、错误、持续时间）适用于面向用户的服务。USE（利用率、饱和度、错误）适用于基础设施资源。将 RED 用于应用监控，将 USE 用于节点和数据库。

Question 4

如何设置有意义的 SLO 目标？

Accepted Answer

根据用户期望和业务需求（而非当前性能）设定目标。从保守的（99%）开始，随着可靠性提高而收紧。使用 28-30 天的窗口进行测量。

Question 5

我是否需要从第一天起就使用所有三个支柱（指标、日志、追踪）？

Accepted Answer

从指标开始——它们最便宜，可以回答"什么地方坏了"。为"为什么坏了"添加日志。当调试跨服务问题变得困难时，为分布式系统添加追踪。

Question 6

我应该保留监控数据多长时间？

Accepted Answer

保留高分辨率指标（原始样本）15-30 天用于调试。使用降采样或记录规则用于长期趋势。根据合规要求存储日志，通常至少 90 天。

observability-monitoring-monitor-setup

测试它