observability-monitoring-monitor-setup
设置全面的监控和可观测性
从头实施监控既复杂又容易出错。本技能提供经过验证的指标、追踪和日志模式,可缩短平均修复时间并提供完整的系统可见性。
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "observability-monitoring-monitor-setup". 为具有自动 Pod 发现的 Kubernetes 集群设置 Prometheus 抓取
النتيجة المتوقعة:
- 使用 kubernetes_sd_configs 进行自动发现的 Prometheus 配置
- 抓取目标所需的 Pod 注释
- 用于过滤和标记已发现目标的重新标记规则
- 确认抓取正常工作的验证步骤
استخدام "observability-monitoring-monitor-setup". 创建内存使用率超过 90% 的告警
النتيجة المتوقعة:
- 使用 container_memory_working_set_bytes 的 PromQL 表达式
- 具有适当阈值和持续时间的告警规则
- 调查内存压力的运行手册步骤
- 用于可视化内存趋势的 Grafana 面板查询
التدقيق الأمني
آمنThis skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.
درجة الجودة
ماذا يمكنك بناءه
新服务监控
从第一天起就为新微服务设置完整的可观测性堆栈,包括指标、追踪和日志。
生产事件响应
创建可操作的仪表板和告警以缩短平均修复时间,并实现主动问题检测。
SLO 定义和追踪
使用错误预算定义服务级别目标,并实施燃烧率监控以实现可靠性工程。
جرّب هذه الموجهات
帮我为我的 Node.js API 添加 Prometheus 指标。我需要请求计数、错误率和延迟追踪。向我展示 prom-client 的设置以及如何暴露 /metrics 端点。
为我的支付服务创建 Grafana 仪表板 JSON,展示四个黄金信号。包含请求率、错误率、p95/p99 延迟和饱和度指标的面板。
我需要高错误率(5分钟内超过5%)和慢响应时间(p95 > 1s 持续10分钟)的告警规则。配置 Alertmanager 将关键告警路由到 PagerDuty,将警告路由到 Slack。
为我的 API 定义 SLO,目标可用性为 30 天内 99.9%。向我展示如何计算错误预算、设置多窗口燃烧率告警,以及创建用于 SLO 追踪的 Grafana 面板。
أفضل الممارسات
- 使用与 SLO 目标一致的直方桶进行准确的百分位计算
- 为所有指标添加一致的标签(服务、环境、版本)以便有效过滤
- 在启用通知前针对历史数据测试告警以最大程度减少误报
تجنب
- 监控所有内容而没有明确的责任归属会导致告警疲劳和被忽略的页面
- 使用平均延迟而非百分位会隐藏影响用户的尾部延迟问题
- 在定义仪表板需要回答什么问题之前就设置仪表板会浪费精力