المهارات observability-monitoring-monitor-setup
📦

observability-monitoring-monitor-setup

آمن

设置全面的监控和可观测性

从头实施监控既复杂又容易出错。本技能提供经过验证的指标、追踪和日志模式,可缩短平均修复时间并提供完整的系统可见性。

يدعم: Claude Codex Code(CC)
🥉 74 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "observability-monitoring-monitor-setup". 为具有自动 Pod 发现的 Kubernetes 集群设置 Prometheus 抓取

النتيجة المتوقعة:

  • 使用 kubernetes_sd_configs 进行自动发现的 Prometheus 配置
  • 抓取目标所需的 Pod 注释
  • 用于过滤和标记已发现目标的重新标记规则
  • 确认抓取正常工作的验证步骤

استخدام "observability-monitoring-monitor-setup". 创建内存使用率超过 90% 的告警

النتيجة المتوقعة:

  • 使用 container_memory_working_set_bytes 的 PromQL 表达式
  • 具有适当阈值和持续时间的告警规则
  • 调查内存压力的运行手册步骤
  • 用于可视化内存趋势的 Grafana 面板查询

التدقيق الأمني

آمن
v1 • 2/24/2026

This skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.

2
الملفات التي تم فحصها
557
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

新服务监控

从第一天起就为新微服务设置完整的可观测性堆栈,包括指标、追踪和日志。

生产事件响应

创建可操作的仪表板和告警以缩短平均修复时间,并实现主动问题检测。

SLO 定义和追踪

使用错误预算定义服务级别目标,并实施燃烧率监控以实现可靠性工程。

جرّب هذه الموجهات

基础指标设置
帮我为我的 Node.js API 添加 Prometheus 指标。我需要请求计数、错误率和延迟追踪。向我展示 prom-client 的设置以及如何暴露 /metrics 端点。
Grafana 仪表板创建
为我的支付服务创建 Grafana 仪表板 JSON,展示四个黄金信号。包含请求率、错误率、p95/p99 延迟和饱和度指标的面板。
告警配置
我需要高错误率(5分钟内超过5%)和慢响应时间(p95 > 1s 持续10分钟)的告警规则。配置 Alertmanager 将关键告警路由到 PagerDuty,将警告路由到 Slack。
SLO 实现
为我的 API 定义 SLO,目标可用性为 30 天内 99.9%。向我展示如何计算错误预算、设置多窗口燃烧率告警,以及创建用于 SLO 追踪的 Grafana 面板。

أفضل الممارسات

  • 使用与 SLO 目标一致的直方桶进行准确的百分位计算
  • 为所有指标添加一致的标签(服务、环境、版本)以便有效过滤
  • 在启用通知前针对历史数据测试告警以最大程度减少误报

تجنب

  • 监控所有内容而没有明确的责任归属会导致告警疲劳和被忽略的页面
  • 使用平均延迟而非百分位会隐藏影响用户的尾部延迟问题
  • 在定义仪表板需要回答什么问题之前就设置仪表板会浪费精力

الأسئلة المتكررة

如何为我的指标选择正确的抓取间隔?
大多数服务使用 15 秒。在延迟敏感的系统或调试时使用 5 秒。避免使用低于 5 秒的间隔,因为会增加 Prometheus 负载而不会带来相应的好处。
我应该追踪每个请求还是进行采样?
在生产环境中进行采样。对于高流量服务,使用基于头部的采样(例如 10% 的请求)。在预发环境中追踪 100%。无论采样率如何,始终追踪错误。
RED 和 USE 监控有什么区别?
RED(速率、错误、持续时间)适用于面向用户的服务。USE(利用率、饱和度、错误)适用于基础设施资源。将 RED 用于应用监控,将 USE 用于节点和数据库。
如何设置有意义的 SLO 目标?
根据用户期望和业务需求(而非当前性能)设定目标。从保守的(99%)开始,随着可靠性提高而收紧。使用 28-30 天的窗口进行测量。
我是否需要从第一天起就使用所有三个支柱(指标、日志、追踪)?
从指标开始——它们最便宜,可以回答"什么地方坏了"。为"为什么坏了"添加日志。当调试跨服务问题变得困难时,为分布式系统添加追踪。
我应该保留监控数据多长时间?
保留高分辨率指标(原始样本)15-30 天用于调试。使用降采样或记录规则用于长期趋势。根据合规要求存储日志,通常至少 90 天。

تفاصيل المطور

بنية الملفات