技能 service-mesh-observability
📦

service-mesh-observability

安全

实现服务网格可观测性

也可从以下获取: wshobson

为您的服务网格部署设置全面的监控、链路追踪和告警。提供 Istio、Linkerd、Prometheus、Grafana 和 Jaeger 的开箱即用配置。

支持: Claude Codex Code(CC)
🥉 75 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“service-mesh-observability”。 生成 Istio 指标的 Prometheus 配置

预期结果:

YAML ServiceMonitor,包含针对 istiod 端点的抓取配置、15 秒间隔和用于网格发现的重标签规则。

正在使用“service-mesh-observability”。 创建高延迟告警

预期结果:

PrometheusRule,包含用于 P99 延迟阈值的 histogram_quantile 表达式、5 分钟评估窗口和警告严重性注解。

安全审计

安全
v1 • 2/25/2026

This skill is a documentation-only guide for service mesh observability. Static analysis flagged 55 patterns, but all are false positives: backtick commands are markdown code blocks (not execution), hardcoded URLs/IPs are configuration examples, and crypto warnings are triggered by YAML config snippets. No actual code execution, network calls, or filesystem operations occur.

1
已扫描文件
398
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
100
规范符合性

你能构建什么

平台工程师设置网格监控

为新的 Istio 安装部署完整的可观测性栈,集成 Prometheus、Grafana 和 Jaeger。

SRE 调试生产环境延迟问题

查询分布式追踪以识别微服务间的瓶颈,并设置 P99 延迟告警。

DevOps 团队实施 SLO

为网格流量定义和监控服务级别目标,在错误率阈值触发时自动告警。

试试这些提示

基础网格指标设置
生成 Prometheus ServiceMonitor 配置,以 15 秒间隔抓取 Istio 网格指标。
分布式追踪配置
为 Istio 追踪创建 Jaeger 部署清单,开发环境使用 100% 采样率。
Grafana 仪表盘创建
构建 Grafana 仪表盘 JSON,包含 Istio 的请求率、错误率、P99 延迟和服务拓扑面板。
生产告警规则
编写 PrometheusRule 告警,针对高于 5% 的错误率和超过 1 秒的 P99 延迟设置适当的严重性标签。

最佳实践

  • 开发环境 100% 采样追踪,但生产环境降至 1-10% 以控制存储成本
  • 配置黄金信号告警:延迟、流量、错误和饱和度,设置适当的阈值
  • 在所有服务中一致使用追踪上下文传播,以实现完整的请求可见性

避免

  • 生产环境过度采样追踪导致存储成本过高和性能开销
  • 忽略指标基数限制导致 Prometheus 内存问题和查询缓慢
  • 部署可观测性工具但没有提供可操作见解的仪表盘或告警

常见问题

此技能支持哪些服务网格?
主要支持 Istio 和 Linkerd,提供 Prometheus、Grafana、Jaeger、Kiali 和 OpenTelemetry 集成配置。
此技能会向我的集群部署资源吗?
不支持。此技能生成配置模板和清单,您需手动审查并使用 kubectl apply 应用。
我应该使用什么采样率进行追踪?
开发环境使用 100% 以获得完整可见性。生产环境从 10% 开始,根据流量和存储预算调整。
我可以将此用于托管服务网格吗?
可以。配置适用于托管 Istio(GKE、AKS、EKS)和 Linkerd,尽管某些安装步骤可能与自管理部署不同。
如何将指标与追踪关联?
使用 Prometheus exemplars 将指标数据点链接到追踪 span。配置追踪后端在指标元数据中暴露追踪 ID。
服务网格的黄金信号是什么?
延迟(请求持续时间)、流量(每秒请求数)、错误(5xx 率)和饱和度(资源利用率)。对这些指标的异常设置告警。

开发者详情

文件结构

📄 SKILL.md