为您的服务网格部署设置全面的监控、链路追踪和告警。提供 Istio、Linkerd、Prometheus、Grafana 和 Jaeger 的开箱即用配置。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“service-mesh-observability”。 生成 Istio 指标的 Prometheus 配置
预期结果:
YAML ServiceMonitor,包含针对 istiod 端点的抓取配置、15 秒间隔和用于网格发现的重标签规则。
正在使用“service-mesh-observability”。 创建高延迟告警
预期结果:
PrometheusRule,包含用于 P99 延迟阈值的 histogram_quantile 表达式、5 分钟评估窗口和警告严重性注解。
安全审计
安全This skill is a documentation-only guide for service mesh observability. Static analysis flagged 55 patterns, but all are false positives: backtick commands are markdown code blocks (not execution), hardcoded URLs/IPs are configuration examples, and crypto warnings are triggered by YAML config snippets. No actual code execution, network calls, or filesystem operations occur.
质量评分
你能构建什么
平台工程师设置网格监控
为新的 Istio 安装部署完整的可观测性栈,集成 Prometheus、Grafana 和 Jaeger。
SRE 调试生产环境延迟问题
查询分布式追踪以识别微服务间的瓶颈,并设置 P99 延迟告警。
DevOps 团队实施 SLO
为网格流量定义和监控服务级别目标,在错误率阈值触发时自动告警。
试试这些提示
生成 Prometheus ServiceMonitor 配置,以 15 秒间隔抓取 Istio 网格指标。
为 Istio 追踪创建 Jaeger 部署清单,开发环境使用 100% 采样率。
构建 Grafana 仪表盘 JSON,包含 Istio 的请求率、错误率、P99 延迟和服务拓扑面板。
编写 PrometheusRule 告警,针对高于 5% 的错误率和超过 1 秒的 P99 延迟设置适当的严重性标签。
最佳实践
- 开发环境 100% 采样追踪,但生产环境降至 1-10% 以控制存储成本
- 配置黄金信号告警:延迟、流量、错误和饱和度,设置适当的阈值
- 在所有服务中一致使用追踪上下文传播,以实现完整的请求可见性
避免
- 生产环境过度采样追踪导致存储成本过高和性能开销
- 忽略指标基数限制导致 Prometheus 内存问题和查询缓慢
- 部署可观测性工具但没有提供可操作见解的仪表盘或告警
常见问题
此技能支持哪些服务网格?
此技能会向我的集群部署资源吗?
我应该使用什么采样率进行追踪?
我可以将此用于托管服务网格吗?
如何将指标与追踪关联?
服务网格的黄金信号是什么?
开发者详情
作者
sickn33许可证
MIT
仓库
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/service-mesh-observability引用
main
文件结构
📄 SKILL.md