技能 service-mesh-observability

📦

service-mesh-observability

Name: service-mesh-observability
Author: sickn33

安全

实现服务网格可观测性

也可从以下获取: wshobson

为您的服务网格部署设置全面的监控、链路追踪和告警。提供 Istio、Linkerd、Prometheus、Grafana 和 Jaeger 的开箱即用配置。

支持: Claude Codex Code(CC)

📊 71 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“service-mesh-observability”。生成 Istio 指标的 Prometheus 配置

预期结果:

YAML ServiceMonitor，包含针对 istiod 端点的抓取配置、15 秒间隔和用于网格发现的重标签规则。

正在使用“service-mesh-observability”。创建高延迟告警

预期结果:

PrometheusRule，包含用于 P99 延迟阈值的 histogram_quantile 表达式、5 分钟评估窗口和警告严重性注解。

安全审计

安全

v1 • 2/25/2026

This skill is a documentation-only guide for service mesh observability. Static analysis flagged 55 patterns, but all are false positives: backtick commands are markdown code blocks (not execution), hardcoded URLs/IPs are configuration examples, and crypto warnings are triggered by YAML config snippets. No actual code execution, network calls, or filesystem operations occur.

已扫描文件

398

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

100

规范符合性

你能构建什么

平台工程师设置网格监控

为新的 Istio 安装部署完整的可观测性栈，集成 Prometheus、Grafana 和 Jaeger。

SRE 调试生产环境延迟问题

查询分布式追踪以识别微服务间的瓶颈，并设置 P99 延迟告警。

DevOps 团队实施 SLO

为网格流量定义和监控服务级别目标，在错误率阈值触发时自动告警。

试试这些提示

基础网格指标设置

生成 Prometheus ServiceMonitor 配置，以 15 秒间隔抓取 Istio 网格指标。

分布式追踪配置

为 Istio 追踪创建 Jaeger 部署清单，开发环境使用 100% 采样率。

Grafana 仪表盘创建

构建 Grafana 仪表盘 JSON，包含 Istio 的请求率、错误率、P99 延迟和服务拓扑面板。

生产告警规则

编写 PrometheusRule 告警，针对高于 5% 的错误率和超过 1 秒的 P99 延迟设置适当的严重性标签。

最佳实践

开发环境 100% 采样追踪，但生产环境降至 1-10% 以控制存储成本
配置黄金信号告警：延迟、流量、错误和饱和度，设置适当的阈值
在所有服务中一致使用追踪上下文传播，以实现完整的请求可见性

避免

生产环境过度采样追踪导致存储成本过高和性能开销
忽略指标基数限制导致 Prometheus 内存问题和查询缓慢
部署可观测性工具但没有提供可操作见解的仪表盘或告警

常见问题

此技能支持哪些服务网格？

主要支持 Istio 和 Linkerd，提供 Prometheus、Grafana、Jaeger、Kiali 和 OpenTelemetry 集成配置。

此技能会向我的集群部署资源吗？

不支持。此技能生成配置模板和清单，您需手动审查并使用 kubectl apply 应用。

我应该使用什么采样率进行追踪？

开发环境使用 100% 以获得完整可见性。生产环境从 10% 开始，根据流量和存储预算调整。

我可以将此用于托管服务网格吗？

可以。配置适用于托管 Istio（GKE、AKS、EKS）和 Linkerd，尽管某些安装步骤可能与自管理部署不同。

如何将指标与追踪关联？

使用 Prometheus exemplars 将指标数据点链接到追踪 span。配置追踪后端在指标元数据中暴露追踪 ID。

服务网格的黄金信号是什么？

延迟（请求持续时间）、流量（每秒请求数）、错误（5xx 率）和饱和度（资源利用率）。对这些指标的异常设置告警。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/service-mesh-observability

引用

main

文件结构

📄 SKILL.md