技能 devops-troubleshooter

🔧

devops-troubleshooter

Name: devops-troubleshooter
Author: sickn33

安全

快速调试生产环境故障

通过AI引导的调试、日志分析和系统化故障排查方法，快速诊断并解决生产环境故障。

支持: Claude Codex Code(CC)

📊 71 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“devops-troubleshooter”。 My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.

预期结果:

这是一个常见的Java on Kubernetes问题。JVM堆内存只是内存占用的一部分。以下是我的评估：

**立即执行的操作：**
1. 检查实际内存使用：`kubectl top pods`
2. 查看JVM标志：确保-Xmx设置适当（通常为容器限制的50-75%）
3. 考虑使用Kubernetes downward API将JVM内存设置为匹配容器限制

**根因：** Java进程使用堆+元空间+线程栈+原生内存。512Mi的限制与默认JVM设置会导致OOMKills。

**推荐修复：**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**预防：** 添加80%阈值的内存使用率告警。

正在使用“devops-troubleshooter”。 We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.

预期结果:

这可能是由几个因素造成的。让我引导您完成故障排查步骤：

**立即调查：**
1. 检查后端响应时间：`curl -w '%{time_total}' http://backend/health`
2. 查看负载均衡器访问日志中的时间模式
3. 检查连接队列是否积压

**常见原因：**
- 后端响应时间过长（检查是否有慢数据库查询）
- 空闲超时设置过于激进
- 负载均衡器与后端之间的keep-alive配置错误
- TLS握手延迟
- 健康检查干扰流量

**后续步骤：**
1. 在负载均衡器上启用详细日志记录
2. 添加后端延迟百分位的自定义指标
3. 检查问题是否与特定请求模式或时间相关

您想让我帮助调查这些具体领域中的哪一个？

安全审计

安全

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

已扫描文件

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

100

规范符合性

你能构建什么

生产环境事件响应

获取从初始评估到根因分析的即时诊断和解决生产环境中断的指导。

Kubernetes集群调试

排查Kubernetes环境中的Pod故障、网络问题、服务网格问题和资源限制。

性能优化

通过日志分析、分布式追踪关联和系统性能分析建议来识别性能瓶颈。

试试这些提示

基本事件分诊

My production service is experiencing [describe issue: high latency/errors/outage]. I have [describe available data: logs from X, metrics from Y]. Help me diagnose the root cause.

Kubernetes Pod调试

I have a Kubernetes pod in [CrashLoopBackOff/Running state] with the following events: [paste kubectl describe output]. The logs show: [paste relevant logs]. What should I investigate?

日志分析请求

I'm seeing this error pattern in my [ELK/Loki/cloud logs]: [paste error messages and timestamps]. The error started [when]. Help me correlate these logs and identify the root cause.

事后分析

We had an incident where [describe incident]. Timeline: [paste timeline]. The following systems were affected: [list]. What systemic issues contributed to this failure and how can we prevent recurrence?

最佳实践

在形成假设之前，始终收集日志、指标和系统状态，以避免误诊
从最简单的解释开始，只有在排除后才升级到复杂原因
记录所有调查步骤和发现，用于事后分析和知识共享

避免

在没有先在受控环境中重现问题的情况下对生产系统进行更改
忽略似乎与主要问题无关的错误信息和症状
关注症状而非根因，导致日后失败的临时修复

常见问题

这个技能可以在我的服务器上执行命令吗？

不，这是一个基于提示的技能，提供指导和建议。您必须自己执行任何命令。

这个技能支持哪些可观测性平台？

它支持ELK Stack、Loki/Grafana、DataDog、New Relic、Jaeger、Zipkin、Prometheus和OpenTelemetry等。

我可以将此技能用于安全事件响应吗？

是的，该技能包含身份验证调试、证书问题和安全日志分析的指导。

此技能是否适用于AWS和Azure等云平台？

是的，它涵盖AWS CloudWatch、Azure Monitor、GCP Cloud Logging和多云故障排查场景。

此技能如何处理Kubernetes调试？

它提供kubectl命令、Pod故障排查、服务网格问题、网络和存储问题的指导。

此技能可以帮助解决CI/CD流水线问题吗？

是的，它涵盖构建失败、部署问题、GitOps问题和流水线优化。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooter

引用

main

文件结构

📄 SKILL.md