技能 linux-troubleshooting

🖥️

linux-troubleshooting

Name: linux-troubleshooting
Author: sickn33

安全 ⚙️ 外部命令

诊断和解决 Linux 系统问题

Linux 管理员面临着需要结构化诊断的复杂系统故障。此工作流提供了一个七阶段方法，系统地识别根本原因并实施经过验证的修复方案。

支持: Claude Codex Code(CC)

📊 69 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“linux-troubleshooting”。服务器运行缓慢。开始故障排除。

预期结果:

阶段 1 - 初始评估完成：
- 系统运行时间：45 天
- 操作系统：Ubuntu 22.04 LTS
- dmesg 中检测到最近的内核更新
阶段 2 - 资源分析：
- CPU: 进程 java 使用 95% (PID 4521)
- 内存：已使用 7.8GB/8GB，大量 swap 活动
- 磁盘：/var 使用率 92%
建议操作：调查 Java 进程内存泄漏并清理 /var/log 中的磁盘空间

正在使用“linux-troubleshooting”。 nginx 服务在配置更改后无法启动

预期结果:

阶段 6 - 服务故障排除结果：
- systemctl status nginx: 失败，退出码 1
- journalctl -u nginx: 'nginx: [emerg] unknown directive' 位于第 47 行
- 配置测试：nginx -t 显示 /etc/nginx/sites-enabled/default 中的语法错误
根本原因：最近的配置编辑引入了无效指令
修复：从备份恢复先前的配置并重新加载 nginx

安全审计

安全

v1 • 2/25/2026

All 47 static analysis findings are false positives. The SKILL.md file is documentation-only (markdown) containing workflow instructions and example commands. The detected 'backtick execution' patterns are markdown code fence markers (```bash), not Ruby/shell backticks. The 'hardcoded URL' and 'reconnaissance' patterns are documented examples for users, not executable code. No actual security risks detected.

已扫描文件

222

分析行数

发现项

审计总数

低风险问题 (1)

SKILL.md:42-47 SKILL.md:68-73

Documentation Contains Shell Command Examples

The skill documentation includes example shell commands for system diagnostics (uptime, top, df, journalctl, etc.). These are intended for user execution via other skills, not direct code execution by this skill.

风险因素

⚙️ 外部命令 (6)

SKILL.md:42-47 SKILL.md:68-73 SKILL.md:94-99 SKILL.md:120-124 SKILL.md:145-150 SKILL.md:171-175

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

生产服务器停机响应

遵循七阶段工作流诊断生产服务器无响应的根本原因（资源耗尽、服务故障或网络问题），并实施经过验证的修复方案。

性能退化调查

使用资源分析和进程调查阶段识别哪些进程消耗了过多的 CPU 或内存，然后与 server-management 技能协作解决问题。

服务故障诊断

应用服务故障排除阶段诊断 systemd 服务无法启动的原因，使用 error-detective 技能审查日志，并实施配置修复。

试试这些提示

基本系统健康检查

使用 linux-troubleshooting 工作流检查系统健康。从阶段 1（初始评估）和阶段 2（资源分析）开始。运行 uptime，使用 top 和 free 检查 CPU 和内存使用情况，使用 df -h 报告磁盘空间。

服务无法启动

关键服务无法启动。遵循阶段 6（服务故障排除）检查 systemctl status，使用 journalctl -u service -f 审查日志，并识别配置问题。然后使用阶段 4（日志分析）在 /var/log/ 中搜索相关错误。

网络连接问题

用户无法访问我们的 Web 服务器。执行阶段 5（网络诊断）使用 ip addr 检查网络接口，使用 ss -tulpn 验证监听端口，使用 curl 测试连接，使用 dig 检查 DNS 解析。将结果与防火墙规则关联。

完整事件响应

生产服务器正在经历关键问题。运行完整的七阶段 linux-troubleshooting 工作流：(1) 初始评估，(2) 资源分析，(3) 进程调查，(4) 日志分析，(5) 网络诊断，(6) 服务故障排除，(7) 解决。记录每个阶段的发现并实施经过验证的修复。

最佳实践

在进入下一阶段之前始终记录每个阶段的发现
通过重新运行诊断命令来验证修复方案以确认问题解决
在解决后创建预防计划以避免问题重复发生

避免

跳过阶段且在没有诊断根本原因的情况下直接重启
在验证已识别的根本原因之前实施修复
在应用解决方案后未能监控系统稳定性

常见问题

使用此工作流需要哪些技能？

此工作流与 bash-linux 协调命令执行，与 performance-engineer 协调资源分析，与 server-management 协调进程和服务管理，与 error-detective 协调日志分析，与 network-engineer 协调网络诊断。每个阶段都指定了要调用的技能。

此工作流能否自动修复问题？

不，这是一个结构化的工作流指南。它提供系统性诊断步骤并与其他技能协调执行命令。所有修复都需要用户批准后才能实施。

如果我只需要检查一个特定区域怎么办？

您可以独立执行单个阶段。例如，仅运行阶段 5 处理网络问题或阶段 4 进行日志分析。工作流是模块化的，每个阶段都是自包含的。

如何记录故障排除过程？

阶段 1 包括收集初始发现，阶段 7 包括创建解决文档。每个阶段都有"记录发现"步骤。工作流鼓励在整个过程中维护故障排除日志。

运行这些诊断需要什么权限？

大多数诊断命令（top、df、ss）使用标准用户权限即可工作。某些命令如 journalctl -xe、strace 和服务管理需要 sudo/root 访问权限。确保您的 Claude Code 会话拥有适当的系统权限。

我可以将此工作流用于容器化环境吗？

可以，但某些命令在容器内的行为可能不同。像 systemctl 这样的命令在没有 systemd 的容器中可能无法工作。通过在使用时使用容器特定的替代方案（docker top、docker logs）来调整工作流。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/linux-troubleshooting

引用

main

文件结构

📄 SKILL.md