Error Detective
检测并诊断系统中的错误
生产环境错误在分布式系统中难以追踪。此技能可分析日志、关联错误并识别根本原因,从而加速调试过程。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“Error Detective”。 包含重复 NullPointerException 错误的日志文件
预期结果:
在 14:32-14:45 UTC 之间提取了 47 次 NullPointerException 发生。峰值频率:14:38 时每分钟 12 次错误。所有错误均来自 UserService.getUser() 方法。关联:错误在部署 v2.3.1 后 2 分钟开始出现。
正在使用“Error Detective”。 支付服务超时的堆栈跟踪
预期结果:
根本原因:数据库连接池耗尽。证据:ConnectionPool.getConnection 超时(第 142 行),之前有 200 多个待处理请求。修复:将连接池大小从 10 增加到 50,并添加断路器。
安全审计
安全This is a prompt-only skill with no executable code, network access, or filesystem operations. Static analysis scanned 0 files and detected no security patterns. The skill provides guidance for log analysis and error investigation without any attack vectors.
质量评分
你能构建什么
生产环境事件调查
分析生产环境中断期间的错误日志,识别微服务故障的根本原因和时间线。
调试间歇性故障
关联应用程序日志中的零星错误,以发现导致间歇性 bug 的模式和触发条件。
事后分析
在事件后查看历史错误数据,以了解故障链并推荐预防策略。
试试这些提示
分析此日志摘录并提取所有错误消息及其时间戳。对相似错误进行分组,并识别最常见的错误类型。
检查此堆栈跟踪并识别故障的根本原因。解释哪条代码路径触发了错误,并建议修复方案。
我在中断期间有三个微服务的日志。按时间戳关联错误,并识别哪个服务首先发生故障导致了级联。
生成 Elasticsearch 和 Splunk 查询以检测生产环境中的此特定错误模式。包括错误率飙升的告警阈值。
最佳实践
- 在提供日志样本进行分析时,始终包含时间戳和关联 ID
- 共享所有受影响服务的日志,以实现准确的跨系统关联
- 提供可能与错误相关的近期部署或配置更改的上下文
避免
- 不要在日志中共享敏感数据,如 API 密钥、密码或个人信息
- 避免分析没有周围日志上下文的孤立错误消息
- 不要假设第一个可见的错误就是根本原因 - 请追溯整个链条