error-diagnostics-error-analysis
诊断生产环境错误
此技能帮助开发者使用系统化的调试技术、分布式追踪分析和全面的可观测性模式,快速诊断和解决生产环境错误。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“error-diagnostics-error-analysis”。 Error: Database connection timeout after 30s in order-service
预期结果:
- 分析:检测到连接池耗尽
- 根本原因:长时间运行的查询占用了所有连接
- 推荐修复:实施查询超时并优化 N+1 模式
- 预防:添加断路器并监控连接池
正在使用“error-diagnostics-error-analysis”。 Intermittent 502 errors in API gateway
预期结果:
- 模式:错误在流量高峰期发生
- 关联:昨天部署了新的自动扩展策略
- 根本原因:后端服务扩展速度慢于负载均衡器
- 建议:调整扩展参数并添加健康检查验证
安全审计
安全After evaluating 108 static findings, all detections are false positives. The scanner misinterpreted markdown documentation patterns as security issues: backticks in code blocks were flagged as shell execution, example URLs were flagged as network exfiltration, and environment variable reads in example error-tracking code were flagged as credential access. The sensitive data deletion code (lines 751-752) is a security best practice that removes cookies/authorization headers before sending error reports. This is a legitimate error diagnostics skill providing observability documentation.
质量评分
你能构建什么
调查生产事件
分析生产环境错误,与部署关联,并使用分布式追踪和日志分析识别根本原因。
调试应用程序错误
检查堆栈追踪,识别错误模式,并为应用程序级别的错误实施修复。
提升系统可观测性
设计和实施全面的错误追踪、监控和告警解决方案,以实现更好的事件检测。
试试这些提示
分析此错误信息和堆栈追踪。识别可能的原因并建议修复方案:$ERROR_MESSAGE
调试此分布式系统错误。错误发生在服务 $SERVICE_NAME 中,追踪 ID 为 $TRACE_ID。检查分布式追踪并识别哪个上游服务导致了故障。
为 Node.js/Express 应用程序设计可观测性实施方案。包括使用 Sentry 的错误追踪设置、使用 OpenTelemetry 的分布式追踪,以及针对关键错误的告警规则。
最佳实践
- 始终将错误与部署、配置更改和外部事件关联
- 实施带关联 ID 的结构化日志记录以支持分布式追踪
- 为瞬时故障创建带指数退避的重试逻辑
- 根据用户影响建立错误预算和告警阈值
避免
- 忽略间歇性错误 - 它们通常表明存在系统性问题
- 实施通用错误处理而没有针对特定上下文的恢复机制
- 在未清除敏感信息的情况下将原始错误数据发送到外部系统
- 将告警阈值设置过低,导致告警疲劳