技能 error-diagnostics-error-analysis

📦

error-diagnostics-error-analysis

Name: error-diagnostics-error-analysis
Author: sickn33

安全

诊断生产环境错误

此技能帮助开发者使用系统化的调试技术、分布式追踪分析和全面的可观测性模式，快速诊断和解决生产环境错误。

支持: Claude Codex Code(CC)

📊 70 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“error-diagnostics-error-analysis”。 Error: Database connection timeout after 30s in order-service

预期结果:

分析：检测到连接池耗尽
根本原因：长时间运行的查询占用了所有连接
推荐修复：实施查询超时并优化 N+1 模式
预防：添加断路器并监控连接池

正在使用“error-diagnostics-error-analysis”。 Intermittent 502 errors in API gateway

预期结果:

模式：错误在流量高峰期发生
关联：昨天部署了新的自动扩展策略
根本原因：后端服务扩展速度慢于负载均衡器
建议：调整扩展参数并添加健康检查验证

安全审计

安全

v1 • 2/24/2026

After evaluating 108 static findings, all detections are false positives. The scanner misinterpreted markdown documentation patterns as security issues: backticks in code blocks were flagged as shell execution, example URLs were flagged as network exfiltration, and environment variable reads in example error-tracking code were flagged as credential access. The sensitive data deletion code (lines 751-752) is a security best practice that removes cookies/authorization headers before sending error reports. This is a legitimate error diagnostics skill providing observability documentation.

已扫描文件

1,194

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

调查生产事件

分析生产环境错误，与部署关联，并使用分布式追踪和日志分析识别根本原因。

调试应用程序错误

检查堆栈追踪，识别错误模式，并为应用程序级别的错误实施修复。

提升系统可观测性

设计和实施全面的错误追踪、监控和告警解决方案，以实现更好的事件检测。

试试这些提示

基本错误分析

分析此错误信息和堆栈追踪。识别可能的原因并建议修复方案：$ERROR_MESSAGE

分布式系统调试

调试此分布式系统错误。错误发生在服务 $SERVICE_NAME 中，追踪 ID 为 $TRACE_ID。检查分布式追踪并识别哪个上游服务导致了故障。

事件后审查

可观测性实施

为 Node.js/Express 应用程序设计可观测性实施方案。包括使用 Sentry 的错误追踪设置、使用 OpenTelemetry 的分布式追踪，以及针对关键错误的告警规则。

最佳实践

始终将错误与部署、配置更改和外部事件关联
实施带关联 ID 的结构化日志记录以支持分布式追踪
为瞬时故障创建带指数退避的重试逻辑
根据用户影响建立错误预算和告警阈值

避免

忽略间歇性错误 - 它们通常表明存在系统性问题
实施通用错误处理而没有针对特定上下文的恢复机制
在未清除敏感信息的情况下将原始错误数据发送到外部系统
将告警阈值设置过低，导致告警疲劳

常见问题

为了进行有效的错误分析，我应该提供哪些信息？

提供完整的错误信息、完整堆栈追踪、时间戳、受影响的服务名称、最近的部署历史以及任何相关的日志摘录。

如何调试分布式系统中的错误？

使用关联 ID 跨服务追踪请求，检查分布式追踪数据，识别故障点，然后向后追踪以找到根本原因。

此技能支持哪些可观测性工具？

此技能涵盖 Sentry、DataDog、OpenTelemetry、Prometheus、Grafana、Jaeger 以及其他主流可观测性平台。

此技能能帮助实施错误追踪吗？

是的，实施手册包含用于 Sentry、DataDog 和其他错误追踪 SDK 集成的代码示例。

如何确定修复错误的优先级？

根据用户影响、错误频率、严重程度以及错误是否表明存在系统性问题或单点故障来进行优先级排序。

推荐的错误处理策略是什么？

实施纵深防御：带退避的重试逻辑、断路器、适当的错误传播、全面的日志记录和自动化告警。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/error-diagnostics-error-analysis

引用

main

文件结构

📁 resources/

📄 implementation-playbook.md

📄 SKILL.md