技能 debugging-toolkit-smart-debug
🔍

debugging-toolkit-smart-debug

安全

使用AI辅助根因分析调试生产环境问题

通过将系统化调试工作流与AI驱动的模式识别相结合,减少生产事件的平均解决时间。获得结构化的假设生成、可观测性数据关联和经过验证的修复建议。

支持: Claude Codex Code(CC)
🥉 75 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“debugging-toolkit-smart-debug”。 Checkout timeout errors affecting 5% of production traffic, intermittent

预期结果:

  • 问题摘要:5%的结账请求中出现支付处理超时
  • 主要假设(75%):支付方式验证中的N+1查询模式——trace分析显示15+次顺序数据库调用支持此假设
  • 调试策略:为查询计数和支付方式ID添加span属性,部署到10%流量进行金丝雀测试
  • 验证:比较对照组和金丝雀组的延迟百分位数和查询计数

正在使用“debugging-toolkit-smart-debug”。 Memory leak suspected in background job processor

预期结果:

  • 问题摘要:后台任务处理器Pod中内存逐渐增长,需每6小时重启一次
  • 主要假设(60%):无驱逐策略的无限制缓存增长
  • 调试策略:使用Pyroscope启用堆分析,按时间间隔捕获堆快照
  • 验证:实施缓存大小限制后监控RSS内存趋势

安全审计

安全
v1 • 2/24/2026

All static analysis findings were determined to be false positives. The flagged patterns are markdown syntax (backticks for inline code), YAML frontmatter, and documentation examples - not executable code. Line 23 uses backticks for file path reference in markdown. Lines 147-184 contain TypeScript documentation examples illustrating the debugging workflow. No actual command execution, cryptographic operations, or network reconnaissance code exists in this skill.

1
已扫描文件
200
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
100
规范符合性

你能构建什么

生产事件分诊

快速分析传入的生产警报,关联跨服务错误,并为值班工程师生成初步调查假设

间歇性Bug调查

应用统计调试技术识别影响小部分用户或请求的失败模式

事后根因分析

重建执行路径,识别促成因素,并为事件文档生成预防建议

试试这些提示

基础错误分析
Analyze this error and identify the most likely root cause: [paste error message or stack trace]. Include the affected component and recommended first debugging step.
假设生成
Generate 3-5 ranked hypotheses for this issue: [describe symptoms]. For each hypothesis, provide probability score, supporting evidence needed, and how to falsify it.
可观测性查询设计
Design queries to investigate [specific issue] across [list platforms: Sentry, DataDog, logs]. Include specific filters, time ranges, and correlation keys to identify affected users and patterns.
生产安全调试计划
Create a debugging plan for [issue] that can be executed in production without impacting users. Include instrumentation points, feature flag design, sampling strategy, and rollback criteria.

最佳实践

  • 始终将错误与部署时间线关联,以识别近期变更作为潜在原因
  • 使用条件检测和功能标记为特定用户群体启用调试日志,而不影响整体系统性能
  • 记录完整的假设测试过程,包括被证伪的假设,以防止后续调查人员重复相同的路径

避免

  • 添加过多日志而没有采样或速率限制,导致日志量激增而掩盖了信号
  • 在未先收集足够可观测数据的情况下,尝试在开发环境中复现复杂的生产问题
  • 在部署前未建立明确的成功标准和回滚计划就实施修复

常见问题

此技能支持哪些可观测性平台?
该工作流与平台无关,适用于任何可观测性工具。常见集成包括Sentry、DataDog、New Relic、Dynatrace、Jaeger、Zipkin、Honeycomb、ELK、Splunk、Loki、Pyroscope、LogRocket和FullStory。
此技能能否直接访问我的生产系统?
不提供。此技能仅提供指导和分析。您控制对所有可观测性平台的访问并执行所有调试命令。该技能帮助您制定查询、解释结果和规划后续步骤。
调试时如何处理错误日志中的敏感数据?
使用功能标记日志仅为特定测试用户或内部账户启用调试输出。确保在分析前对日志进行脱敏处理。考虑使用生产安全技术,如带认证的只读调试端点。
如果AI生成的假设都不正确怎么办?
工作流包含每个假设的证伪标准。如果所有初始假设都被排除,使用收集的证据生成新假设。结构化方法确保您即使得到负面结果也能积累知识。
如何判断何时应该升级而不是继续调查?
当以下情况时升级:影响超过您的权限阈值、根因跨越多个团队、修复需要架构变更、或调查超出时间预算。交接前记录所有发现。
此技能能否在修复部署后帮助进行预防?
是的。工作流包含预防步骤:AI辅助的回归测试生成、带根因文档的知识库更新、类似问题的监控和告警设置、以及针对未来事件的运行手册更新。

开发者详情

文件结构

📄 SKILL.md