技能 incident-response-smart-fix
📦

incident-response-smart-fix

安全

Resuelve incidentes con orquestación de IA multi-agente

Los incidentes de producción requieren una investigación coordinada a través de múltiples sistemas y dominios. Este flujo de trabajo orquesta agentes de IA especializados a través de un pipeline probado de cinco fases para diagnosticar causas raíz, implementar correcciones y prevenir recurrencias.

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“incident-response-smart-fix”。 Usuarios experimentando errores de timeout en la página de checkout con 500+ errores por hora

预期结果:

Causa raíz identificada: Falta de índice de base de datos en la columna user_id causando tiempos de consulta de 5 segundos. Corrección implementada: Añadido índice reduciendo tiempo de consulta a 50ms, añadido caché Redis para perfiles de usuario. Pruebas: 24 pruebas unitarias, 8 pruebas de integración, todas pasando. Monitoreo: Alertas configuradas para latencia p95 de consultas y tasa de aciertos de caché. Despliegue: Rollout canary al 5% del tráfico con criterios de abortar definidos.

正在使用“incident-response-smart-fix”。 TypeError Cannot read property map of undefined afectando a usuarios de Safari iOS 14

预期结果:

Causa raíz identificada: La API devuelve null en lugar de array vacío cuando no hay resultados. Corrección implementada: Añadidas verificaciones de null y guards de tipo en frontend, actualizado backend para devolver array vacío según contrato de API. Pruebas: Suite de pruebas cross-browser pasando incluyendo iOS 14 Safari. Prevención: TypeScript strict null checks habilitado, especificación OpenAPI actualizada para documentar tipo de retorno array.

安全审计

安全
v1 • 2/25/2026

Static analyzer detected 62 patterns but all are FALSE POSITIVES. The skill consists entirely of Markdown documentation files (.md) describing incident response workflows. Patterns flagged as 'external commands' are bash code blocks in documentation, not executable code. 'Windows SAM database' and 'weak crypto' references appear in example output templates, not actual implementations. No executable code, network calls, or file system operations present.

2
已扫描文件
871
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

Investigación y corrección de errores de producción

Usar cuando los errores de producción están afectando a usuarios y requieren diagnóstico y resolución rápidos. El flujo de trabajo analiza firmas de error, identifica la causa raíz mediante git bisect y análisis de código, implementa una corrección con pruebas y verifica que no haya regresiones antes del despliegue.

Degradación de rendimiento entre sistemas

Usar cuando los problemas de rendimiento abarcan múltiples servicios o capas (base de datos, aplicación, caché). El flujo de trabajo coordina optimizadores de bases de datos, ingenieros de rendimiento y especialistas en DevOps para identificar cuellos de botella e implementar optimizaciones con monitoreo.

Remediación de vulnerabilidades de seguridad

Usar cuando los escaneos de seguridad identifican vulnerabilidades que requieren cambios de código. El flujo de trabajo enruta a especialistas en seguridad para implementación de correcciones, añade pruebas de seguridad, realiza validación de pruebas de penetración y documenta mejoras de seguridad.

试试这些提示

Corrección rápida de errores con pruebas básicas
Analiza este error e implementa una corrección: [pegar mensaje de error]. Ejecuta pruebas básicas para verificar que la corrección funciona. Concéntrate en resolver el problema inmediato con cambios mínimos.
Respuesta estándar a incidentes con verificación completa
Investiga este incidente de producción: [describir síntomas]. Sigue el flujo de trabajo de cuatro fases: (1) analiza trazas de error y registros, (2) identifica la causa raíz con git bisect y análisis de código, (3) implementa la corrección con pruebas completas, (4) ejecuta suite de regresión y validación de rendimiento. Incluye plan de rollback.
Incidente de alta severidad con medidas de prevención
Responde a este incidente crítico: [describir impacto]. Ejecuta el flujo de trabajo completo de cinco fases incluyendo prevención a largo plazo. Añade reglas de análisis estático, mejoras del sistema de tipos, alertas de monitoreo y crea un postmortem. Configura despliegue canary con métricas de éxito y criterios de abortar.
Coordinación multi-dominio para problemas complejos
Orquesta la resolución de este problema entre sistemas: [describir sistemas involucrados]. Coordina agentes en secuencia: [listar agentes]. Pasa contexto explícito entre fases incluyendo trabajo completado, hallazgos clave y tareas pendientes. Verifica puntos de integración y comportamiento end-to-end.

最佳实践

  • Siempre identifica la causa raíz antes de implementar correcciones - usa git bisect y datos de observabilidad para entender el mecanismo de fallo, no solo los síntomas
  • Implementa medidas de prevención para incidentes de alta severidad - añade reglas de análisis estático, mejoras de tipos y monitoreo para detectar problemas similares tempranamente
  • Documenta planes de rollback y métricas de éxito antes del despliegue - define criterios de abortar claros y monitorea métricas clave durante el rollout canary

避免

  • Corregir síntomas sin entender la causa raíz - esto lleva a problemas recurrentes y deuda técnica
  • Saltar fases de verificación por velocidad - las pruebas inadecuadas causan regresiones y extienden el tiempo medio de recuperación
  • Implementar correcciones sin medidas de prevención - el mismo patrón de vulnerabilidad reaparecerá en otras ubicaciones del código

常见问题

¿Cómo elijo el nivel de verificación apropiado?
Usa mínimo para cambios de bajo riesgo como documentación o correcciones cosméticas. Usa estándar para la mayoría de errores de producción. Usa exhaustivo para problemas de seguridad, problemas de rendimiento o incidentes de alto impacto que afectan ingresos o muchos usuarios.
¿Qué pasa si el problema abarca múltiples dominios tecnológicos?
Usa el patrón de coordinación multi-dominio. Secuencia agentes especializados (por ejemplo: database-optimizer luego performance-engineer luego devops-troubleshooter) con paso de contexto explícito entre cada fase usando la plantilla de paso de contexto.
¿Cómo manejo problemas en lenguajes sin un agente especialista?
Enruta al debugger general y agentes code-reviewer para análisis. Para implementación, usa agentes disponibles con paradigmas similares o implementa manualmente siguiendo el diseño de corrección proporcionado por la fase de revisión.
¿Puede este flujo de trabajo manejar incidentes que requieren acción inmediata?
Sí, usa el nivel de verificación mínimo y estrategia de despliegue inmediato para hotfixes. Concéntrate primero en la mitigación rápida, luego sigue con análisis exhaustivo y medidas de prevención una vez resuelto el impacto inmediato.
¿Qué datos de observabilidad necesito proporcionar?
Idealmente proporciona trazas de error de Sentry o similar, registros relevantes con IDs de correlación, trazas distribuidas de OpenTelemetry o Jaeger, y métricas APM mostrando tendencias de latencia y tasa de errores. Más datos permite identificación de causa raíz más rápida y precisa.
¿Cómo sé cuándo el incidente está completamente resuelto?
Un incidente está resuelto cuando: todas las pruebas pasan con cero regresiones, los benchmarks de rendimiento están dentro de umbrales aceptables, el monitoreo muestra que las tasas de error volvieron a la línea base, el plan de rollback está documentado y las medidas de prevención están implementadas para detectar problemas similares.