incident-response-smart-fix
Resuelve incidentes con orquestación de IA multi-agente
Los incidentes de producción requieren una investigación coordinada a través de múltiples sistemas y dominios. Este flujo de trabajo orquesta agentes de IA especializados a través de un pipeline probado de cinco fases para diagnosticar causas raíz, implementar correcciones y prevenir recurrencias.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“incident-response-smart-fix”。 Usuarios experimentando errores de timeout en la página de checkout con 500+ errores por hora
预期结果:
Causa raíz identificada: Falta de índice de base de datos en la columna user_id causando tiempos de consulta de 5 segundos. Corrección implementada: Añadido índice reduciendo tiempo de consulta a 50ms, añadido caché Redis para perfiles de usuario. Pruebas: 24 pruebas unitarias, 8 pruebas de integración, todas pasando. Monitoreo: Alertas configuradas para latencia p95 de consultas y tasa de aciertos de caché. Despliegue: Rollout canary al 5% del tráfico con criterios de abortar definidos.
正在使用“incident-response-smart-fix”。 TypeError Cannot read property map of undefined afectando a usuarios de Safari iOS 14
预期结果:
Causa raíz identificada: La API devuelve null en lugar de array vacío cuando no hay resultados. Corrección implementada: Añadidas verificaciones de null y guards de tipo en frontend, actualizado backend para devolver array vacío según contrato de API. Pruebas: Suite de pruebas cross-browser pasando incluyendo iOS 14 Safari. Prevención: TypeScript strict null checks habilitado, especificación OpenAPI actualizada para documentar tipo de retorno array.
安全审计
安全Static analyzer detected 62 patterns but all are FALSE POSITIVES. The skill consists entirely of Markdown documentation files (.md) describing incident response workflows. Patterns flagged as 'external commands' are bash code blocks in documentation, not executable code. 'Windows SAM database' and 'weak crypto' references appear in example output templates, not actual implementations. No executable code, network calls, or file system operations present.
质量评分
你能构建什么
Investigación y corrección de errores de producción
Usar cuando los errores de producción están afectando a usuarios y requieren diagnóstico y resolución rápidos. El flujo de trabajo analiza firmas de error, identifica la causa raíz mediante git bisect y análisis de código, implementa una corrección con pruebas y verifica que no haya regresiones antes del despliegue.
Degradación de rendimiento entre sistemas
Usar cuando los problemas de rendimiento abarcan múltiples servicios o capas (base de datos, aplicación, caché). El flujo de trabajo coordina optimizadores de bases de datos, ingenieros de rendimiento y especialistas en DevOps para identificar cuellos de botella e implementar optimizaciones con monitoreo.
Remediación de vulnerabilidades de seguridad
Usar cuando los escaneos de seguridad identifican vulnerabilidades que requieren cambios de código. El flujo de trabajo enruta a especialistas en seguridad para implementación de correcciones, añade pruebas de seguridad, realiza validación de pruebas de penetración y documenta mejoras de seguridad.
试试这些提示
Analiza este error e implementa una corrección: [pegar mensaje de error]. Ejecuta pruebas básicas para verificar que la corrección funciona. Concéntrate en resolver el problema inmediato con cambios mínimos.
Investiga este incidente de producción: [describir síntomas]. Sigue el flujo de trabajo de cuatro fases: (1) analiza trazas de error y registros, (2) identifica la causa raíz con git bisect y análisis de código, (3) implementa la corrección con pruebas completas, (4) ejecuta suite de regresión y validación de rendimiento. Incluye plan de rollback.
Responde a este incidente crítico: [describir impacto]. Ejecuta el flujo de trabajo completo de cinco fases incluyendo prevención a largo plazo. Añade reglas de análisis estático, mejoras del sistema de tipos, alertas de monitoreo y crea un postmortem. Configura despliegue canary con métricas de éxito y criterios de abortar.
Orquesta la resolución de este problema entre sistemas: [describir sistemas involucrados]. Coordina agentes en secuencia: [listar agentes]. Pasa contexto explícito entre fases incluyendo trabajo completado, hallazgos clave y tareas pendientes. Verifica puntos de integración y comportamiento end-to-end.
最佳实践
- Siempre identifica la causa raíz antes de implementar correcciones - usa git bisect y datos de observabilidad para entender el mecanismo de fallo, no solo los síntomas
- Implementa medidas de prevención para incidentes de alta severidad - añade reglas de análisis estático, mejoras de tipos y monitoreo para detectar problemas similares tempranamente
- Documenta planes de rollback y métricas de éxito antes del despliegue - define criterios de abortar claros y monitorea métricas clave durante el rollout canary
避免
- Corregir síntomas sin entender la causa raíz - esto lleva a problemas recurrentes y deuda técnica
- Saltar fases de verificación por velocidad - las pruebas inadecuadas causan regresiones y extienden el tiempo medio de recuperación
- Implementar correcciones sin medidas de prevención - el mismo patrón de vulnerabilidad reaparecerá en otras ubicaciones del código
常见问题
¿Cómo elijo el nivel de verificación apropiado?
¿Qué pasa si el problema abarca múltiples dominios tecnológicos?
¿Cómo manejo problemas en lenguajes sin un agente especialista?
¿Puede este flujo de trabajo manejar incidentes que requieren acción inmediata?
¿Qué datos de observabilidad necesito proporcionar?
¿Cómo sé cuándo el incidente está completamente resuelto?
开发者详情
作者
sickn33许可证
MIT
仓库
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-response-smart-fix引用
main
文件结构