技能 error-diagnostics-error-analysis
📦

error-diagnostics-error-analysis

安全

Diagnosticar Errores de Producción

Esta habilidad ayuda a los desarrolladores a diagnosticar y resolver rápidamente errores de producción utilizando técnicas de depuración sistemáticas, análisis de trazabilidad distribuida y patrones de observabilidad integrales.

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“error-diagnostics-error-analysis”。 Error: Database connection timeout after 30s in order-service

预期结果:

  • Análisis: Agotamiento del pool de conexiones detectado
  • Causa raíz: Consultas de larga duración ocupando todas las conexiones
  • Corrección recomendada: Implementar tiempo de espera de consultas y optimizar patrones N+1
  • Prevención: Agregar circuit breaker y monitoreo del pool de conexiones

正在使用“error-diagnostics-error-analysis”。 Intermittent 502 errors in API gateway

预期结果:

  • Patrón: Los errores ocurren durante ventanas de tráfico pico
  • Correlación: Nueva política de autoescalamiento desplegada ayer
  • Causa raíz: Servicios backend escalando más lento que el balanceador de carga
  • Recomendación: Ajustar parámetros de escalamiento y agregar validación de health checks

安全审计

安全
v1 • 2/24/2026

After evaluating 108 static findings, all detections are false positives. The scanner misinterpreted markdown documentation patterns as security issues: backticks in code blocks were flagged as shell execution, example URLs were flagged as network exfiltration, and environment variable reads in example error-tracking code were flagged as credential access. The sensitive data deletion code (lines 751-752) is a security best practice that removes cookies/authorization headers before sending error reports. This is a legitimate error diagnostics skill providing observability documentation.

2
已扫描文件
1,194
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

Investigar Incidentes de Producción

Analizar errores de producción, correlacionar con despliegues e identificar causa raíz usando trazabilidad distribuida y análisis de logs.

Depurar Errores de Aplicación

Examinar stack traces, identificar patrones de error e implementar correcciones para errores a nivel de aplicación.

Mejorar la Observabilidad del Sistema

Diseñar e implementar soluciones integrales de seguimiento de errores, monitoreo y alertas para mejor detección de incidentes.

试试这些提示

Análisis de Error Básico
Analyze this error message and stack trace. Identify the likely cause and suggest a fix: $ERROR_MESSAGE
Depuración de Sistema Distribuido
Debug this distributed system error. The error occurred in service $SERVICE_NAME with trace ID $TRACE_ID. Examine the distributed trace and identify which upstream service caused the failure.
Revisión Post-Incidente
Conduct a post-incident review for this outage. Error pattern: $ERROR_PATTERN. Timeline: $TIMELINE. What were the contributing factors and what preventive measures would you recommend?
Implementación de Observabilidad
Design an observability implementation for a Node.js/Express application. Include error tracking setup with Sentry, distributed tracing with OpenTelemetry, and alerting rules for critical errors.

最佳实践

  • Siempre correlacionar errores con despliegues, cambios de configuración y eventos externos
  • Implementar logging estructurado con IDs de correlación para trazabilidad distribuida
  • Crear lógica de reintento con retroceso exponencial para fallos transitorios
  • Establecer presupuestos de errores y umbrales de alertas basados en impacto al usuario

避免

  • Ignorar errores intermitentes - a menudo indican problemas sistémicos
  • Implementar manejo de errores genérico sin recuperación específica por contexto
  • Enviar datos de error sin procesar a sistemas externos sin eliminar información sensible
  • Configurar umbrales de alertas demasiado bajos, causando fatiga de alertas

常见问题

¿Qué información debo proporcionar para un análisis de errores efectivo?
Proporciona el mensaje de error completo, stack trace completo, marcas de tiempo, nombres de servicios afectados, historial de despliegues recientes y cualquier excerpt de logs relevante.
¿Cómo depuro errores en un sistema distribuido?
Usa IDs de correlación para rastrear solicitudes entre servicios, examina datos de trazabilidad distribuida, identifica el punto de fallo y rastrea hacia atrás para encontrar la causa raíz.
¿Qué herramientas de observabilidad soporta esta habilidad?
La habilidad cubre Sentry, DataDog, OpenTelemetry, Prometheus, Grafana, Jaeger y otras plataformas principales de observabilidad.
¿Puede esta habilidad ayudar a implementar seguimiento de errores?
Sí, el playbook de implementación incluye ejemplos de código para Sentry, DataDog y otras integraciones de SDK de seguimiento de errores.
¿Cómo priorizo los errores para corregir?
Prioriza por impacto al usuario, frecuencia de errores, severidad y si el error indica un problema sistémico o falla de un solo punto.
¿Cuál es la estrategia recomendada de manejo de errores?
Implementa defensa en profundidad: lógica de reintento con backoff, circuit breakers, propagación de errores adecuada, logging integral y alertas automatizadas.