it-operations
Gestionar infraestructura y operaciones de TI
Los equipos de TI luchan con servicios no confiables, respuesta lenta a incidentes y procesos manuales. Esta habilidad proporciona marcos para monitoreo, gestión de incidentes, automatización y recuperación ante desastres para garantizar la confiabilidad del servicio y la excelencia operativa.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“it-operations”。 Nuestra base de datos de producción está experimentando alto uso de CPU. ¿Qué debemos hacer?
预期结果:
- Revisar dashboards de monitoreo para tendencias de CPU e identificar horarios de uso máximo
- Revisar consultas en ejecución para operaciones lentas o que consumen muchos recursos
- Verificar si los despliegues o cambios de configuración recientes se correlacionan con el problema
- Considerar mitigación inmediata a través de optimización de consultas o escalamiento temporal
- Planificar soluciones a largo plazo incluyendo ajuste de consultas, réplicas de lectura o actualizaciones de instancia
正在使用“it-operations”。 Necesitamos configurar rotations de guardia para nuestro equipo de 5 ingenieros
预期结果:
- Definir política de escalamiento con niveles claros: L1 primer respondedor, L2 líder de equipo, L3 gerente
- Crear programa de rotación usando herramientas como PagerDuty u Opsgenie
- Establecer objetivos de tiempo de respuesta: reconocer dentro de 15 minutos, resolver dentro de 4 horas
- Documentar runbooks para alertas comunes para reducir el tiempo medio de recuperación
- Programar reuniones semanales de transferencia para transmitir contexto entre ingenieros de guardia
安全审计
低风险Documentation-only skill containing markdown files with IT operations guidance. Static scanner flagged 720 pattern matches but all are FALSE POSITIVES triggered by legitimate sysadmin examples. No executable code, no network calls, no file system access. Pure prompt-based skill for Claude to provide IT operations expertise.
风险因素
质量评分
你能构建什么
Establecer prácticas SRE
Definir SLIs, SLOs y presupuestos de errores para servicios mientras se implementan flujos de trabajo proactivos de monitoreo y respuesta a incidentes.
Construir marcos operativos
Crear procesos de gestión de incidentes, estrategias de respaldo y procedimientos de planificación de capacidad para la organización.
Automatizar tareas de infraestructura
Desarrollar scripts de automatización, playbooks de gestión de configuración y sistemas de auto-sanación para reducir el trabajo manual repetitivo.
试试这些提示
Ayúdame a diseñar una estrategia de monitoreo para una aplicación web incluyendo qué métricas rastrear, umbrales de alertas y principios de diseño de dashboards.
Recórreme el proceso de respuesta a incidentes para una interrupción de producción incluyendo clasificación de severidad, roles y plantillas de comunicación.
Crea un plan de recuperación ante desastres para nuestros servidores de base de datos incluyendo definiciones de RPO/RTO, estrategias de respaldo y procedimientos de conmutación por falla.
Ayúdame a identificar oportunidades de alta automatización en nuestro flujo de trabajo de operaciones y diseña un script de automatización para verificaciones de salud del servidor.
最佳实践
- Implementar monitoreo antes de que ocurran los incidentes en lugar de agregar alertas de manera reactiva
- Realizar post-mortems sin culpa enfocados en mejoras del sistema y no en culpar a individuos
- Automatizar tareas repetitivas para reducir el trabajo manual y liberar tiempo para trabajo de ingeniería
避免
- Ignorar señales de advertencia hasta que pequeños incidentes se conviertan en grandes interrupciones
- Saltarse post-mortems o no implementar elementos de acción de las revisiones
- Usar procesos manuales para tareas frecuentes que deberían estar automatizadas