it-operations

Name: it-operations
Author: davila7

Riesgo bajo ⚡ Contiene scripts🌐 Acceso a red

Gestionar infraestructura y operaciones de TI

Los equipos de TI luchan con servicios no confiables, respuesta lenta a incidentes y procesos manuales. Esta habilidad proporciona marcos para monitoreo, gestión de incidentes, automatización y recuperación ante desastres para garantizar la confiabilidad del servicio y la excelencia operativa.

Soporta: Claude Codex Code(CC)

⚠️ 67 Deficiente

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "it-operations". Nuestra base de datos de producción está experimentando alto uso de CPU. ¿Qué debemos hacer?

Resultado esperado:

Revisar dashboards de monitoreo para tendencias de CPU e identificar horarios de uso máximo
Revisar consultas en ejecución para operaciones lentas o que consumen muchos recursos
Verificar si los despliegues o cambios de configuración recientes se correlacionan con el problema
Considerar mitigación inmediata a través de optimización de consultas o escalamiento temporal
Planificar soluciones a largo plazo incluyendo ajuste de consultas, réplicas de lectura o actualizaciones de instancia

Usando "it-operations". Necesitamos configurar rotations de guardia para nuestro equipo de 5 ingenieros

Resultado esperado:

Definir política de escalamiento con niveles claros: L1 primer respondedor, L2 líder de equipo, L3 gerente
Crear programa de rotación usando herramientas como PagerDuty u Opsgenie
Establecer objetivos de tiempo de respuesta: reconocer dentro de 15 minutos, resolver dentro de 4 horas
Documentar runbooks para alertas comunes para reducir el tiempo medio de recuperación
Programar reuniones semanales de transferencia para transmitir contexto entre ingenieros de guardia

Auditoría de seguridad

Riesgo bajo

v5 • 1/17/2026

Documentation-only skill containing markdown files with IT operations guidance. Static scanner flagged 720 pattern matches but all are FALSE POSITIVES triggered by legitimate sysadmin examples. No executable code, no network calls, no file system access. Pure prompt-based skill for Claude to provide IT operations expertise.

Archivos escaneados

7,955

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚡ Contiene scripts (2)

reference/automation.md:481-495 reference/infrastructure.md:73-176

🌐 Acceso a red (1)

reference/infrastructure.md:1008-1045

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Establecer prácticas SRE

Definir SLIs, SLOs y presupuestos de errores para servicios mientras se implementan flujos de trabajo proactivos de monitoreo y respuesta a incidentes.

Construir marcos operativos

Crear procesos de gestión de incidentes, estrategias de respaldo y procedimientos de planificación de capacidad para la organización.

Automatizar tareas de infraestructura

Desarrollar scripts de automatización, playbooks de gestión de configuración y sistemas de auto-sanación para reducir el trabajo manual repetitivo.

Prueba estos prompts

Configuración de monitoreo

Ayúdame a diseñar una estrategia de monitoreo para una aplicación web incluyendo qué métricas rastrear, umbrales de alertas y principios de diseño de dashboards.

Respuesta a incidentes

Recórreme el proceso de respuesta a incidentes para una interrupción de producción incluyendo clasificación de severidad, roles y plantillas de comunicación.

Planificación de recuperación ante desastres

Crea un plan de recuperación ante desastres para nuestros servidores de base de datos incluyendo definiciones de RPO/RTO, estrategias de respaldo y procedimientos de conmutación por falla.

Proyecto de automatización

Ayúdame a identificar oportunidades de alta automatización en nuestro flujo de trabajo de operaciones y diseña un script de automatización para verificaciones de salud del servidor.

Mejores prácticas

Implementar monitoreo antes de que ocurran los incidentes en lugar de agregar alertas de manera reactiva
Realizar post-mortems sin culpa enfocados en mejoras del sistema y no en culpar a individuos
Automatizar tareas repetitivas para reducir el trabajo manual y liberar tiempo para trabajo de ingeniería

Evitar

Ignorar señales de advertencia hasta que pequeños incidentes se conviertan en grandes interrupciones
Saltarse post-mortems o no implementar elementos de acción de las revisiones
Usar procesos manuales para tareas frecuentes que deberían estar automatizadas

Preguntas frecuentes

¿Qué herramientas de monitoreo soporta esta habilidad?

La habilidad cubre Prometheus, Grafana, Datadog, New Relic, ELK Stack y soluciones de monitoreo nativas de la nube con ejemplos de implementación.

¿Puede esta habilidad ayudar con operaciones de Kubernetes?

Sí, las guías de automatización y monitoreo incluyen ejemplos de Kubernetes para operadores, monitoreo de Prometheus y sistemas de auto-sanación.

¿Esta habilidad ejecuta algún código en mis sistemas?

No, esta habilidad solo proporciona orientación y ejemplos. Todos los fragmentos de código son referencias educativas para que adaptes y ejecutes en tu propio entorno.

¿Cómo manejo las rotaciones de guardia de manera efectiva?

La guía de gestión de incidentes cubre mejores prácticas de guardia incluyendo políticas de escalamiento, programas de rotación e integración con herramientas como PagerDuty.

¿Cuál es la diferencia entre monitoreo y observabilidad?

El monitoreo responde si el sistema está arriba con dashboards predefinidos. La observabilidad ayuda a investigar por qué el sistema se comporta de esta manera a través de métricas, registros y trazas.

¿Cómo se compara esto con las prácticas de SRE?

Esta habilidad incorpora principios de SRE incluyendo presupuestos de errores, reducción de trabajo manual, enfoques de automatización primero y objetivos de nivel de servicio alineados con las necesidades del negocio.