技能 it-operations
S

it-operations

低风险 ⚡ 包含脚本🌐 网络访问

Gestionar infraestructura y operaciones de TI

Los equipos de TI luchan con servicios no confiables, respuesta lenta a incidentes y procesos manuales. Esta habilidad proporciona marcos para monitoreo, gestión de incidentes, automatización y recuperación ante desastres para garantizar la confiabilidad del servicio y la excelencia operativa.

支持: Claude Codex Code(CC)
⚠️ 67
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“it-operations”。 Nuestra base de datos de producción está experimentando alto uso de CPU. ¿Qué debemos hacer?

预期结果:

  • Revisar dashboards de monitoreo para tendencias de CPU e identificar horarios de uso máximo
  • Revisar consultas en ejecución para operaciones lentas o que consumen muchos recursos
  • Verificar si los despliegues o cambios de configuración recientes se correlacionan con el problema
  • Considerar mitigación inmediata a través de optimización de consultas o escalamiento temporal
  • Planificar soluciones a largo plazo incluyendo ajuste de consultas, réplicas de lectura o actualizaciones de instancia

正在使用“it-operations”。 Necesitamos configurar rotations de guardia para nuestro equipo de 5 ingenieros

预期结果:

  • Definir política de escalamiento con niveles claros: L1 primer respondedor, L2 líder de equipo, L3 gerente
  • Crear programa de rotación usando herramientas como PagerDuty u Opsgenie
  • Establecer objetivos de tiempo de respuesta: reconocer dentro de 15 minutos, resolver dentro de 4 horas
  • Documentar runbooks para alertas comunes para reducir el tiempo medio de recuperación
  • Programar reuniones semanales de transferencia para transmitir contexto entre ingenieros de guardia

安全审计

低风险
v5 • 1/17/2026

Documentation-only skill containing markdown files with IT operations guidance. Static scanner flagged 720 pattern matches but all are FALSE POSITIVES triggered by legitimate sysadmin examples. No executable code, no network calls, no file system access. Pure prompt-based skill for Claude to provide IT operations expertise.

8
已扫描文件
7,955
分析行数
2
发现项
5
审计总数
审计者: claude 查看审计历史 →

质量评分

38
架构
100
可维护性
87
内容
20
社区
90
安全
83
规范符合性

你能构建什么

Establecer prácticas SRE

Definir SLIs, SLOs y presupuestos de errores para servicios mientras se implementan flujos de trabajo proactivos de monitoreo y respuesta a incidentes.

Construir marcos operativos

Crear procesos de gestión de incidentes, estrategias de respaldo y procedimientos de planificación de capacidad para la organización.

Automatizar tareas de infraestructura

Desarrollar scripts de automatización, playbooks de gestión de configuración y sistemas de auto-sanación para reducir el trabajo manual repetitivo.

试试这些提示

Configuración de monitoreo
Ayúdame a diseñar una estrategia de monitoreo para una aplicación web incluyendo qué métricas rastrear, umbrales de alertas y principios de diseño de dashboards.
Respuesta a incidentes
Recórreme el proceso de respuesta a incidentes para una interrupción de producción incluyendo clasificación de severidad, roles y plantillas de comunicación.
Planificación de recuperación ante desastres
Crea un plan de recuperación ante desastres para nuestros servidores de base de datos incluyendo definiciones de RPO/RTO, estrategias de respaldo y procedimientos de conmutación por falla.
Proyecto de automatización
Ayúdame a identificar oportunidades de alta automatización en nuestro flujo de trabajo de operaciones y diseña un script de automatización para verificaciones de salud del servidor.

最佳实践

  • Implementar monitoreo antes de que ocurran los incidentes en lugar de agregar alertas de manera reactiva
  • Realizar post-mortems sin culpa enfocados en mejoras del sistema y no en culpar a individuos
  • Automatizar tareas repetitivas para reducir el trabajo manual y liberar tiempo para trabajo de ingeniería

避免

  • Ignorar señales de advertencia hasta que pequeños incidentes se conviertan en grandes interrupciones
  • Saltarse post-mortems o no implementar elementos de acción de las revisiones
  • Usar procesos manuales para tareas frecuentes que deberían estar automatizadas

常见问题

¿Qué herramientas de monitoreo soporta esta habilidad?
La habilidad cubre Prometheus, Grafana, Datadog, New Relic, ELK Stack y soluciones de monitoreo nativas de la nube con ejemplos de implementación.
¿Puede esta habilidad ayudar con operaciones de Kubernetes?
Sí, las guías de automatización y monitoreo incluyen ejemplos de Kubernetes para operadores, monitoreo de Prometheus y sistemas de auto-sanación.
¿Esta habilidad ejecuta algún código en mis sistemas?
No, esta habilidad solo proporciona orientación y ejemplos. Todos los fragmentos de código son referencias educativas para que adaptes y ejecutes en tu propio entorno.
¿Cómo manejo las rotaciones de guardia de manera efectiva?
La guía de gestión de incidentes cubre mejores prácticas de guardia incluyendo políticas de escalamiento, programas de rotación e integración con herramientas como PagerDuty.
¿Cuál es la diferencia entre monitoreo y observabilidad?
El monitoreo responde si el sistema está arriba con dashboards predefinidos. La observabilidad ayuda a investigar por qué el sistema se comporta de esta manera a través de métricas, registros y trazas.
¿Cómo se compara esto con las prácticas de SRE?
Esta habilidad incorpora principios de SRE incluyendo presupuestos de errores, reducción de trabajo manual, enfoques de automatización primero y objetivos de nivel de servicio alineados con las necesidades del negocio.