Habilidades incident-responder
🚨

incident-responder

Seguro

Реагирование на производственные инциденты

Получите экспертные рекомендации по управлению производственными инцидентами с использованием структурированных протоколов реагирования, методов исследования на основе наблюдаемости и процессов беспристрастного анализа постфактум для минимизации MTTR и повышения надёжности системы.

Soporta: Claude Codex Code(CC)
📊 71 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "incident-responder". У нас производственный инцидент. Платёжный сервис возвращает ошибки 500 для 30% пользователей.

Resultado esperado:

## Немедленная оценка

**Серьёзность: P1** — Основная функциональность деградирована, значительное влияние на пользователей

### 1. Создание управления инцидентами
- **Incident Commander**: [Назначить сейчас]
- **Technical Lead**: Начать исследование
- **Communication Lead**: Подготовить обновление для заинтересованных сторон

### 2. Быстрая оценка воздействия
- Воздействие на пользователей: ~30% платёжных запросов не выполняются
- Воздействие на бизнес: Вероятно влияние на выручку, возможно нарушение SLA
- Масштаб: Только платёжный сервис, проверить влияние на нижестоящие компоненты

### 3. Варианты немедленной стабилизации
- Проверить недавние развёртывания (последние 30 мин)
- Включить feature flag для отключения платежей при необходимости
- Увеличить количество подов платёжного сервиса при нехватке ресурсов
- Проверить работоспособность пула соединений с базой данных

### 4. Первая коммуникация
- Обновить status page в течение 15 минут
- Внутренне: Создать канал инцидента, уведомить дежурного
- Установить ожидание: Ежечасные обновления для P1

Usando "incident-responder". Помогите написать анализ постфактум для простоя базы данных, вызвавшего 2 часа простоя.

Resultado esperado:

## Шаблон анализа постфактум

### Сводка инцидента
- **Длительность**: [Начало] до [Конец] — 2 часа
- **Воздействие**: Полный простой платёжного сервиса
- **Затронутые пользователи**: 100% пользователей платежей
- **Уровень SEV**: P0

### Временная шкала (локальное время)
- 14:00 — Срабатывание алертов о повышенных уровнях ошибок
- 14:05 — Дежурный подтверждает, начинает исследование
- 14:15 — Корневая причина определена как исчерпание пула соединений БД
- 14:30 — Решение о перезапуске сервиса
- 15:45 — Сервис полностью восстановлен
- 16:00 — Инцидент закрыт

### Анализ корневых причин (пять почему)
1. Почему платёжный сервис не работал? Исчерпан пул соединений с базой данных
2. Почему пул был исчерпан? Приложение допускало утечку соединений во время шторма повторных попыток
3. Почему произошёл шторм повторных попыток? Отсутствовал circuit breaker на нижестоящем API
4. Почему circuit breaker отсутствовал? Функция не была реализована при редизайне
5. Почему? Пробел в требованиях к надёжности во время миграции

### Элементы действий
- [ ] Реализовать паттерн circuit breaker (Ответственный: Team A, Срок: 2 недели)
- [ ] Добавить алерты мониторинга пула соединений (Ответственный: Team B, Срок: 1 неделя)
- [ ] Обновить чеклист миграции для включения требований к надёжности (Ответственный: Team C, Срок: 1 неделя)

Auditoría de seguridad

Seguro
v1 • 2/25/2026

Prompt-only skill containing educational content about SRE incident management practices. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides guidance on incident response procedures, observability practices, and post-incident analysis. No executable code, no network calls, no file operations, and no prompt injection attempts detected. This is a safe, informational skill for incident response education.

0
Archivos escaneados
0
Líneas analizadas
0
hallazgos
1
Auditorías totales
No se encontraron problemas de seguridad
Auditado por: claude

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
87
Contenido
32
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Реагирование на активные производственные инциденты

Используйте во время активных инцидентов для соблюдения структурированных протоколов реагирования, оценки серьёзности, создания управления инцидентами и координации коммуникации с заинтересованными сторонами.

Анализ после инцидента и обучение

Содействуйте проведению беспристрастных анализов постфактум, направляя создание временной шкалы, анализ корневых причин с использованием техники «пять почему» и выявление действенных улучшений.

Практика и обучение SRE

Изучите лучшие практики управления инцидентами, современные методы наблюдаемости и паттерны надёжности для создания более устойчивых систем.

Prueba estos prompts

Первоначальная оценка инцидента
У нас производственный инцидент. Сервис [service name] испытывает [symptoms]. Помогите оценить серьёзность, создать управление инцидентами и определить немедленные шаги по стабилизации.
Исследование и триаж
У нас инцидент [P1/P2], влияющий на [service]. Первоначальное исследование показывает [observed symptoms]. Направьте меня через исследование на основе наблюдаемости для выявления корневой причины.
Коммуникация с заинтересованными сторонами
Мы в середине инцидента [P0/P1]. Мне нужно подготовить обновления для [executives/customers/support team]. Что мне сообщить и как часто?
Содействие анализу постфактум
Помогите провести беспристрастный анализ постфактум для инцидента, где [brief description]. Направьте меня через создание временной шкалы, анализ корневых причин и определение элементов действий.

Mejores prácticas

  • Немедленно создавайте структуру управления инцидентами — неясность владения задерживает решение
  • Коммуницируйте проактивно и часто — заинтересованные стороны предпочитают обновления молчанию
  • Во время активных инцидентов сначала фокусируйтесь на восстановлении сервиса, затем на анализе корневых причин
  • Документируйте всё в реальном времени — временные шкалы и решения сложнее восстановить позже

Evitar

  • Обвинение отдельных лиц в анализах постфактум — вместо этого фокусируйтесь на системах и процессах
  • Пропуск управления инцидентами в пользу «все реагируют» — вызывает хаос координации
  • Задержка коммуникации до получения полной информации — заинтересованным сторонам нужны своевременные обновления
  • Реализация сложных исправлений во время активных инцидентов — предпочитайте минимально жизнеспособные исправления

Preguntas frecuentes

Как быстро мне нужно реагировать на инцидент P0?
Инциденты P0 (критические) требуют подтверждения в течение 15 минут и решения в течение 1 часа. Немедленная эскалация и создание управления инцидентами критически важны.
В чём разница между incident commander и technical lead?
Incident Commander принимает решения, координирует реагирование, управляет коммуникацией. Technical Lead исследует техническую корневую причину и реализует исправления. Разделение ролей предотвращает когнитивную перегрузку.
Как часто мне нужно отправлять обновления об инциденте?
Для активных инцидентов: каждые 15 минут для P0/P1, ежечасно для P2. Обновления должны включать текущий статус, предпринятые действия, следующие шаги и ETA, если известно.
Когда мне нужно объявлять инцидент разрешённым?
Объявляйте разрешение, когда все SLI возвращаются к нормальным пороговым значениям, пользовательский опыт проверен и подтверждён запас мощности. Продолжайте усиленный мониторинг в течение 24 часов после разрешения.
Как провести беспристрастный анализ постфактум?
Фокусируйтесь на том, что произошло и почему, а не на том, кто ошибся. Используйте такие техники, как пять почему или диаграммы Исикавы. Выявляйте системные факторы, а не человеческие ошибки. Открыто делитесь полученными знаниями.
Может ли этот навык выполнять фактические команды устранения?
Нет. Этот навык предоставляет только рекомендации и предложения. Он не может получать доступ к вашим системам, выполнять команды или принимать решения. Всегда проверяйте рекомендации применительно к вашей конкретной среде.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md