incident-response-incident-response
Оркестрация рабочих процессов реагирования на инциденты
Этот навык предоставляет структурированный многофазный рабочий процесс реагирования на инциденты для AI-агентов, обеспечивая быстрое обнаружение, расследование, устранение и документирование постмортема в соответствии с современными принципами SRE.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «incident-response-incident-response». Используйте навык incident-response для триажа: API-сервис возвращает 500 ошибки для 30% запросов
Ожидаемый результат:
Уровень серьезности: P1/SEV-2 (Значительная деградация)
Затронутые сервисы: API Gateway, User Service
Влияние на пользователей: 30% неудачных запросов, в основном у аутентифицированных пользователей
Начальное смягчение:
1. Включить circuit breaker для User Service
2. Проверить недавние развертывания для отката
3. Увеличить мощность API Gateway
Командир инцидента: [Назначить]
Технический лид: [Назначить]
Лид по коммуникациям: [Назначить]
Использование «incident-response-incident-response». Используйте навык incident-response для создания постмортема по вчерашнему простою базы данных
Ожидаемый результат:
## Blameless Postmortem — простой базы данных
### Временная шкала
- 14:00 — Сработало оповещение: CPU базы данных на 99%
- 14:05 — Инцидент объявлен P1
- 14:15 — Попытка отката
- 14:30 — Первопричина: исчерпание пула соединений
- 14:45 — Исправление развернуто
- 15:00 — Инцидент устранен
### Первопричина
Скрипт миграции создал в 10 раз больше обычных соединений
### Что прошло хорошо
- Быстрое обнаружение (2 мин)
- Четкая коммуникация
### Задачи
1. Добавить мониторинг пула соединений — Ответственный: Jane — Срок: 28 фев
2. Обновить runbook для миграций — Ответственный: Bob — Срок: 1 мар
Аудит безопасности
БезопасноAll 11 static findings are false positives. The skill is a legitimate incident response workflow guide (markdown documentation). The 'external_commands' detection refers to markdown backticks for file paths, not shell execution. The 'weak cryptographic algorithm' and 'system/network reconnaissance' detections are scanner misinterpretations of incident response terminology (severity levels, observability analysis, root cause analysis). No actual security risks present.
Проблемы высокого риска (3)
Оценка качества
Что вы можете построить
Ведущий SRE-инженер управляет простоем на проде
Используйте полный рабочий процесс для координации ответа команды, поддержания структуры управления инцидентами и обеспечения надлежащей коммуникации во время инцидента уровня sev-1.
DevOps-инженер проводит пост-инцидентный анализ
Используйте Фазу 5 (Постмортем и предотвращение) для документирования временной шкалы инцидента, выявления первопричин и создания задач для улучшения мониторинга.
Дежурный инженер выполняет первоначальную триаж
Используйте Фазу 1 (Обнаружение и триаж) для быстрой классификации уровня серьезности инцидента, оценки воздействия и определения начальных шагов по смягчению.
Попробуйте эти промпты
Используйте навык incident-response для триажа этого оповещения: [ОПИСАНИЕ ОПОВЕЩЕНИЯ]. Определите уровень серьезности (P0-P3), выявите затронутые сервисы, оцените влияние на пользователей и порекомендуйте начальные действия по смягчению.
Используйте навык incident-response для расследования этого инцидента: [ОПИСАНИЕ ИНЦИДЕНТА]. Проведите глубокую отладку, оценку безопасности и анализ производительности для выявления первопричины.
Используйте навык incident-response для координации этого экстренного исправления: [ОПИСАНИЕ ИНЦИДЕНТА И ИСПРАВЛЕНИЯ]. Выполните развертывание с валидацией, мониторингом и готовностью к откату.
Используйте навык incident-response для проведения blameless-постмортема для: [СВОДКА ИНЦИДЕНТА]. Задокументируйте временную шкалу, первопричину, что прошло хорошо, что можно улучшить, и создайте задачи.
Лучшие практики
- Назначьте четкого командира инцидента и роли в течение первых 5 минут любого инцидента P0/P1
- Обновляйте коммуникацию с заинтересованными сторонами каждые 15-30 минут во время активных инцидентов
- Завершайте blameless-постмортем в течение 48 часов с конкретными, назначаемыми задачами
Избегать
- Пропуск классификации серьезности и переход сразу к отладке без понимания воздействия
- Обвинение отдельных людей в постмортемах вместо фокуса на улучшениях системы
- Задержка коммуникации с заинтересованными сторонами до полного устранения инцидента
Часто задаваемые вопросы
Выполняет ли этот навык фактические действия по реагированию на инциденты?
Может ли этот навык заменить мою платформу управления инцидентами?
Какие уровни серьезности поддерживает этот навык?
Как этот навык обрабатывает инциденты безопасности?
Могут ли младшие инженеры эффективно использовать этот навык?
Чем этот навык отличается от общих руководств по отладке?
Сведения для разработчиков
Автор
sickn33Лицензия
MIT
Репозиторий
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-response-incident-responseСсылка
main
Структура файлов
📄 SKILL.md