Навыки context-degradation
📦

context-degradation

Безопасно

Обнаружение деградации контекста в LLM

Также доступно от: Asmayaseen,ChakshuGautam,muratcankoylan

Языковые модели демонстрируют предсказуемое снижение производительности по мере увеличения длины контекста. Этот навык помогает диагностировать паттерны lost-in-middle, отравления, отвлечения и конфликтов для создания более надёжных AI-систем.

Поддерживает: Claude Codex Code(CC)
⚠️ 65 Плохо
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «context-degradation». Conversation has 60000 tokens. Agent started producing incorrect summaries after turn 20.

Ожидаемый результат:

Analysis: Context degradation detected. The lost-in-middle phenomenon is likely causing the agent to miss key information from the middle of context. Recommendation: Apply compaction to summarize earlier context, or restructure to place critical info at edges.

Использование «context-degradation». User asks about code from turn 1, but agent refers to wrong implementation from turn 15.

Ожидаемый результат:

Analysis: Context clash detected. Multiple implementations exist in context with conflicting details. Recommendation: Use explicit versioning and mark conflicts for clarification before proceeding.

Аудит безопасности

Безопасно
v1 • 2/24/2026

Static analysis flagged 20 potential issues including external_commands, network, and weak cryptographic algorithms. All findings are FALSE POSITIVES: the 'external_commands' detections are YAML token count examples with backtick formatting; 'network' is a legitimate GitHub URL in metadata; 'weak cryptographic algorithm' is a pattern matching error triggered by the word 'degradation'; 'system reconnaissance' falsely triggers on 'multi-source retrieval'. This skill is pure educational documentation about LLM context degradation with no executable code.

1
Просканировано файлов
239
Проанализировано строк
4
находки
1
Всего аудитов

Проблемы высокого риска (4)

False Positive: External Commands Detection
Static scanner detected 'Ruby/shell backtick execution' at lines 169, 176, 179. These are YAML token count examples (turn_20: 60000 tokens) used as documentation, not actual shell commands.
False Positive: Network Security Detection
Static scanner detected 'Hardcoded URL' at line 4. This is a legitimate GitHub source URL in the skill metadata, not a security vulnerability.
False Positive: Weak Cryptographic Algorithm
Static scanner incorrectly flagged 'weak cryptographic algorithm' at 16 locations. Pattern matcher triggers on the word 'degradation' (appears as 'deg' in scanning patterns). No cryptographic code exists in this skill.
False Positive: System Reconnaissance
Static scanner flagged 'System reconnaissance' at line 92. Content discusses 'multi-source retrieval' in the context of information retrieval research, not system reconnaissance.
Проверено: claude

Оценка качества

38
Архитектура
100
Сопровождаемость
87
Контент
31
Сообщество
65
Безопасность
91
Соответствие спецификации

Что вы можете построить

Отладка сбоев агента

Когда AI-агент выдаёт некорректные или нерелевантные результаты во время долгих разговоров, используйте этот навык для определения, является ли деградация контекста основной причиной

Проектирование устойчивых систем

Архитектурируйте системы, которые надёжно обрабатывают большие контексты, применяя подход Four-Bucket и архитектурные паттерны, описанные в этом навыке

Оценка выбора контекста

Принимайте обоснованные решения об инжиниринге контекста для production-систем, понимая пороги деградации и стратегии смягчения

Попробуйте эти промпты

Базовая проверка деградации
Analyze this conversation for context degradation patterns. The conversation has grown to over 50000 tokens. Look for signs of lost-in-middle, poisoning, distraction, or clash.
Диагностика Lost-in-Middle
Review the attached context and identify if critical information is buried in the middle. The task requires information from the middle section but outputs are incorrect.
Восстановление после отравления контекста
Analyze this context for signs of poisoning. Symptoms include degraded output quality, tool misalignment, and persistent hallucinations despite corrections. What steps can recover?
Выбор архитектурного паттерна
Given a system that processes 200K+ token contexts with multiple independent tasks, recommend which Four-Bucket strategies (Write, Select, Compress, Isolate) to apply and why.

Лучшие практики

  • Размещайте критическую информацию в начале или конце контекста, где внимание максимально
  • Отслеживайте корреляцию между длиной контекста и производительностью во время разработки
  • Внедряйте триггеры компрессии до того, как деградация станет серьёзной

Избегать

  • Предположение, что более длинный контекст всегда улучшает производительность
  • Загрузка всех полученных документов без фильтрации по релевантности
  • Позволение контексту расти бесконечно без сегментации

Часто задаваемые вопросы

Что такое феномен lost-in-middle?
Феномен lost-in-middle — это когда модели демонстрируют U-образные кривые внимания. Информация в начале и конце контекста получает надёжное внимание, в то время как информация в середине страдает от резко сниженной точности воспроизведения.
Как происходит отравление контекста?
Отравление контекста происходит, когда галлюцинации, ошибки или некорректная информация попадают в контекст и усиливаются через повторяющиеся ссылки. После отравления контекст создаёт петли обратной связи, которые закрепляют неверные убеждения.
Что такое подход Four-Bucket?
Подход Four-Bucket включает: Write (сохранение контекста за пределами окна), Select (получение релевантного контекста через retrieval), Compress (сокращение токенов через суммаризацию) и Isolate (разделение контекста между суб-агентами).
Всегда ли помогают более крупные окна контекста?
Нет. Более крупные контексты могут создавать новые проблемы, включая кривые деградации производительности, непропорциональное увеличение затрат и проблемы когнитивных узких мест, когда модели испытывают трудности с поддержанием качества по многим задачам.
Как узнать, отравлен ли мой контекст?
Следите за симптомами, включая ухудшение качества результатов по задачам, которые ранее выполнялись успешно, несоответствие инструментов, когда агенты вызывают неправильные инструменты, и галлюцинации, которые сохраняются несмотря на попытки исправления.
Какие модели лучше всего обрабатывают длинный контекст?
Согласно бенчмаркам, Claude Opus 4.5 показывает деградацию около 100K токенов, GPT-5.2 (thinking mode) около 64K, а Gemini 3 Pro около 500K. Однако бенчмарки варьируются в зависимости от типа задачи.

Сведения для разработчиков

Автор

sickn33

Лицензия

MIT

Ссылка

main

Структура файлов

📄 SKILL.md