📦

judge

Name: judge
Author: 2389-research

v1.0.0 Низкий риск

Сравнение реализаций кода с помощью оценочной рубрики

Командам часто сложно выбирать между похожими реализациями кода, используя согласованные критерии. Этот навык предоставляет структурированную рубрику для оценки, проверок, компромиссов и выбора победителя.

Поддерживает: Claude Codex Code(CC)

🥉 79 Бронза

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Ресурсы для AI-агентов

Используйте эти ссылки, когда AI-агенту, crawler или script нужен чистый контекст вместо полной страницы.

Markdown-детали GET /skills/2389-research-judge.md Подписанный manifest GET /api/skills/2389-research-judge/manifest Подписанный lockfile GET /api/skills/2389-research-judge/lockfile

Протестировать

Использование «judge». Сравните impl-1 и impl-2 для небольшого рефакторинга API.

Ожидаемый результат:

Таблица gate check, рабочий лист оценки из пяти частей для каждой реализации, итоговая оценочная таблица, результаты hard gate и обоснование победителя.

Использование «judge». Оцените variant-a и variant-b для двух разных продуктовых дизайнов.

Ожидаемый результат:

Сравнение на основе рубрики, которое объясняет различия в соответствии задаче, определяет флаги осуществимости и фиксирует компромиссы проигравшего варианта.

Аудит безопасности

Низкий риск

v4 • 6/27/2026

Static analysis found several high-risk patterns, but review shows they are false positives from Markdown formatting, rubric text, and placeholder labels. No evidence found for command execution, credential theft, weak cryptography, Windows SAM access, reconnaissance, network use, or prompt injection.

Просканировано файлов

178

Проанализировано строк

Review items

False positives ignored

Static false positives ignored (4)

These static matches were dismissed by semantic review or matched schema-only tokens, so they are shown for transparency but do not drive the quality score.

Низкий

SKILL.md:18

False Positive: Markdown Code Fence Flagged as Shell Execution

The external command finding at line 18 is a Markdown code fence that starts an output template. It does not instruct the model to run shell commands or execute backtick content.

The line contains only a Markdown fence marker for a formatted example. No command name, shell invocation, or user-controlled execution path is present.

Низкий

SKILL.md:100 SKILL.md:103

False Positive: Windows SAM Database Pattern

The sensitive-file findings at lines 100 and 103 are placeholder text inside a scoring template. They do not reference Windows paths, registry hives, hashes, or credential files.

The matching text is bracketed placeholder language for repeated sections. There is no semantic evidence of Windows SAM access or credential extraction.

Низкий

SKILL.md:3 SKILL.md:11-12 SKILL.md:20 SKILL.md:153

False Positive: Weak Cryptography Pattern

The weak-cryptography findings are triggered by ordinary words in the description and rubric. The skill contains no hashing algorithm use, encryption code, or security-sensitive cryptographic guidance.

The referenced lines discuss implementation labels, design adherence, and scoring context. No cryptographic primitive or implementation is present.

Низкий

SKILL.md:128

False Positive: System Reconnaissance Pattern

The reconnaissance finding at line 128 appears in a prompt placeholder asking for trade-offs between implementations. It does not request host, network, account, or environment enumeration.

The line asks what alternate implementations did better as part of a comparison rubric. It is unrelated to system discovery or operational reconnaissance.

Проблем безопасности не найдено

Аудитор:: codex Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

Безопасность

Соответствие спецификации

Что вы можете построить

Выбрать лучшую сгенерированную реализацию

Сравните несколько сгенерированных вариантов кода и выберите тот, который лучше всего соответствует заявленным требованиям.

Оценить конкурирующие архитектурные подходы

Оцените разные стратегии реализации по сопровождаемости, надежности и соответствию цели перед слиянием работы.

Документировать решения о выборе

Создайте краткую оценочную таблицу, объясняющую, почему победила одна реализация и какие компромиссы остаются.

Попробуйте эти промпты

Оценить две реализации

Используйте judge rubric, чтобы сравнить impl-1 и impl-2. Включите gate checks, оценки по критериям, итоговые оценки, победителя и компромиссы.

Оценить три варианта

Оцените impl-1, impl-2 и impl-3 относительно исходных требований. Примените hard gates и объясните победившую реализацию.

Сравнить разные подходы к решению

Используйте judge rubric для variant-a и variant-b. Рассматривайте различия в соответствии задаче как допустимые различия решений, затем определите лучший подход.

Проверить близкое решение

Повторно оцените кандидатные реализации, уделяя особое внимание скрытой сложности, будущей стоимости сопровождения и надежности при реалистичной нагрузке.

Лучшие практики

Предоставьте исходные требования, результаты тестов и краткие описания реализаций перед вызовом навыка.
Используйте одинаковый стандарт доказательств для каждой сравниваемой реализации.
Фиксируйте компромиссы даже тогда, когда одна реализация явно побеждает.

Избегать

Не используйте его до того, как будут доступны код реализации и результаты тестов.
Не считайте равные итоговые оценки взаимозаменяемыми без проверки hard gates.
Не пропускайте разделы рубрики только потому, что одна реализация кажется очевидно лучше.

Часто задаваемые вопросы

Что оценивает этот навык?

Он оценивает конкурирующие реализации кода по пяти критериям: соответствие задаче, сложность, читаемость, надежность и сопровождаемость.

Может ли он запускать тесты?

Нет. Он может использовать результаты тестов, предоставленные хост-агентом, но сам тесты не выполняет.

Сколько реализаций он может сравнить?

Шаблон напрямую поддерживает две или три реализации, с примечаниями для необязательных третьих вариантов.

Это только для Claude?

Нет. Метаданные marketplace указывают поддержку рабочих процессов Claude, Codex и Claude Code.

Поддерживает ли он разные подходы к дизайну?

Да. Он включает рекомендации для сравнений в стиле omakase, где варианты могут использовать разные дизайны решений.

Какой результат следует ожидать пользователям?

Пользователям следует ожидать структурированный рабочий лист, оценочную таблицу, проверку hard gate, выбор победителя и сводку компромиссов.

Сведения для разработчиков

Автор

2389-research

Лицензия

MIT

Version

v1.0.0

Репозиторий

https://github.com/2389-research/claude-plugins/tree/main/test-kitchen/skills/judge

Ссылка

main

Структура файлов

📄 SKILL.md