Habilidades logprob-prefill-analysis

📊

logprob-prefill-analysis

Name: logprob-prefill-analysis
Author: EleutherAI

Seguro 🌐 Acesso à rede📁 Acesso ao sistema de arquivos⚙️ Comandos externos

Analisar suscetibilidade do modelo a reward hacking

Esta skill fornece documentação para executar análise de sensibilidade de prefill para medir a facilidade com que modelos de IA podem ser manipulados para gerar código exploit. Pesquisadores usam para comparar métricas de contagem de tokens versus logprob para prever suscetibilidade a reward hacking em checkpoints de modelo.

Suporta: Claude Codex Code(CC)

📊 70 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "logprob-prefill-analysis". Como executar o pipeline completo de análise de sensibilidade de prefill?

Resultado esperado:

Executar: python scripts/run_full_prefill_analysis.py
O script de orquestração descobre automaticamente checkpoints de config.yaml
Adicionar flag --dry-run para visualizar execução sem rodar
Adicionar --skip-logprob para executar apenas análise de trajetória
Resultados salvos em diretórios com timestamp e contexto completo de experimento

A utilizar "logprob-prefill-analysis". Como analisar trajetórias baseadas em tokens?

Resultado esperado:

Executar: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
Rastrear mínimo de tokens de prefill necessários para acionar exploits em checkpoints
Definir threshold (padrão 10) para definir quando modelos são facilmente exploráveis
Saída inclui accessibility_distribution.png e time_to_threshold.png

A utilizar "logprob-prefill-analysis". Quais são os resultados principais desta análise?

Resultado esperado:

Métricas baseadas em logprob mostram 66% melhor R2 que baseadas em tokens para prever explorabilidade
Threshold de tokens dispara 16.2 passos mais cedo em média que threshold de logprob
Melhor prática: usar logprob SUM para comparar diferentes comprimentos de prefill

Auditoria de Segurança

Seguro

v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

Arquivos analisados

518

Linhas analisadas

achados

Total de auditorias

Fatores de risco

🌐 Acesso à rede (3)

skill-report.json:6 SKILL.md:90 SKILL.md:123

📁 Acesso ao sistema de arquivos (1)

skill-report.json:6

⚙️ Comandos externos (71)

SKILL.md:14-27 SKILL.md:27-30 SKILL.md:30-53 SKILL.md:53-55 SKILL.md:55-67 SKILL.md:67-82 SKILL.md:82-84 SKILL.md:84-88 SKILL.md:88-95 SKILL.md:95-100 SKILL.md:100-101 SKILL.md:101-102 SKILL.md:102-105 SKILL.md:105-106 SKILL.md:106-110 SKILL.md:110-133 SKILL.md:133-141 SKILL.md:141-146 SKILL.md:146-149 SKILL.md:149-155 SKILL.md:155-163 SKILL.md:163-164 SKILL.md:164-165 SKILL.md:165-175 SKILL.md:175-181 SKILL.md:181-185 SKILL.md:185-190 SKILL.md:190-193 SKILL.md:193-194 SKILL.md:194-195 SKILL.md:195-203 SKILL.md:203-212 SKILL.md:212-215 SKILL.md:215-219 SKILL.md:219-222 SKILL.md:222-223 SKILL.md:223-226 SKILL.md:226-227 SKILL.md:227-228 SKILL.md:228-229 SKILL.md:229-235 SKILL.md:235-236 SKILL.md:236-237 SKILL.md:237-238 SKILL.md:238-240 SKILL.md:240-271 SKILL.md:271-284 SKILL.md:284 SKILL.md:284-287 SKILL.md:287 SKILL.md:287-296 SKILL.md:296-326 SKILL.md:326-334 SKILL.md:334 SKILL.md:334-335 SKILL.md:335 SKILL.md:335 SKILL.md:335-336 SKILL.md:336 SKILL.md:336-337 SKILL.md:337 SKILL.md:337 SKILL.md:337-338 SKILL.md:338 SKILL.md:338 SKILL.md:338-339 SKILL.md:339 SKILL.md:339 SKILL.md:112 SKILL.md:110-133 SKILL.md:111

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Medir Vulnerabilidade do Modelo

Avaliar a suscetibilidade de modelos treinados a reward hacking medindo limiares de tokens de prefill e pontuações logprob em checkpoints

Rastrear Progressão de Treinamento

Analisar como a acessibilidade de exploits muda durante treinamento SFT para identificar quando modelos se tornam vulneráveis

Comparar Métricas de Predição

Comparar valores R2 entre métricas baseadas em tokens e baseadas em logprob para prever quando modelos se tornam exploráveis

Tente Estes Prompts

Executar Análise Completa

Como executar o pipeline completo de análise de sensibilidade de prefill usando o script run_full_prefill_analysis.py?

Analisar Trajetórias

Quais comandos usar para analisar trajetórias baseadas em tokens e computar mínimo de tokens de prefill necessários para exploits?

Computar Logprobs

Mostrar como computar logprobs de prefill para um checkpoint de modelo e processar múltiplos checkpoints em lote

Comparar Métricas

Como mesclar métricas baseadas em tokens e logprob para comparar poder preditivo usando integrate_logprob_trajectory.py?

Melhores Práticas

Usar registro de contexto de experimento (--use-run-context) para capturar metadados de reproducibilidade incluindo commit Git, versão Python e detalhes de ambiente
Começar com --dry-run para verificar configuração antes de executar pipelines de análise longos
Usar parâmetro de threshold (padrão 10) para definir quando um modelo é considerado facilmente explorável baseado em min_prefill tokens

Evitar

Executar análise completa sem primeiro verificar disponibilidade de checkpoints em config.yaml
Ignorar a distinção entre tokens de palavra e tokens de subword ao interpretar resultados
Usar logprob mean em vez de logprob sum ao comparar diferentes comprimentos de prefill

Perguntas Frequentes

Quais modelos e frameworks esta análise suporta?

Funciona com checkpoints SFT servidos via vLLM. Modelos gpt-oss usam formato Harmony com auto-detecção de campo thinking.

Quais recursos de computação são necessários?

GPU recomendado para computação de logprob. CUDA OOM pode ser resolvido com --max-samples 50 ou --dtype float16.

Quanto tempo a análise completa leva?

Depende da quantidade de checkpoints e níveis de prefill. O script de orquestração processa todos os checkpoints automaticamente.

Os dados são salvos com segurança?

Resultados escritos no diretório local results/. Nenhuma transmissão de dados externa ocorre durante execução da análise.

E se o servidor vLLM falhar ao iniciar?

Garantir que servidor inicie completamente antes da avaliação. Verificar logs por mensagem de execução Uvicorn. Usar pkill para limpar processos travados.

Como isso difere de avaliação padrão de modelo?

Rastreia acessibilidade de exploits durante progressão de treinamento, comparando a facilidade com que modelos podem ser manipulados via tokens de prefill.

Detalhes do Desenvolvedor

Autor

EleutherAI

Licença

MIT

Repositório

https://github.com/EleutherAI/rh-indicators/tree/main/.claude/skills/logprob-prefill-analysis

Referência

main

Estrutura de arquivos

📄 SKILL.md