logprob-prefill-analysis
Analisar suscetibilidade do modelo a reward hacking
Esta skill fornece documentação para executar análise de sensibilidade de prefill para medir a facilidade com que modelos de IA podem ser manipulados para gerar código exploit. Pesquisadores usam para comparar métricas de contagem de tokens versus logprob para prever suscetibilidade a reward hacking em checkpoints de modelo.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "logprob-prefill-analysis". Como executar o pipeline completo de análise de sensibilidade de prefill?
Resultado esperado:
- Executar: python scripts/run_full_prefill_analysis.py
- O script de orquestração descobre automaticamente checkpoints de config.yaml
- Adicionar flag --dry-run para visualizar execução sem rodar
- Adicionar --skip-logprob para executar apenas análise de trajetória
- Resultados salvos em diretórios com timestamp e contexto completo de experimento
A utilizar "logprob-prefill-analysis". Como analisar trajetórias baseadas em tokens?
Resultado esperado:
- Executar: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
- Rastrear mínimo de tokens de prefill necessários para acionar exploits em checkpoints
- Definir threshold (padrão 10) para definir quando modelos são facilmente exploráveis
- Saída inclui accessibility_distribution.png e time_to_threshold.png
A utilizar "logprob-prefill-analysis". Quais são os resultados principais desta análise?
Resultado esperado:
- Métricas baseadas em logprob mostram 66% melhor R2 que baseadas em tokens para prever explorabilidade
- Threshold de tokens dispara 16.2 passos mais cedo em média que threshold de logprob
- Melhor prática: usar logprob SUM para comparar diferentes comprimentos de prefill
Auditoria de Segurança
SeguroPure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.
Fatores de risco
🌐 Acesso à rede (3)
📁 Acesso ao sistema de arquivos (1)
⚙️ Comandos externos (71)
Pontuação de qualidade
O Que Você Pode Construir
Medir Vulnerabilidade do Modelo
Avaliar a suscetibilidade de modelos treinados a reward hacking medindo limiares de tokens de prefill e pontuações logprob em checkpoints
Rastrear Progressão de Treinamento
Analisar como a acessibilidade de exploits muda durante treinamento SFT para identificar quando modelos se tornam vulneráveis
Comparar Métricas de Predição
Comparar valores R2 entre métricas baseadas em tokens e baseadas em logprob para prever quando modelos se tornam exploráveis
Tente Estes Prompts
Como executar o pipeline completo de análise de sensibilidade de prefill usando o script run_full_prefill_analysis.py?
Quais comandos usar para analisar trajetórias baseadas em tokens e computar mínimo de tokens de prefill necessários para exploits?
Mostrar como computar logprobs de prefill para um checkpoint de modelo e processar múltiplos checkpoints em lote
Como mesclar métricas baseadas em tokens e logprob para comparar poder preditivo usando integrate_logprob_trajectory.py?
Melhores Práticas
- Usar registro de contexto de experimento (--use-run-context) para capturar metadados de reproducibilidade incluindo commit Git, versão Python e detalhes de ambiente
- Começar com --dry-run para verificar configuração antes de executar pipelines de análise longos
- Usar parâmetro de threshold (padrão 10) para definir quando um modelo é considerado facilmente explorável baseado em min_prefill tokens
Evitar
- Executar análise completa sem primeiro verificar disponibilidade de checkpoints em config.yaml
- Ignorar a distinção entre tokens de palavra e tokens de subword ao interpretar resultados
- Usar logprob mean em vez de logprob sum ao comparar diferentes comprimentos de prefill
Perguntas Frequentes
Quais modelos e frameworks esta análise suporta?
Quais recursos de computação são necessários?
Quanto tempo a análise completa leva?
Os dados são salvos com segurança?
E se o servidor vLLM falhar ao iniciar?
Como isso difere de avaliação padrão de modelo?
Detalhes do Desenvolvedor
Autor
EleutherAILicença
MIT
Repositório
https://github.com/EleutherAI/rh-indicators/tree/main/.claude/skills/logprob-prefill-analysisReferência
main
Estrutura de arquivos
📄 SKILL.md