Habilidades logprob-prefill-analysis
📊

logprob-prefill-analysis

Seguro 🌐 Acesso à rede📁 Acesso ao sistema de arquivos⚙️ Comandos externos

Analisar suscetibilidade do modelo a reward hacking

Esta skill fornece documentação para executar análise de sensibilidade de prefill para medir a facilidade com que modelos de IA podem ser manipulados para gerar código exploit. Pesquisadores usam para comparar métricas de contagem de tokens versus logprob para prever suscetibilidade a reward hacking em checkpoints de modelo.

Suporta: Claude Codex Code(CC)
📊 71 Adequado
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "logprob-prefill-analysis". Como executar o pipeline completo de análise de sensibilidade de prefill?

Resultado esperado:

  • Executar: python scripts/run_full_prefill_analysis.py
  • O script de orquestração descobre automaticamente checkpoints de config.yaml
  • Adicionar flag --dry-run para visualizar execução sem rodar
  • Adicionar --skip-logprob para executar apenas análise de trajetória
  • Resultados salvos em diretórios com timestamp e contexto completo de experimento

A utilizar "logprob-prefill-analysis". Como analisar trajetórias baseadas em tokens?

Resultado esperado:

  • Executar: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
  • Rastrear mínimo de tokens de prefill necessários para acionar exploits em checkpoints
  • Definir threshold (padrão 10) para definir quando modelos são facilmente exploráveis
  • Saída inclui accessibility_distribution.png e time_to_threshold.png

A utilizar "logprob-prefill-analysis". Quais são os resultados principais desta análise?

Resultado esperado:

  • Métricas baseadas em logprob mostram 66% melhor R2 que baseadas em tokens para prever explorabilidade
  • Threshold de tokens dispara 16.2 passos mais cedo em média que threshold de logprob
  • Melhor prática: usar logprob SUM para comparar diferentes comprimentos de prefill

Auditoria de Segurança

Seguro
v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

2
Arquivos analisados
518
Linhas analisadas
3
achados
5
Total de auditorias
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

38
Arquitetura
100
Manutenibilidade
87
Conteúdo
30
Comunidade
100
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

Medir Vulnerabilidade do Modelo

Avaliar a suscetibilidade de modelos treinados a reward hacking medindo limiares de tokens de prefill e pontuações logprob em checkpoints

Rastrear Progressão de Treinamento

Analisar como a acessibilidade de exploits muda durante treinamento SFT para identificar quando modelos se tornam vulneráveis

Comparar Métricas de Predição

Comparar valores R2 entre métricas baseadas em tokens e baseadas em logprob para prever quando modelos se tornam exploráveis

Tente Estes Prompts

Executar Análise Completa
Como executar o pipeline completo de análise de sensibilidade de prefill usando o script run_full_prefill_analysis.py?
Analisar Trajetórias
Quais comandos usar para analisar trajetórias baseadas em tokens e computar mínimo de tokens de prefill necessários para exploits?
Computar Logprobs
Mostrar como computar logprobs de prefill para um checkpoint de modelo e processar múltiplos checkpoints em lote
Comparar Métricas
Como mesclar métricas baseadas em tokens e logprob para comparar poder preditivo usando integrate_logprob_trajectory.py?

Melhores Práticas

  • Usar registro de contexto de experimento (--use-run-context) para capturar metadados de reproducibilidade incluindo commit Git, versão Python e detalhes de ambiente
  • Começar com --dry-run para verificar configuração antes de executar pipelines de análise longos
  • Usar parâmetro de threshold (padrão 10) para definir quando um modelo é considerado facilmente explorável baseado em min_prefill tokens

Evitar

  • Executar análise completa sem primeiro verificar disponibilidade de checkpoints em config.yaml
  • Ignorar a distinção entre tokens de palavra e tokens de subword ao interpretar resultados
  • Usar logprob mean em vez de logprob sum ao comparar diferentes comprimentos de prefill

Perguntas Frequentes

Quais modelos e frameworks esta análise suporta?
Funciona com checkpoints SFT servidos via vLLM. Modelos gpt-oss usam formato Harmony com auto-detecção de campo thinking.
Quais recursos de computação são necessários?
GPU recomendado para computação de logprob. CUDA OOM pode ser resolvido com --max-samples 50 ou --dtype float16.
Quanto tempo a análise completa leva?
Depende da quantidade de checkpoints e níveis de prefill. O script de orquestração processa todos os checkpoints automaticamente.
Os dados são salvos com segurança?
Resultados escritos no diretório local results/. Nenhuma transmissão de dados externa ocorre durante execução da análise.
E se o servidor vLLM falhar ao iniciar?
Garantir que servidor inicie completamente antes da avaliação. Verificar logs por mensagem de execução Uvicorn. Usar pkill para limpar processos travados.
Como isso difere de avaliação padrão de modelo?
Rastreia acessibilidade de exploits durante progressão de treinamento, comparando a facilidade com que modelos podem ser manipulados via tokens de prefill.

Detalhes do Desenvolvedor

Estrutura de arquivos

📄 SKILL.md