Compétences logprob-prefill-analysis

📊

logprob-prefill-analysis

Name: logprob-prefill-analysis
Author: EleutherAI

Sûr 🌐 Accès réseau📁 Accès au système de fichiers⚙️ Commandes externes

Analyser la susceptibilité des modèles au reward hacking

Cette skill fournit de la documentation pour exécuter l'analyse de sensibilité au pré-remplissage afin de mesurer la facilité avec laquelle les modèles d'IA peuvent être manipulés pour générer du code d'exploit. Les chercheurs l'utilisent pour comparer les métriques de nombre de jetons par rapport aux logprobs pour prédire la susceptibilité au reward hacking à travers les checkpoints de modèle.

Prend en charge: Claude Codex Code(CC)

📊 70 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "logprob-prefill-analysis". Comment exécuter le pipeline complet d'analyse de sensibilité au pré-remplissage ?

Résultat attendu:

Exécuter : python scripts/run_full_prefill_analysis.py
Le script d'orchestration découvre automatiquement les checkpoints depuis config.yaml
Ajouter le flag --dry-run pour prévisualiser l'exécution sans lancer
Ajouter --skip-logprob pour exécuter uniquement l'analyse de trajectoire
Les résultats sont enregistrés dans des répertoires horodatés avec le contexte complet de l'expérience

Utilisation de "logprob-prefill-analysis". Comment analyser les trajectoires basées sur les jetons ?

Résultat attendu:

Exécuter : python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
Suivre le nombre minimum de jetons de pré-remplissage nécessaires pour déclencher les exploits à travers les checkpoints
Définir le seuil (par défaut 10) pour déterminer quand les modèles sont facilement exploitables
La sortie inclut accessibility_distribution.png et time_to_threshold.png

Utilisation de "logprob-prefill-analysis". Quels sont les résultats clés de cette analyse ?

Résultat attendu:

Les métriques basées sur les logprobs montrent un R2 de 66% meilleur que celles basées sur les jetons pour prédire l'exploitabilité
Le seuil de jetons se déclenche 16,2 étapes plus tôt en moyenne que le seuil de logprob
Bonne pratique : utiliser la somme des logprobs pour comparer à travers différentes longueurs de pré-remplissage

Audit de sécurité

Sûr

v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

Fichiers analysés

518

Lignes analysées

résultats

Total des audits

Facteurs de risque

🌐 Accès réseau (3)

skill-report.json:6 SKILL.md:90 SKILL.md:123

📁 Accès au système de fichiers (1)

skill-report.json:6

⚙️ Commandes externes (71)

SKILL.md:14-27 SKILL.md:27-30 SKILL.md:30-53 SKILL.md:53-55 SKILL.md:55-67 SKILL.md:67-82 SKILL.md:82-84 SKILL.md:84-88 SKILL.md:88-95 SKILL.md:95-100 SKILL.md:100-101 SKILL.md:101-102 SKILL.md:102-105 SKILL.md:105-106 SKILL.md:106-110 SKILL.md:110-133 SKILL.md:133-141 SKILL.md:141-146 SKILL.md:146-149 SKILL.md:149-155 SKILL.md:155-163 SKILL.md:163-164 SKILL.md:164-165 SKILL.md:165-175 SKILL.md:175-181 SKILL.md:181-185 SKILL.md:185-190 SKILL.md:190-193 SKILL.md:193-194 SKILL.md:194-195 SKILL.md:195-203 SKILL.md:203-212 SKILL.md:212-215 SKILL.md:215-219 SKILL.md:219-222 SKILL.md:222-223 SKILL.md:223-226 SKILL.md:226-227 SKILL.md:227-228 SKILL.md:228-229 SKILL.md:229-235 SKILL.md:235-236 SKILL.md:236-237 SKILL.md:237-238 SKILL.md:238-240 SKILL.md:240-271 SKILL.md:271-284 SKILL.md:284 SKILL.md:284-287 SKILL.md:287 SKILL.md:287-296 SKILL.md:296-326 SKILL.md:326-334 SKILL.md:334 SKILL.md:334-335 SKILL.md:335 SKILL.md:335 SKILL.md:335-336 SKILL.md:336 SKILL.md:336-337 SKILL.md:337 SKILL.md:337 SKILL.md:337-338 SKILL.md:338 SKILL.md:338 SKILL.md:338-339 SKILL.md:339 SKILL.md:339 SKILL.md:112 SKILL.md:110-133 SKILL.md:111

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Mesurer la vulnérabilité du modèle

Évaluer la susceptibilité des modèles entraînés au reward hacking en mesurant les seuils de jetons de pré-remplissage et les scores logprob à travers les checkpoints

Suivre la progression de l'entraînement

Analyser comment l'accessibilité des exploits change pendant l'entraînement SFT pour identifier quand les modèles deviennent vulnérables

Comparer les métriques de prédiction

Comparer les valeurs R2 entre les métriques basées sur les jetons et les logprobs pour prédire quand les modèles deviennent exploitables

Essayez ces prompts

Exécuter l'analyse complète

Comment exécuter le pipeline complet d'analyse de sensibilité au pré-remplissage en utilisant le script run_full_prefill_analysis.py ?

Analyser les trajectoires

Quelles commandes dois-je utiliser pour analyser les trajectoires basées sur les jetons et calculer le nombre minimum de jetons de pré-remplissage nécessaires pour les exploits ?

Calculer les logprobs

Montre-moi comment calculer les logprobs de pré-remplissage pour un checkpoint de modèle et traiter en lot plusieurs checkpoints

Comparer les métriques

Comment fusionner les métriques basées sur les jetons et les logprobs pour comparer leur pouvoir prédictif en utilisant integrate_logprob_trajectory.py ?

Bonnes pratiques

Utiliser la journalisation du contexte d'expérience (--use-run-context) pour capturer les métadonnées de reproductibilité incluant le commit Git, la version Python et les détails de l'environnement
Commencer par --dry-run pour vérifier la configuration avant d'exécuter des pipelines d'analyse longs
Utiliser le paramètre de seuil (par défaut 10) pour définir quand un modèle est considéré comme facilement exploitable basé sur les jetons de pré-remplissage minimum

Éviter

Exécuter l'analyse complète sans vérifier d'abord la disponibilité des checkpoints dans config.yaml
Ignorer la distinction entre les jetons de mots et les sous-jetons lors de l'interprétation des résultats
Utiliser la moyenne des logprobs au lieu de la somme des logprobs lors de la comparaison à travers différentes longueurs de pré-remplissage

Foire aux questions

Quels modèles et frameworks cette analyse supporte-t-elle ?

Fonctionne avec les checkpoints SFT servis via vLLM. Les modèles gpt-oss utilisent le format Harmony avec détection automatique du champ thinking.

Quelles ressources de calcul sont requises ?

GPU recommandé pour le calcul des logprobs. Les erreurs CUDA OOM peuvent être résolues avec --max-samples 50 ou --dtype float16.

Combien de temps prend l'analyse complète ?

Dépend du nombre de checkpoints et des niveaux de pré-remplissage. Le script d'orchestration traite automatiquement tous les checkpoints.

Les données sont-elles enregistrées en toute sécurité ?

Les résultats sont écrits dans le répertoire local results/. Aucune transmission de données externe ne se produit pendant l'exécution de l'analyse.

Que faire si le serveur vLLM ne démarre pas ?

S'assurer que le serveur démarre complètement avant l'évaluation. Vérifier les logs pour le message d'exécution Uvicorn. Utiliser pkill pour nettoyer les processus bloqués.

En quoi cela diffère-t-il de l'évaluation standard des modèles ?

Suit l'accessibilité des exploits sur la progression de l'entraînement, comparant la facilité avec laquelle les modèles peuvent être manipulés via les jetons de pré-remplissage.

Détails du développeur

Auteur

EleutherAI

Licence

MIT

Dépôt

https://github.com/EleutherAI/rh-indicators/tree/main/.claude/skills/logprob-prefill-analysis

Réf

main

Structure de fichiers

📄 SKILL.md