logprob-prefill-analysis
Analyser la susceptibilité des modèles au reward hacking
Cette skill fournit de la documentation pour exécuter l'analyse de sensibilité au pré-remplissage afin de mesurer la facilité avec laquelle les modèles d'IA peuvent être manipulés pour générer du code d'exploit. Les chercheurs l'utilisent pour comparer les métriques de nombre de jetons par rapport aux logprobs pour prédire la susceptibilité au reward hacking à travers les checkpoints de modèle.
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「logprob-prefill-analysis」。 Comment exécuter le pipeline complet d'analyse de sensibilité au pré-remplissage ?
預期結果:
- Exécuter : python scripts/run_full_prefill_analysis.py
- Le script d'orchestration découvre automatiquement les checkpoints depuis config.yaml
- Ajouter le flag --dry-run pour prévisualiser l'exécution sans lancer
- Ajouter --skip-logprob pour exécuter uniquement l'analyse de trajectoire
- Les résultats sont enregistrés dans des répertoires horodatés avec le contexte complet de l'expérience
正在使用「logprob-prefill-analysis」。 Comment analyser les trajectoires basées sur les jetons ?
預期結果:
- Exécuter : python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
- Suivre le nombre minimum de jetons de pré-remplissage nécessaires pour déclencher les exploits à travers les checkpoints
- Définir le seuil (par défaut 10) pour déterminer quand les modèles sont facilement exploitables
- La sortie inclut accessibility_distribution.png et time_to_threshold.png
正在使用「logprob-prefill-analysis」。 Quels sont les résultats clés de cette analyse ?
預期結果:
- Les métriques basées sur les logprobs montrent un R2 de 66% meilleur que celles basées sur les jetons pour prédire l'exploitabilité
- Le seuil de jetons se déclenche 16,2 étapes plus tôt en moyenne que le seuil de logprob
- Bonne pratique : utiliser la somme des logprobs pour comparer à travers différentes longueurs de pré-remplissage
安全審計
安全Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.
風險因素
🌐 網路存取 (3)
📁 檔案系統存取 (1)
⚙️ 外部命令 (71)
品質評分
你能建構什麼
Mesurer la vulnérabilité du modèle
Évaluer la susceptibilité des modèles entraînés au reward hacking en mesurant les seuils de jetons de pré-remplissage et les scores logprob à travers les checkpoints
Suivre la progression de l'entraînement
Analyser comment l'accessibilité des exploits change pendant l'entraînement SFT pour identifier quand les modèles deviennent vulnérables
Comparer les métriques de prédiction
Comparer les valeurs R2 entre les métriques basées sur les jetons et les logprobs pour prédire quand les modèles deviennent exploitables
試試這些提示
Comment exécuter le pipeline complet d'analyse de sensibilité au pré-remplissage en utilisant le script run_full_prefill_analysis.py ?
Quelles commandes dois-je utiliser pour analyser les trajectoires basées sur les jetons et calculer le nombre minimum de jetons de pré-remplissage nécessaires pour les exploits ?
Montre-moi comment calculer les logprobs de pré-remplissage pour un checkpoint de modèle et traiter en lot plusieurs checkpoints
Comment fusionner les métriques basées sur les jetons et les logprobs pour comparer leur pouvoir prédictif en utilisant integrate_logprob_trajectory.py ?
最佳實務
- Utiliser la journalisation du contexte d'expérience (--use-run-context) pour capturer les métadonnées de reproductibilité incluant le commit Git, la version Python et les détails de l'environnement
- Commencer par --dry-run pour vérifier la configuration avant d'exécuter des pipelines d'analyse longs
- Utiliser le paramètre de seuil (par défaut 10) pour définir quand un modèle est considéré comme facilement exploitable basé sur les jetons de pré-remplissage minimum
避免
- Exécuter l'analyse complète sans vérifier d'abord la disponibilité des checkpoints dans config.yaml
- Ignorer la distinction entre les jetons de mots et les sous-jetons lors de l'interprétation des résultats
- Utiliser la moyenne des logprobs au lieu de la somme des logprobs lors de la comparaison à travers différentes longueurs de pré-remplissage