Compétences logprob-prefill-analysis

📊

logprob-prefill-analysis

Name: logprob-prefill-analysis
Author: EleutherAI

Sûr 🌐 Accès réseau📁 Accès au système de fichiers⚙️ Commandes externes

Analysieren der Anfälligkeit von Modellen für Reward Hacking

Diese Skill-Dokumentation beschreibt die Ausführung einer Prefill-Sensitivitätsanalyse zur Messung, wie leicht KI-Modelle zur Generierung von Exploit-Code manipuliert werden können. Forscher nutzen sie zum Vergleich von Token-Count- und Logprob-Metriken für die Vorhersage der Reward-Hacking-Anfälligkeit über Modell-Checkpoints hinweg.

Prend en charge: Claude Codex Code(CC)

📊 70 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "logprob-prefill-analysis". Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline aus?

Résultat attendu:

Ausführen: python scripts/run_full_prefill_analysis.py
Das Orchestrierungsskript erkennt Checkpoints automatisch aus config.yaml
Füge --dry-run Flag hinzu, um die Ausführung ohne Ausführung zu testen
Füge --skip-logprob hinzu, um nur die Trajektorienanalyse auszuführen
Ergebnisse werden in timestamped Verzeichnissen mit vollständigem Experiment-Kontext gespeichert

Utilisation de "logprob-prefill-analysis". Wie analysiere ich tokenbasierte Trajektorien?

Résultat attendu:

Ausführen: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
Verfolge die minimal benötigten Prefill-Tokens zum Auslösen von Exploits über Checkpoints hinweg
Setze Schwellenwert (Standard 10), um zu definieren, wann Modelle leicht ausnutzbar sind
Ausgabe enthält accessibility_distribution.png und time_to_threshold.png

Utilisation de "logprob-prefill-analysis". Was sind die wichtigsten Ergebnisse dieser Analyse?

Résultat attendu:

Logprob-basierte Metriken zeigen 66% bessere R2 als Token-basierte für die Vorhersage der Ausnutzbarkeit
Token-Schwellenwert feuert durchschnittlich 16,2 Schritte früher als Logprob-Schwellenwert
Best Practice: Verwende SUM logprob zum Vergleichen über verschiedene Prefill-Längen

Audit de sécurité

Sûr

v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

Fichiers analysés

518

Lignes analysées

résultats

Total des audits

Facteurs de risque

🌐 Accès réseau (3)

skill-report.json:6 SKILL.md:90 SKILL.md:123

📁 Accès au système de fichiers (1)

skill-report.json:6

⚙️ Commandes externes (71)

SKILL.md:14-27 SKILL.md:27-30 SKILL.md:30-53 SKILL.md:53-55 SKILL.md:55-67 SKILL.md:67-82 SKILL.md:82-84 SKILL.md:84-88 SKILL.md:88-95 SKILL.md:95-100 SKILL.md:100-101 SKILL.md:101-102 SKILL.md:102-105 SKILL.md:105-106 SKILL.md:106-110 SKILL.md:110-133 SKILL.md:133-141 SKILL.md:141-146 SKILL.md:146-149 SKILL.md:149-155 SKILL.md:155-163 SKILL.md:163-164 SKILL.md:164-165 SKILL.md:165-175 SKILL.md:175-181 SKILL.md:181-185 SKILL.md:185-190 SKILL.md:190-193 SKILL.md:193-194 SKILL.md:194-195 SKILL.md:195-203 SKILL.md:203-212 SKILL.md:212-215 SKILL.md:215-219 SKILL.md:219-222 SKILL.md:222-223 SKILL.md:223-226 SKILL.md:226-227 SKILL.md:227-228 SKILL.md:228-229 SKILL.md:229-235 SKILL.md:235-236 SKILL.md:236-237 SKILL.md:237-238 SKILL.md:238-240 SKILL.md:240-271 SKILL.md:271-284 SKILL.md:284 SKILL.md:284-287 SKILL.md:287 SKILL.md:287-296 SKILL.md:296-326 SKILL.md:326-334 SKILL.md:334 SKILL.md:334-335 SKILL.md:335 SKILL.md:335 SKILL.md:335-336 SKILL.md:336 SKILL.md:336-337 SKILL.md:337 SKILL.md:337 SKILL.md:337-338 SKILL.md:338 SKILL.md:338 SKILL.md:338-339 SKILL.md:339 SKILL.md:339 SKILL.md:112 SKILL.md:110-133 SKILL.md:111

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Modell-Anfälligkeit messen

Evaluiere, wie anfällig trainierte Modelle für Reward Hacking sind, durch Messung von Prefill-Token-Schwellenwerten und Logprob-Scores über Checkpoints hinweg

Training-Progression verfolgen

Analysiere, wie sich die Exploit-Zugänglichkeit während des SFT-Trainings verändert, um zu identifizieren, wann Modelle anfällig werden

Vorhersage-Metriken vergleichen

Vergleiche R2-Werte zwischen tokenbasierten und logprob-basierten Metriken für die Vorhersage, wann Modelle ausnutzbar werden

Essayez ces prompts

Vollständige Analyse ausführen

Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline mit dem run_full_prefill_analysis.py Skript aus?

Trajektorien analysieren

Welche Befehle verwende ich, um tokenbasierte Trajektorien zu analysieren und die minimal benötigten Prefill-Tokens für Exploits zu berechnen?

Logprobs berechnen

Zeige mir, wie ich Prefill-Logprobs für einen Modell-Checkpoint berechne und mehrere Checkpoints stapelverarbeitet

Metriken vergleichen

Wie merge ich tokenbasierte und logprob-basierte Metriken, um ihre Vorhersagekraft mit integrate_logprob_trajectory.py zu vergleichen?

Bonnes pratiques

Verwende Experiment-Kontext-Logging (--use-run-context), um Reproduzierbarkeits-Metadaten zu erfassen, einschließlich Git-Commit, Python-Version und Umgebungsdetails
Starte mit --dry-run, um die Konfiguration zu verifizieren, bevor du langlaufende Analyse-Pipelines ausführst
Verwende den threshold Parameter (Standard 10), um zu definieren, wann ein Modell als leicht ausnutzbar gilt, basierend auf min_prefill Tokens

Éviter

Vollständige Analyse ausführen, ohne zuerst die Checkpoint-Verfügbarkeit in config.yaml zu verifizieren
Den Unterschied zwischen Wort-Tokens und Subword-Tokens bei der Interpretation von Ergebnissen ignorieren
Mean logprob statt Sum logprob verwenden, wenn über verschiedene Prefill-Längen verglichen wird

Foire aux questions

Welche Modelle und Frameworks unterstützt diese Analyse?

Funktioniert mit SFT-Checkpoints, die über vLLM bereitgestellt werden. gpt-oss-Modelle verwenden Harmony-Format mit automatischer Erkennung des thinking-Feldes.

Welche Compute-Ressourcen werden benötigt?

GPU empfohlen für Logprob-Berechnung. CUDA OOM kann mit --max-samples 50 oder --dtype float16 adressiert werden.

Wie lange dauert die vollständige Analyse?

Hängt von der Anzahl der Checkpoints und Prefill-Levels ab. Das Orchestrierungsskript verarbeitet alle Checkpoints automatisch.

Werden Daten sicher gespeichert?

Ergebnisse werden im lokalen results/ Verzeichnis geschrieben. Während der Ausführung der Analyse erfolgt keine externe Datenübertragung.

Was tun, wenn der vLLM-Server nicht startet?

Stelle sicher, dass der Server vollständig startet, bevor die Evaluation beginnt. Prüfe die Logs auf die Uvicorn-Nachricht. Verwende pkill, um festgefahrene Prozesse zu beenden.

Wie unterscheidet sich dies von der standardmäßigen Modellevaluation?

Verfolgt die Exploit-Zugänglichkeit über die Training-Progression und vergleicht, wie leicht Modelle über Prefill-Tokens manipuliert werden können.

Détails du développeur

Auteur

EleutherAI

Licence

MIT

Dépôt

https://github.com/EleutherAI/rh-indicators/tree/main/.claude/skills/logprob-prefill-analysis

Réf

main

Structure de fichiers

📄 SKILL.md