logprob-prefill-analysis
Analysieren der Anfälligkeit von Modellen für Reward Hacking
Diese Skill-Dokumentation beschreibt die Ausführung einer Prefill-Sensitivitätsanalyse zur Messung, wie leicht KI-Modelle zur Generierung von Exploit-Code manipuliert werden können. Forscher nutzen sie zum Vergleich von Token-Count- und Logprob-Metriken für die Vorhersage der Reward-Hacking-Anfälligkeit über Modell-Checkpoints hinweg.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "logprob-prefill-analysis". Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline aus?
Résultat attendu:
- Ausführen: python scripts/run_full_prefill_analysis.py
- Das Orchestrierungsskript erkennt Checkpoints automatisch aus config.yaml
- Füge --dry-run Flag hinzu, um die Ausführung ohne Ausführung zu testen
- Füge --skip-logprob hinzu, um nur die Trajektorienanalyse auszuführen
- Ergebnisse werden in timestamped Verzeichnissen mit vollständigem Experiment-Kontext gespeichert
Utilisation de "logprob-prefill-analysis". Wie analysiere ich tokenbasierte Trajektorien?
Résultat attendu:
- Ausführen: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
- Verfolge die minimal benötigten Prefill-Tokens zum Auslösen von Exploits über Checkpoints hinweg
- Setze Schwellenwert (Standard 10), um zu definieren, wann Modelle leicht ausnutzbar sind
- Ausgabe enthält accessibility_distribution.png und time_to_threshold.png
Utilisation de "logprob-prefill-analysis". Was sind die wichtigsten Ergebnisse dieser Analyse?
Résultat attendu:
- Logprob-basierte Metriken zeigen 66% bessere R2 als Token-basierte für die Vorhersage der Ausnutzbarkeit
- Token-Schwellenwert feuert durchschnittlich 16,2 Schritte früher als Logprob-Schwellenwert
- Best Practice: Verwende SUM logprob zum Vergleichen über verschiedene Prefill-Längen
Audit de sécurité
SûrPure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.
Facteurs de risque
🌐 Accès réseau (3)
📁 Accès au système de fichiers (1)
⚙️ Commandes externes (71)
Score de qualité
Ce que vous pouvez construire
Modell-Anfälligkeit messen
Evaluiere, wie anfällig trainierte Modelle für Reward Hacking sind, durch Messung von Prefill-Token-Schwellenwerten und Logprob-Scores über Checkpoints hinweg
Training-Progression verfolgen
Analysiere, wie sich die Exploit-Zugänglichkeit während des SFT-Trainings verändert, um zu identifizieren, wann Modelle anfällig werden
Vorhersage-Metriken vergleichen
Vergleiche R2-Werte zwischen tokenbasierten und logprob-basierten Metriken für die Vorhersage, wann Modelle ausnutzbar werden
Essayez ces prompts
Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline mit dem run_full_prefill_analysis.py Skript aus?
Welche Befehle verwende ich, um tokenbasierte Trajektorien zu analysieren und die minimal benötigten Prefill-Tokens für Exploits zu berechnen?
Zeige mir, wie ich Prefill-Logprobs für einen Modell-Checkpoint berechne und mehrere Checkpoints stapelverarbeitet
Wie merge ich tokenbasierte und logprob-basierte Metriken, um ihre Vorhersagekraft mit integrate_logprob_trajectory.py zu vergleichen?
Bonnes pratiques
- Verwende Experiment-Kontext-Logging (--use-run-context), um Reproduzierbarkeits-Metadaten zu erfassen, einschließlich Git-Commit, Python-Version und Umgebungsdetails
- Starte mit --dry-run, um die Konfiguration zu verifizieren, bevor du langlaufende Analyse-Pipelines ausführst
- Verwende den threshold Parameter (Standard 10), um zu definieren, wann ein Modell als leicht ausnutzbar gilt, basierend auf min_prefill Tokens
Éviter
- Vollständige Analyse ausführen, ohne zuerst die Checkpoint-Verfügbarkeit in config.yaml zu verifizieren
- Den Unterschied zwischen Wort-Tokens und Subword-Tokens bei der Interpretation von Ergebnissen ignorieren
- Mean logprob statt Sum logprob verwenden, wenn über verschiedene Prefill-Längen verglichen wird