Compétences logprob-prefill-analysis
📊

logprob-prefill-analysis

Sûr 🌐 Accès réseau📁 Accès au système de fichiers⚙️ Commandes externes

Analysieren der Anfälligkeit von Modellen für Reward Hacking

Diese Skill-Dokumentation beschreibt die Ausführung einer Prefill-Sensitivitätsanalyse zur Messung, wie leicht KI-Modelle zur Generierung von Exploit-Code manipuliert werden können. Forscher nutzen sie zum Vergleich von Token-Count- und Logprob-Metriken für die Vorhersage der Reward-Hacking-Anfälligkeit über Modell-Checkpoints hinweg.

Prend en charge: Claude Codex Code(CC)
📊 70 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "logprob-prefill-analysis". Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline aus?

Résultat attendu:

  • Ausführen: python scripts/run_full_prefill_analysis.py
  • Das Orchestrierungsskript erkennt Checkpoints automatisch aus config.yaml
  • Füge --dry-run Flag hinzu, um die Ausführung ohne Ausführung zu testen
  • Füge --skip-logprob hinzu, um nur die Trajektorienanalyse auszuführen
  • Ergebnisse werden in timestamped Verzeichnissen mit vollständigem Experiment-Kontext gespeichert

Utilisation de "logprob-prefill-analysis". Wie analysiere ich tokenbasierte Trajektorien?

Résultat attendu:

  • Ausführen: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
  • Verfolge die minimal benötigten Prefill-Tokens zum Auslösen von Exploits über Checkpoints hinweg
  • Setze Schwellenwert (Standard 10), um zu definieren, wann Modelle leicht ausnutzbar sind
  • Ausgabe enthält accessibility_distribution.png und time_to_threshold.png

Utilisation de "logprob-prefill-analysis". Was sind die wichtigsten Ergebnisse dieser Analyse?

Résultat attendu:

  • Logprob-basierte Metriken zeigen 66% bessere R2 als Token-basierte für die Vorhersage der Ausnutzbarkeit
  • Token-Schwellenwert feuert durchschnittlich 16,2 Schritte früher als Logprob-Schwellenwert
  • Best Practice: Verwende SUM logprob zum Vergleichen über verschiedene Prefill-Längen

Audit de sécurité

Sûr
v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

2
Fichiers analysés
518
Lignes analysées
3
résultats
5
Total des audits

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
21
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Modell-Anfälligkeit messen

Evaluiere, wie anfällig trainierte Modelle für Reward Hacking sind, durch Messung von Prefill-Token-Schwellenwerten und Logprob-Scores über Checkpoints hinweg

Training-Progression verfolgen

Analysiere, wie sich die Exploit-Zugänglichkeit während des SFT-Trainings verändert, um zu identifizieren, wann Modelle anfällig werden

Vorhersage-Metriken vergleichen

Vergleiche R2-Werte zwischen tokenbasierten und logprob-basierten Metriken für die Vorhersage, wann Modelle ausnutzbar werden

Essayez ces prompts

Vollständige Analyse ausführen
Wie führe ich die vollständige Prefill-Sensitivitätsanalyse-Pipeline mit dem run_full_prefill_analysis.py Skript aus?
Trajektorien analysieren
Welche Befehle verwende ich, um tokenbasierte Trajektorien zu analysieren und die minimal benötigten Prefill-Tokens für Exploits zu berechnen?
Logprobs berechnen
Zeige mir, wie ich Prefill-Logprobs für einen Modell-Checkpoint berechne und mehrere Checkpoints stapelverarbeitet
Metriken vergleichen
Wie merge ich tokenbasierte und logprob-basierte Metriken, um ihre Vorhersagekraft mit integrate_logprob_trajectory.py zu vergleichen?

Bonnes pratiques

  • Verwende Experiment-Kontext-Logging (--use-run-context), um Reproduzierbarkeits-Metadaten zu erfassen, einschließlich Git-Commit, Python-Version und Umgebungsdetails
  • Starte mit --dry-run, um die Konfiguration zu verifizieren, bevor du langlaufende Analyse-Pipelines ausführst
  • Verwende den threshold Parameter (Standard 10), um zu definieren, wann ein Modell als leicht ausnutzbar gilt, basierend auf min_prefill Tokens

Éviter

  • Vollständige Analyse ausführen, ohne zuerst die Checkpoint-Verfügbarkeit in config.yaml zu verifizieren
  • Den Unterschied zwischen Wort-Tokens und Subword-Tokens bei der Interpretation von Ergebnissen ignorieren
  • Mean logprob statt Sum logprob verwenden, wenn über verschiedene Prefill-Längen verglichen wird

Foire aux questions

Welche Modelle und Frameworks unterstützt diese Analyse?
Funktioniert mit SFT-Checkpoints, die über vLLM bereitgestellt werden. gpt-oss-Modelle verwenden Harmony-Format mit automatischer Erkennung des thinking-Feldes.
Welche Compute-Ressourcen werden benötigt?
GPU empfohlen für Logprob-Berechnung. CUDA OOM kann mit --max-samples 50 oder --dtype float16 adressiert werden.
Wie lange dauert die vollständige Analyse?
Hängt von der Anzahl der Checkpoints und Prefill-Levels ab. Das Orchestrierungsskript verarbeitet alle Checkpoints automatisch.
Werden Daten sicher gespeichert?
Ergebnisse werden im lokalen results/ Verzeichnis geschrieben. Während der Ausführung der Analyse erfolgt keine externe Datenübertragung.
Was tun, wenn der vLLM-Server nicht startet?
Stelle sicher, dass der Server vollständig startet, bevor die Evaluation beginnt. Prüfe die Logs auf die Uvicorn-Nachricht. Verwende pkill, um festgefahrene Prozesse zu beenden.
Wie unterscheidet sich dies von der standardmäßigen Modellevaluation?
Verfolgt die Exploit-Zugänglichkeit über die Training-Progression und vergleicht, wie leicht Modelle über Prefill-Tokens manipuliert werden können.

Détails du développeur

Structure de fichiers

📄 SKILL.md