logprob-prefill-analysis
モデルの報酬ハッキング感受性分析
このスキルは、AIモデルが exploit コードを生成するように操作される容易性を測定するためのプリフィル感度分析の実行に関するドキュメントを提供します。研究者は、モデルチェックポイント間での報酬ハッキング感受性を予測するためのトークン数対ログ確率指標を比較するために使用します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「logprob-prefill-analysis」を使用しています。 How do I run the full prefill sensitivity analysis pipeline?
期待される結果:
- 実行: python scripts/run_full_prefill_analysis.py
- オーケストレーションスクリプトは config.yaml からチェックポイントを自動的に検出します
- プレビュー実行には --dry-run フラグを追加します
- トラジェクトリ分析のみを実行するには --skip-logprob を追加します
- 結果は完全な実験コンテキストを持つタイムスタンプ付きディレクトリに保存されます
「logprob-prefill-analysis」を使用しています。 How do I analyze token-based trajectories?
期待される結果:
- 実行: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
- チェックポイント全体で exploit をトリガーするために必要な最小プリフィルトークンを追跡します
- モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値を設定(デフォルト 10)
- 出力には accessibility_distribution.png と time_to_threshold.png が含まれます
「logprob-prefill-analysis」を使用しています。 What are the key results from this analysis?
期待される結果:
- ログ確率ベースの指標は、予測可能性においてトークンベースより 66% 優れた R2 を示しています
- トークン閾値は、ログ確率閾値より平均で 16.2 ステップ早く発火します
- ベストプラクティス: 異なるプリフィル長を比較する場合は SUM ログ確率を使用します
セキュリティ監査
安全Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.
リスク要因
🌐 ネットワークアクセス (3)
📁 ファイルシステムへのアクセス (1)
⚙️ 外部コマンド (71)
品質スコア
作れるもの
モデルの脆弱性を測定
チェックポイント全体でプリフィルトークンの閾値とログ確率スコアを測定することで、トレーニングされたモデルの報酬ハッキングに対する感受性を評価します
トレーニングの進行状況を追跡
SFT トレーニング中に悪用のアクセシビリティがどのように変化するかを分析し、モデルが脆弱になる時期を特定します
予測指標を比較
トークンベースとログ確率ベースの指標間の R2 値を比較して、モデルが悪用可能になる時期を予測します
これらのプロンプトを試す
run_full_prefill_analysis.py スクリプトを使用して完全なプリフィル感度分析パイプラインを実行するにはどうすればよいですか?
トークンベースのトラジェクトリを分析し、exploit に必要な最小プリフィルトークンを計算するためにどのようなコマンドを使用しますか?
モデルチェックポイントのプリフィルログ確率を計算し、複数のチェックポイントをバッチ処理する方法を教えてください
トークンベースとログ確率ベースの指標をマージして、integrate_logprob_trajectory.py を使用して予測力を比較するにはどうすればよいですか?
ベストプラクティス
- 実験コンテキストロギング(--use-run-context)を使用して、Git コミット、Python バージョン、環境詳細を含む再現性メタデータをキャプチャします
- 長時間分析パイプラインを実行する前に --dry-run で構成を確認します
- モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値パラメータ(デフォルト 10)を使用します
回避
- config.yaml でチェックポイントの可用性を最初に確認せずに完全分析を実行する
- 結果を解釈する際に単語トークンとサブワードトークンの区別を無視する
- 異なるプリフィル長を比較する際に平均ログ確率の代わりに SUM ログ確率を使用する