スキル logprob-prefill-analysis
📊

logprob-prefill-analysis

安全 🌐 ネットワークアクセス📁 ファイルシステムへのアクセス⚙️ 外部コマンド

モデルの報酬ハッキング感受性分析

このスキルは、AIモデルが exploit コードを生成するように操作される容易性を測定するためのプリフィル感度分析の実行に関するドキュメントを提供します。研究者は、モデルチェックポイント間での報酬ハッキング感受性を予測するためのトークン数対ログ確率指標を比較するために使用します。

対応: Claude Codex Code(CC)
📊 71 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「logprob-prefill-analysis」を使用しています。 How do I run the full prefill sensitivity analysis pipeline?

期待される結果:

  • 実行: python scripts/run_full_prefill_analysis.py
  • オーケストレーションスクリプトは config.yaml からチェックポイントを自動的に検出します
  • プレビュー実行には --dry-run フラグを追加します
  • トラジェクトリ分析のみを実行するには --skip-logprob を追加します
  • 結果は完全な実験コンテキストを持つタイムスタンプ付きディレクトリに保存されます

「logprob-prefill-analysis」を使用しています。 How do I analyze token-based trajectories?

期待される結果:

  • 実行: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
  • チェックポイント全体で exploit をトリガーするために必要な最小プリフィルトークンを追跡します
  • モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値を設定(デフォルト 10)
  • 出力には accessibility_distribution.png と time_to_threshold.png が含まれます

「logprob-prefill-analysis」を使用しています。 What are the key results from this analysis?

期待される結果:

  • ログ確率ベースの指標は、予測可能性においてトークンベースより 66% 優れた R2 を示しています
  • トークン閾値は、ログ確率閾値より平均で 16.2 ステップ早く発火します
  • ベストプラクティス: 異なるプリフィル長を比較する場合は SUM ログ確率を使用します

セキュリティ監査

安全
v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

2
スキャンされたファイル
518
解析された行数
3
検出結果
5
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
30
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

モデルの脆弱性を測定

チェックポイント全体でプリフィルトークンの閾値とログ確率スコアを測定することで、トレーニングされたモデルの報酬ハッキングに対する感受性を評価します

トレーニングの進行状況を追跡

SFT トレーニング中に悪用のアクセシビリティがどのように変化するかを分析し、モデルが脆弱になる時期を特定します

予測指標を比較

トークンベースとログ確率ベースの指標間の R2 値を比較して、モデルが悪用可能になる時期を予測します

これらのプロンプトを試す

完全分析を実行
run_full_prefill_analysis.py スクリプトを使用して完全なプリフィル感度分析パイプラインを実行するにはどうすればよいですか?
トラジェクトリを分析
トークンベースのトラジェクトリを分析し、exploit に必要な最小プリフィルトークンを計算するためにどのようなコマンドを使用しますか?
ログ確率を計算
モデルチェックポイントのプリフィルログ確率を計算し、複数のチェックポイントをバッチ処理する方法を教えてください
指標を比較
トークンベースとログ確率ベースの指標をマージして、integrate_logprob_trajectory.py を使用して予測力を比較するにはどうすればよいですか?

ベストプラクティス

  • 実験コンテキストロギング(--use-run-context)を使用して、Git コミット、Python バージョン、環境詳細を含む再現性メタデータをキャプチャします
  • 長時間分析パイプラインを実行する前に --dry-run で構成を確認します
  • モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値パラメータ(デフォルト 10)を使用します

回避

  • config.yaml でチェックポイントの可用性を最初に確認せずに完全分析を実行する
  • 結果を解釈する際に単語トークンとサブワードトークンの区別を無視する
  • 異なるプリフィル長を比較する際に平均ログ確率の代わりに SUM ログ確率を使用する

よくある質問

この分析はどのようなモデルとフレームワークをサポートしていますか?
vLLM を通じて提供される SFT チェックポイントで動作します。gpt-oss モデルは、thinking フィールドの自動検出を伴う Harmony 形式を使用します。
どのようなコンピュートリソースが必要ですか?
ログ確率計算には GPU を推奨します。CUDA OOM は --max-samples 50 または --dtype float16 で対処できます。
完全分析には多长时间かかりますか?
チェックポイント数とプリフィルレベルによって異なります。オーケストレーションスクリプトはすべてのチェックポイントを自動的に処理します。
データは安全に保存されますか?
結果はローカル results/ ディレクトリに書き込まれます。分析実行中に外部データ送信は行われません。
vLLM サーバーが起動しない場合はどうすればよいですか?
評価前にサーバーが完全に起動していることを確認します。Uvicorn 実行メッセージのログを確認します。pkill を使用してスタックしたプロセスをクリーンアップします。
標準的なモデル評価とどう異なりますか?
トレーニング進行中の悪用アクセシビリティを追踪し、プリフィルトークンを介してモデルがどの程度簡単に操作できるかを比較します。

開発者の詳細

ファイル構成

📄 SKILL.md