スキル logprob-prefill-analysis

📊

logprob-prefill-analysis

Name: logprob-prefill-analysis
Author: EleutherAI

安全 🌐 ネットワークアクセス📁 ファイルシステムへのアクセス⚙️ 外部コマンド

モデルの報酬ハッキング感受性分析

このスキルは、AIモデルが exploit コードを生成するように操作される容易性を測定するためのプリフィル感度分析の実行に関するドキュメントを提供します。研究者は、モデルチェックポイント間での報酬ハッキング感受性を予測するためのトークン数対ログ確率指標を比較するために使用します。

対応: Claude Codex Code(CC)

📊 70 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「logprob-prefill-analysis」を使用しています。 How do I run the full prefill sensitivity analysis pipeline?

期待される結果:

実行: python scripts/run_full_prefill_analysis.py
オーケストレーションスクリプトは config.yaml からチェックポイントを自動的に検出します
プレビュー実行には --dry-run フラグを追加します
トラジェクトリ分析のみを実行するには --skip-logprob を追加します
結果は完全な実験コンテキストを持つタイムスタンプ付きディレクトリに保存されます

「logprob-prefill-analysis」を使用しています。 How do I analyze token-based trajectories?

期待される結果:

実行: python scripts/prefill_trajectory_analysis.py --run-dir results/prefill_sensitivity/{RUN_NAME}
チェックポイント全体で exploit をトリガーするために必要な最小プリフィルトークンを追跡します
モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値を設定（デフォルト 10）
出力には accessibility_distribution.png と time_to_threshold.png が含まれます

「logprob-prefill-analysis」を使用しています。 What are the key results from this analysis?

期待される結果:

ログ確率ベースの指標は、予測可能性においてトークンベースより 66% 優れた R2 を示しています
トークン閾値は、ログ確率閾値より平均で 16.2 ステップ早く発火します
ベストプラクティス: 異なるプリフィル長を比較する場合は SUM ログ確率を使用します

セキュリティ監査

安全

v5 • 1/17/2026

Pure documentation skill containing only SKILL.md markdown file with no executable code. The static analyzer incorrectly flagged documentation examples as security issues. Backticks in code blocks are markdown formatting, not shell execution. Hardcoded URLs in examples are localhost development endpoints. Hash-related terms in metadata are not cryptographic code. The skill documents a legitimate AI safety research pipeline for measuring model susceptibility to reward hacking.

スキャンされたファイル

518

解析された行数

検出結果

総監査数

リスク要因

🌐 ネットワークアクセス (3)

skill-report.json:6 SKILL.md:90 SKILL.md:123

📁 ファイルシステムへのアクセス (1)

skill-report.json:6

⚙️ 外部コマンド (71)

SKILL.md:14-27 SKILL.md:27-30 SKILL.md:30-53 SKILL.md:53-55 SKILL.md:55-67 SKILL.md:67-82 SKILL.md:82-84 SKILL.md:84-88 SKILL.md:88-95 SKILL.md:95-100 SKILL.md:100-101 SKILL.md:101-102 SKILL.md:102-105 SKILL.md:105-106 SKILL.md:106-110 SKILL.md:110-133 SKILL.md:133-141 SKILL.md:141-146 SKILL.md:146-149 SKILL.md:149-155 SKILL.md:155-163 SKILL.md:163-164 SKILL.md:164-165 SKILL.md:165-175 SKILL.md:175-181 SKILL.md:181-185 SKILL.md:185-190 SKILL.md:190-193 SKILL.md:193-194 SKILL.md:194-195 SKILL.md:195-203 SKILL.md:203-212 SKILL.md:212-215 SKILL.md:215-219 SKILL.md:219-222 SKILL.md:222-223 SKILL.md:223-226 SKILL.md:226-227 SKILL.md:227-228 SKILL.md:228-229 SKILL.md:229-235 SKILL.md:235-236 SKILL.md:236-237 SKILL.md:237-238 SKILL.md:238-240 SKILL.md:240-271 SKILL.md:271-284 SKILL.md:284 SKILL.md:284-287 SKILL.md:287 SKILL.md:287-296 SKILL.md:296-326 SKILL.md:326-334 SKILL.md:334 SKILL.md:334-335 SKILL.md:335 SKILL.md:335 SKILL.md:335-336 SKILL.md:336 SKILL.md:336-337 SKILL.md:337 SKILL.md:337 SKILL.md:337-338 SKILL.md:338 SKILL.md:338 SKILL.md:338-339 SKILL.md:339 SKILL.md:339 SKILL.md:112 SKILL.md:110-133 SKILL.md:111

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

モデルの脆弱性を測定

チェックポイント全体でプリフィルトークンの閾値とログ確率スコアを測定することで、トレーニングされたモデルの報酬ハッキングに対する感受性を評価します

トレーニングの進行状況を追跡

SFT トレーニング中に悪用のアクセシビリティがどのように変化するかを分析し、モデルが脆弱になる時期を特定します

予測指標を比較

トークンベースとログ確率ベースの指標間の R2 値を比較して、モデルが悪用可能になる時期を予測します

これらのプロンプトを試す

完全分析を実行

run_full_prefill_analysis.py スクリプトを使用して完全なプリフィル感度分析パイプラインを実行するにはどうすればよいですか？

トラジェクトリを分析

トークンベースのトラジェクトリを分析し、exploit に必要な最小プリフィルトークンを計算するためにどのようなコマンドを使用しますか？

ログ確率を計算

モデルチェックポイントのプリフィルログ確率を計算し、複数のチェックポイントをバッチ処理する方法を教えてください

指標を比較

トークンベースとログ確率ベースの指標をマージして、integrate_logprob_trajectory.py を使用して予測力を比較するにはどうすればよいですか？

ベストプラクティス

実験コンテキストロギング（--use-run-context）を使用して、Git コミット、Python バージョン、環境詳細を含む再現性メタデータをキャプチャします
長時間分析パイプラインを実行する前に --dry-run で構成を確認します
モデルが簡単に悪用可能とみなされるタイミングを定義するために閾値パラメータ（デフォルト 10）を使用します

回避

config.yaml でチェックポイントの可用性を最初に確認せずに完全分析を実行する
結果を解釈する際に単語トークンとサブワードトークンの区別を無視する
異なるプリフィル長を比較する際に平均ログ確率の代わりに SUM ログ確率を使用する

よくある質問

この分析はどのようなモデルとフレームワークをサポートしていますか？

vLLM を通じて提供される SFT チェックポイントで動作します。gpt-oss モデルは、thinking フィールドの自動検出を伴う Harmony 形式を使用します。

どのようなコンピュートリソースが必要ですか？

ログ確率計算には GPU を推奨します。CUDA OOM は --max-samples 50 または --dtype float16 で対処できます。

完全分析には多长时间かかりますか？

チェックポイント数とプリフィルレベルによって異なります。オーケストレーションスクリプトはすべてのチェックポイントを自動的に処理します。

データは安全に保存されますか？

結果はローカル results/ ディレクトリに書き込まれます。分析実行中に外部データ送信は行われません。

vLLM サーバーが起動しない場合はどうすればよいですか？

評価前にサーバーが完全に起動していることを確認します。Uvicorn 実行メッセージのログを確認します。pkill を使用してスタックしたプロセスをクリーンアップします。

標準的なモデル評価とどう異なりますか？

トレーニング進行中の悪用アクセシビリティを追踪し、プリフィルトークンを介してモデルがどの程度簡単に操作できるかを比較します。

開発者の詳細

作成者

EleutherAI

ライセンス

MIT

リポジトリ

https://github.com/EleutherAI/rh-indicators/tree/main/.claude/skills/logprob-prefill-analysis

参照

main

ファイル構成

📄 SKILL.md