🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

安全 ⚙️ 外部コマンド⚡ スクリプトを含む

強化学習エージェントを高速にトレーニング

こちらからも入手できます: davila7

強化学習エージェントのトレーニングには、高性能な並列環境と効率的なアルゴリズムが必要です。PufferLibは、ベクトル化、共有メモリバッファ、マルチエージェントサポートにより、2〜10倍の高速化を実現した最適化されたPPO+LSTMトレーニングを提供します。

対応: Claude Codex Code(CC)

🥈 77 シルバー

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「pufferlib」を使用しています。 Train PPO on CartPole with pufferlib

期待される結果:

環境: gym-CartPole-v1（256並列環境）
ポリシー: layer_init付き2層MLP（256隠れユニット）
トレーニング: 10,000イテレーション、バッチサイズ32,768
チェックポイント: checkpoints/checkpoint_1000.ptに保存
最終スループット: GPUで120万ステップ/秒

「pufferlib」を使用しています。 Create multi-agent environment

期待される結果:

マルチエージェント構成: 協調ナビゲーショタスク内の4エージェント
観測空間: 位置、ゴール、他のエージェントの位置を含むDict
行動空間: 5つの離散行動（4方向+停止）
効率的な学習のための共有ポリシーバックボーン
PuffeRLで80万ステップ/秒でのトレーニング

セキュリティ監査

安全

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

スキャンされたファイル

5,444

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ スクリプトを含む (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

高速ベンチマーキング

Ocean環境で1秒あたり数百万ステップのスループットで新アルゴリズムを быстроベンチマーク

ゲーム環境トレーニング

最適化されたベクトル化と効率的なPPOを使用して、Atari、Procgen、またはNetHackでエージェントをトレーニング

協調エージェントチーム

PettingZoo統合と共有ポリシーオプションでマルチエージェントシステムを構築およびトレーニング

これらのプロンプトを試す

基本的な環境トレーニング

Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.

カスタム環境

Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.

マルチエージェントトレーニング

Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.

パフォーマンス調整

Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

ベストプラクティス

カスタム環境を構築する前に、Ocean環境またはGymnasium統合から始める
スケーリング前にボトルネックを特定するために、早期に1秒あたりのステップ数をプロファイリングする
最大のトレーニングスループットにはtorch.compileとCUDAを使用する

回避

大規模トレーニングにCPUを使用するのを避ける - 十分なVRAMのGPUを使用する
多くの並列環境にスケーリングする前に環境検証をスキップしない
ハイパーパラメータをハードコーディングしない - 再現性のためにCLI引数を使用する

よくある質問

pufferlibはどの環境をサポートしていますか？

Gymnasium、PettingZoo、Atari、Procgen、NetHack、Minigrid、Neural MMO、Crafter、および20以上のOceanスイート環境をサポートしています。

pufferlibは標準的な実装と比較してどの程度速いですか？

最適化されたベクトル化、共有メモリ、効率的なPPO+LSTM実装により、標準的な実装と比較して2〜10倍の高速化を実現しています。

pufferlibをカスタム環境で使用できますか？

はい、最高のパフォーマンスを得るために、reset、stepメソッド、観測/行動空間を備えたPufferEnv APIを実装してください。

pufferlibはマルチGPUトレーニングをサポートしていますか？

はい、torchrunの--nproc_per_nodeオプションをマルチGPUに、マルチノードにはNCCLを使用してください。

どのロギングフレームワークがpufferlibと統合されていますか？

Weights & Biases（wandb）およびNeptuneロガーがシンプルな設定で組み込まれています。

トレーニングを保存および再開するにはどうすればよいですか？

trainer.save_checkpoint()とtrainer.load_checkpoint()を定期的な保存頻度で使用して再開機能を有効にしてください。

開発者の詳細

作成者

K-Dense-AI

ライセンス

MIT license

リポジトリ

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

参照

main

ファイル構成

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md