スキル pufferlib
🎮

pufferlib

安全 ⚙️ 外部コマンド⚡ スクリプトを含む

強化学習エージェントを高速にトレーニング

こちらからも入手できます: davila7

強化学習エージェントのトレーニングには、高性能な並列環境と効率的なアルゴリズムが必要です。PufferLibは、ベクトル化、共有メモリバッファ、マルチエージェントサポートにより、2〜10倍の高速化を実現した最適化されたPPO+LSTMトレーニングを提供します。

対応: Claude Codex Code(CC)
🥈 78 シルバー
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「pufferlib」を使用しています。 Train PPO on CartPole with pufferlib

期待される結果:

  • 環境: gym-CartPole-v1(256並列環境)
  • ポリシー: layer_init付き2層MLP(256隠れユニット)
  • トレーニング: 10,000イテレーション、バッチサイズ32,768
  • チェックポイント: checkpoints/checkpoint_1000.ptに保存
  • 最終スループット: GPUで120万ステップ/秒

「pufferlib」を使用しています。 Create multi-agent environment

期待される結果:

  • マルチエージェント構成: 協調ナビゲーショタスク内の4エージェント
  • 観測空間: 位置、ゴール、他のエージェントの位置を含むDict
  • 行動空間: 5つの離散行動(4方向+停止)
  • 効率的な学習のための共有ポリシーバックボーン
  • PuffeRLで80万ステップ/秒でのトレーニング

セキュリティ監査

安全
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
スキャンされたファイル
5,444
解析された行数
2
検出結果
4
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

68
アーキテクチャ
100
保守性
87
コンテンツ
29
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

高速ベンチマーキング

Ocean環境で1秒あたり数百万ステップのスループットで新アルゴリズムを быстроベンチマーク

ゲーム環境トレーニング

最適化されたベクトル化と効率的なPPOを使用して、Atari、Procgen、またはNetHackでエージェントをトレーニング

協調エージェントチーム

PettingZoo統合と共有ポリシーオプションでマルチエージェントシステムを構築およびトレーニング

これらのプロンプトを試す

基本的な環境トレーニング
Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.
カスタム環境
Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.
マルチエージェントトレーニング
Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.
パフォーマンス調整
Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

ベストプラクティス

  • カスタム環境を構築する前に、Ocean環境またはGymnasium統合から始める
  • スケーリング前にボトルネックを特定するために、早期に1秒あたりのステップ数をプロファイリングする
  • 最大のトレーニングスループットにはtorch.compileとCUDAを使用する

回避

  • 大規模トレーニングにCPUを使用するのを避ける - 十分なVRAMのGPUを使用する
  • 多くの並列環境にスケーリングする前に環境検証をスキップしない
  • ハイパーパラメータをハードコーディングしない - 再現性のためにCLI引数を使用する

よくある質問

pufferlibはどの環境をサポートしていますか?
Gymnasium、PettingZoo、Atari、Procgen、NetHack、Minigrid、Neural MMO、Crafter、および20以上のOceanスイート環境をサポートしています。
pufferlibは標準的な実装と比較してどの程度速いですか?
最適化されたベクトル化、共有メモリ、効率的なPPO+LSTM実装により、標準的な実装と比較して2〜10倍の高速化を実現しています。
pufferlibをカスタム環境で使用できますか?
はい、最高のパフォーマンスを得るために、reset、stepメソッド、観測/行動空間を備えたPufferEnv APIを実装してください。
pufferlibはマルチGPUトレーニングをサポートしていますか?
はい、torchrunの--nproc_per_nodeオプションをマルチGPUに、マルチノードにはNCCLを使用してください。
どのロギングフレームワークがpufferlibと統合されていますか?
Weights & Biases(wandb)およびNeptuneロガーがシンプルな設定で組み込まれています。
トレーニングを保存および再開するにはどうすればよいですか?
trainer.save_checkpoint()とtrainer.load_checkpoint()を定期的な保存頻度で使用して再開機能を有効にしてください。

開発者の詳細