技能 pufferlib

🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

安全 ⚙️ 外部命令⚡ 包含腳本

快速訓練強化學習代理

也可從以下取得: davila7

訓練強化學習代理需要高效能平行環境和高效能演算法。PufferLib 提供優化的 PPO+LSTM 訓練，透過向量化、共享記憶體緩衝區和多代理支援，實現 2-10 倍的加速。

支援: Claude Codex Code(CC)

🥈 77 白銀

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「pufferlib」。使用 pufferlib 在 CartPole 上訓練 PPO

預期結果:

環境：gym-CartPole-v1，256 個平行環境
策略：2 層 MLP（256 個隱藏單元），使用 layer_init
訓練：10,000 次疊代，批次大小 32768
檢查點：儲存至 checkpoints/checkpoint_1000.pt
最終吞吐量：GPU 上每秒 120 萬步

正在使用「pufferlib」。建立多代理環境

預期結果:

多代理設定：4 個代理在協作導航任務中
觀察空間：包含位置、目標和其他代理位置的字典
動作空間：5 個離散動作（4 個方向 + 停留）
共享策略骨幹以實現高效學習
使用 PuffeRL 以每秒 80 萬步進行訓練

安全審計

安全

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

已掃描檔案

5,444

分析行數

發現項

審計總數

風險因素

⚙️ 外部命令 (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ 包含腳本 (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

審計者: claude 查看審計歷史 →

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

快速基準測試

在 Ocean 環境上使用每秒數百萬步的吞吐量快速基準測試新演算法

遊戲環境訓練

使用最佳化向量化和高效率 PPO 在 Atari、Procgen 或 NetHack 上訓練代理

協作代理團隊

使用 PettingZoo 整合和共享策略選項建置和訓練多代理系統

試試這些提示

基本環境訓練

使用 pufferlib 在 procgen-coinrun 環境上訓練 PPO 代理，使用 256 個平行環境。顯示訓練迴圈以及如何儲存檢查點。

自訂環境

幫我建立一個用於 4 個離散動作的網格世界任務的自訂 PufferEnv。顯示 reset、step 和觀察空間定義。

多代理訓練

使用 pufferlib 在 PettingZoo 環境上訓練多個代理。顯示如何處理字典觀察和共享策略。

效能調整

最佳化我的 pufferlib 訓練設定以獲得最大吞吐量。對於 4 個 GPU，應該使用哪些向量化設定和超參數？

最佳實務

先使用 Ocean 環境或 Gymnasium 整合，再建置自訂環境
盡早分析每秒步數以識別瓶頸，再進行擴展
使用 torch.compile 和 CUDA 以獲得最大訓練吞吐量

避免

避免對大規模訓練使用 CPU，應使用具有足夠 VRAM 的 GPU
不要在擴展到多個平行環境之前跳過環境驗證
避免硬編碼超參數，應使用 CLI 參數以確保可重現性

常見問題

pufferlib 支援哪些環境？

支援 Gymnasium、PettingZoo、Atari、Procgen、NetHack、Minigrid、Neural MMO、Crafter，以及 Ocean 套件中的 20 多個環境。

pufferlib 與標準實作相比有多快？

透過最佳化向量化、共享記憶體和高效 PPO+LSTM 實現實現 2-10 倍的加速。

我可以在自訂環境中使用 pufferlib 嗎？

可以，實作 PufferEnv API，包含 reset、step 方法和觀察/動作空間以獲得最佳效能。

pufferlib 支援多 GPU 訓練嗎？

可以，對於多 GPU 使用帶有 --nproc_per_node 的 torchrun，對於多節點分散式訓練使用 NCCL。

哪些日誌框架可以與 pufferlib 整合？

Weights & Biases (wandb) 和 Neptune 記錄器已內建，只需簡單設定即可使用。

如何儲存和繼續訓練？

使用 trainer.save_checkpoint() 和 trainer.load_checkpoint() 配合定期儲存頻率以實現繼續訓練功能。

開發者詳情

作者

K-Dense-AI

授權

MIT license

儲存庫

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

引用

main

檔案結構

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md