技能 pufferlib

🧠

pufferlib

Name: pufferlib
Author: davila7

安全 ⚙️ 外部命令📁 文件系统访问🌐 网络访问

使用 PufferLib 训练强化学习智能体

也可从以下获取: K-Dense-AI

训练强化学习智能体需要管理复杂的并行模拟并实现高效的 PPO 算法。PufferLib 提供高性能的向量化环境和优化训练，以实现每秒数百万步的吞吐量。

支持: Claude Codex Code(CC)

🥈 77 白银

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“pufferlib”。创建向量化 CartPole 环境并训练策略

预期结果:

创建了 256 个并行 CartPole 环境
策略：MLP，包含 256 个隐藏单元，ReLU 激活函数
在 GPU 上以每秒 120 万步的速度训练
第 100 回合：平均奖励 = 485.2
检查点已保存：checkpoints/checkpoint_100.pt

正在使用“pufferlib”。构建自定义多智能体环境

预期结果:

定义了包含 4 个协作智能体的 MultiAgentEnvironment
观测空间：位置、目标、其他智能体位置
动作空间：每个智能体 5 个离散动作
成功使用 10 步回合测试

正在使用“pufferlib”。集成 Atari 游戏环境

预期结果:

使用 PufferLib 向量化包装 atari-pong 环境
配置了 256 个并行环境
图像观测：84x84 灰度图
准备好使用 CNN 策略进行 PPO 训练

安全审计

安全

v5 • 1/17/2026

Legitimate reinforcement learning library template and documentation. All 325 static findings are FALSE POSITIVES triggered by markdown documentation containing code examples. The scanner misinterpreted backtick characters in markdown code blocks as Ruby shell execution, environment variable references as credential access, and standard ML training patterns as suspicious behavior. This is a standard ML library with no malicious code.

已扫描文件

3,979

分析行数

发现项

审计总数

风险因素

⚙️ 外部命令 (6)

SKILL.md:30-60 references/training.md:13-42 references/environments.md:19-119 references/integration.md:11-598 references/policies.md:11-634 references/vectorization.md:28-544

📁 文件系统访问 (1)

scripts/train_template.py:231-232

🌐 网络访问 (1)

SKILL.md:428-429

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

快速强化学习实验

使用高吞吐量并行环境原型设计和测试强化学习算法

训练游戏智能体

使用 PPO 为 Atari、Procgen 和自定义游戏环境开发智能体

模拟到真实的策略迁移

在向量化模拟器中训练策略并部署到物理系统

试试这些提示

快速环境测试

使用 PufferLib 为 procgen-coinrun 创建包含 256 个并行环境的环境，并运行快速评估以测量每秒步数

自定义环境

帮助我创建一个用于网格世界导航任务的自定义 PufferEnv 环境，包含离散动作和向量化观测

使用 PPO 训练

编写完整的训练脚本，使用 PuffeRL 和 CNN 策略处理图像观测，包括检查点保存和 Weights & Biases 日志记录

多智能体训练

使用 PettingZoo 环境创建多智能体训练设置，智能体之间共享策略，配置为 128 个并行环境

最佳实践

从较小的 num_envs（64-128）开始用于调试，然后扩展到 256 以上用于生产训练
在 PyTorch 2.0+ 上使用 torch.compile 且 mode=reduce-overhead 可获得 10-20% 的训练加速
在训练前分析环境性能，使用共享内存缓冲区识别瓶颈

避免

避免过度嵌套包装器，因为每个包装器都会增加环境步进的额外开销
不要在环境步进方法中分配新数组 - 使用预分配的缓冲区实现零拷贝操作
避免在没有检查点的情况下运行训练 - 对于长时间运行的实验，恢复能力至关重要

常见问题

支持哪些 Python 和 PyTorch 版本？

建议使用 Python 3.8+ 和 PyTorch 1.13+。PyTorch 2.0+ 支持 torch.compile 以实现更快的训练。

可实现的最大吞吐量是多少？

纯 Python 环境：每秒 10-50 万步。基于 C 的环境：每秒 1 亿步以上。使用 Python 环境的训练：每秒 100-400 万步总计。

PufferLib 如何与现有的 Gymnasium 环境集成？

使用 pufferlib.emulate() 包装任何 Gymnasium 环境，或使用 pufferlib.make(gym-EnvName) 直接访问。

我的训练数据安全吗？

PufferLib 完全在本地运行。只有 wandb/neptune 日志记录器在配置时才会选择性地向外部服务发送指标。

为什么我在 CPU 上训练很慢？

强化学习训练需要 GPU 进行神经网络推理。使用 device=cuda 并确保 CUDA 可用。

PufferLib 与 Stable-Baselines3 相比如何？

PufferLib 优先考虑吞吐量（每秒 100 万步以上）而非简单性。SB3 更容易使用但速度较慢。PufferLib 适合需要快速实验的研究。

开发者详情

作者

davila7

许可证

MIT

仓库

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/scientific/pufferlib

引用

main

文件结构

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 SKILL.md