🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Seguro ⚙️ Comandos externos⚡ Contiene scripts

Entrena agentes de aprendizaje por refuerzo rápidamente

También disponible en: davila7

El entrenamiento de agentes RL requiere entornos paralelos de alto rendimiento y algoritmos eficientes. PufferLib proporciona entrenamiento optimizado de PPO+LSTM con mejoras de velocidad de 2-10x mediante vectorización, buffers de memoria compartida y soporte multiagente.

Soporta: Claude Codex Code(CC)

🥈 77 Plata

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "pufferlib". Train PPO on CartPole with pufferlib

Resultado esperado:

Environment: gym-CartPole-v1 with 256 parallel envs
Policy: 2-layer MLP (256 hidden units) with layer_init
Training: 10,000 iterations, batch size 32768
Checkpoint: Saved to checkpoints/checkpoint_1000.pt
Final throughput: 1.2M steps/second on GPU

Usando "pufferlib". Create multi-agent environment

Resultado esperado:

Multi-agent setup: 4 agents in cooperative navigation task
Observation space: Dict with position, goal, and other agent positions
Action space: 5 discrete actions (4 directions + stay)
Shared policy backbone for efficient learning
Training with PuffeRL at 800K steps/second

Auditoría de seguridad

Seguro

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Archivos escaneados

5,444

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Contiene scripts (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Evaluación comparativa rápida

Evalúa rápidamente nuevos algoritmos en entornos Ocean con millones de pasos por segundo de rendimiento

Entrenamiento de entornos de juego

Entrena agentes en Atari, Procgen o NetHack con vectorización optimizada y PPO eficiente

Equipos de agentes cooperativos

Construye y entrena sistemas multiagente con integración PettingZoo y opciones de política compartida

Prueba estos prompts

Entrenamiento básico de entorno

Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.

Entorno personalizado

Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.

Entrenamiento multiagente

Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.

Optimización del rendimiento

Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

Mejores prácticas

Comienza con entornos Ocean o integración Gymnasium antes de construir entornos personalizados
Perfila los pasos por segundo temprano para identificar cuellos de botella antes de escalar
Usa torch.compile y CUDA para máximo rendimiento de entrenamiento

Evitar

Evita usar CPU para entrenamiento a gran escala - usa GPU con VRAM suficiente
No omitas la validación del entorno antes de escalar a muchos entornos paralelos
Evita hardcodear hiperparámetros - usa argumentos CLI para reproducibilidad

Preguntas frecuentes

¿Qué entornos soporta pufferlib?

Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter, y más de 20 entornos de la suite Ocean.

¿Qué tan rápido es pufferlib comparado con implementaciones estándar?

Logra mejoras de velocidad de 2-10x mediante vectorización optimizada, memoria compartida e implementación eficiente de PPO+LSTM.

¿Puedo usar pufferlib con entornos personalizados?

Sí, implementa la API PufferEnv con métodos reset, step y espacios de observación/acción para mejor rendimiento.

¿Soporta pufferlib entrenamiento con múltiples GPUs?

Sí, usa torchrun con --nproc_per_node para múltiples GPUs y NCCL para entrenamiento distribuido multinodo.

¿Qué frameworks de registro se integran con pufferlib?

Los registradores de Weights & Biases (wandb) y Neptune están integrados con configuración simple.

¿Cómo guardo y reanudo el entrenamiento?

Usa trainer.save_checkpoint() y trainer.load_checkpoint() con frecuencia de guardado periódica para capacidad de reanudación.

Detalles del desarrollador

Autor

K-Dense-AI

Licencia

MIT license

Repositorio

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

Ref.

main

Estructura de archivos

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md