pufferlib
Entrena agentes de aprendizaje por refuerzo rápidamente
También disponible en: davila7
El entrenamiento de agentes RL requiere entornos paralelos de alto rendimiento y algoritmos eficientes. PufferLib proporciona entrenamiento optimizado de PPO+LSTM con mejoras de velocidad de 2-10x mediante vectorización, buffers de memoria compartida y soporte multiagente.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "pufferlib". Train PPO on CartPole with pufferlib
Resultado esperado:
- Environment: gym-CartPole-v1 with 256 parallel envs
- Policy: 2-layer MLP (256 hidden units) with layer_init
- Training: 10,000 iterations, batch size 32768
- Checkpoint: Saved to checkpoints/checkpoint_1000.pt
- Final throughput: 1.2M steps/second on GPU
Usando "pufferlib". Create multi-agent environment
Resultado esperado:
- Multi-agent setup: 4 agents in cooperative navigation task
- Observation space: Dict with position, goal, and other agent positions
- Action space: 5 discrete actions (4 directions + stay)
- Shared policy backbone for efficient learning
- Training with PuffeRL at 800K steps/second
Auditoría de seguridad
SeguroAll 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.
Factores de riesgo
Puntuación de calidad
Lo que puedes crear
Evaluación comparativa rápida
Evalúa rápidamente nuevos algoritmos en entornos Ocean con millones de pasos por segundo de rendimiento
Entrenamiento de entornos de juego
Entrena agentes en Atari, Procgen o NetHack con vectorización optimizada y PPO eficiente
Equipos de agentes cooperativos
Construye y entrena sistemas multiagente con integración PettingZoo y opciones de política compartida
Prueba estos prompts
Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.
Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.
Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.
Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?
Mejores prácticas
- Comienza con entornos Ocean o integración Gymnasium antes de construir entornos personalizados
- Perfila los pasos por segundo temprano para identificar cuellos de botella antes de escalar
- Usa torch.compile y CUDA para máximo rendimiento de entrenamiento
Evitar
- Evita usar CPU para entrenamiento a gran escala - usa GPU con VRAM suficiente
- No omitas la validación del entorno antes de escalar a muchos entornos paralelos
- Evita hardcodear hiperparámetros - usa argumentos CLI para reproducibilidad
Preguntas frecuentes
¿Qué entornos soporta pufferlib?
¿Qué tan rápido es pufferlib comparado con implementaciones estándar?
¿Puedo usar pufferlib con entornos personalizados?
¿Soporta pufferlib entrenamiento con múltiples GPUs?
¿Qué frameworks de registro se integran con pufferlib?
¿Cómo guardo y reanudo el entrenamiento?
Detalles del desarrollador
Autor
K-Dense-AILicencia
MIT license
Repositorio
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlibRef.
main
Estructura de archivos