🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Seguro ⚙️ Comandos externos⚡ Contém scripts

Treinar agentes de aprendizado por reforço rapidamente

Também disponível em: davila7

Treinar agentes de RL requer ambientes paralelos de alto desempenho e algoritmos eficientes. PufferLib fornece treinamento otimizado de PPO+LSTM com speedups de 2-10x através de vetorização, buffers de memória compartilhada e suporte multi-agente.

Suporta: Claude Codex Code(CC)

🥈 77 Prata

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "pufferlib". Train PPO on CartPole with pufferlib

Resultado esperado:

Environment: gym-CartPole-v1 com 256 envs paralelos
Policy: MLP de 2 camadas (256 unidades ocultas) com layer_init
Training: 10.000 iterações, batch size 32768
Checkpoint: Salvo em checkpoints/checkpoint_1000.pt
Throughput final: 1.2M passos/segundo em GPU

A utilizar "pufferlib". Create multi-agent environment

Resultado esperado:

Configuração multi-agente: 4 agentes em tarefa de navegação cooperativa
Espaço de observação: Dict com posição, meta e posições de outros agentes
Espaço de ação: 5 ações discretas (4 direções + ficar)
Policy backbone compartilhada para aprendizado eficiente
Training com PuffeRL a 800K passos/segundo

Auditoria de Segurança

Seguro

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Arquivos analisados

5,444

Linhas analisadas

achados

Total de auditorias

Fatores de risco

⚙️ Comandos externos (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Contém scripts (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Benchmarking rápido

Benchmarks rápidos de novos algoritmos em ambientes Ocean com throughput de milhões de passos por segundo

Treinamento de ambientes de jogo

Treine agentes em Atari, Procgen ou NetHack com vetorização otimizada e PPO eficiente

Equipes de agentes cooperativos

Construa e treine sistemas multi-agente com integração PettingZoo e opções de política compartilhada

Tente Estes Prompts

Treinamento de ambiente básico

Use pufferlib para treinar um agente PPO no ambiente procgen-coinrun com 256 envs paralelos. Mostre o loop de treinamento e como salvar checkpoints.

Ambiente personalizado

Ajude-me a criar um PufferEnv personalizado para uma tarefa de mundo de grade com 4 ações discretas. Mostre as definições de reset, step e espaço de observação.

Treinamento multi-agente

Use pufferlib para treinar múltiplos agentes em um ambiente PettingZoo. Mostre como lidar com observações dict e políticas compartilhadas.

Ajuste de desempenho

Otimize minha configuração de treinamento pufferlib para máximo throughput. Quais configurações de vetorização e hiperparâmetros devo usar para 4 GPUs?

Melhores Práticas

Comece com ambientes Ocean ou integração Gymnasium antes de construir ambientes personalizados
Perfil de passos por segundo cedo para identificar gargalos antes de escalar
Use torch.compile e CUDA para máximo throughput de treinamento

Evitar

Evite usar CPU para treinamento em larga escala - use GPU com VRAM suficiente
Não pule a validação de ambiente antes de escalar para muitos envs paralelos
Evite codificar hiperparâmetros - use argumentos de CLI para reprodutibilidade

Perguntas Frequentes

Quais ambientes o pufferlib suporta?

Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter e mais de 20 ambientes da suite Ocean.

Quão rápido é o pufferlib comparado a implementações padrão?

Consegue speedups de 2-10x através de vetorização otimizada, memória compartilhada e implementação eficiente de PPO+LSTM.

Posso usar pufferlib com ambientes personalizados?

Sim, implemente a API PufferEnv com métodos reset, step e espaços de observação/ação para melhor desempenho.

O pufferlib suporta treinamento multi-GPU?

Sim, use torchrun com --nproc_per_node para multi-GPU e NCCL para treinamento distribuído multi-nó.

Quais frameworks de logging se integram com pufferlib?

Loggers de Weights & Biases (wandb) e Neptune são integrados com configuração simples.

Como faço para salvar e retomar o treinamento?

Use trainer.save_checkpoint() e trainer.load_checkpoint() com frequência de salvamento periódica para capacidade de resumir.

Detalhes do Desenvolvedor

Autor

K-Dense-AI

Licença

MIT license

Repositório

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

Referência

main

Estrutura de arquivos

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md