Habilidades pufferlib
🎮

pufferlib

Seguro ⚙️ Comandos externos⚡ Contém scripts

Treinar agentes de aprendizado por reforço rapidamente

Também disponível em: davila7

Treinar agentes de RL requer ambientes paralelos de alto desempenho e algoritmos eficientes. PufferLib fornece treinamento otimizado de PPO+LSTM com speedups de 2-10x através de vetorização, buffers de memória compartilhada e suporte multi-agente.

Suporta: Claude Codex Code(CC)
🥈 78 Prata
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "pufferlib". Train PPO on CartPole with pufferlib

Resultado esperado:

  • Environment: gym-CartPole-v1 com 256 envs paralelos
  • Policy: MLP de 2 camadas (256 unidades ocultas) com layer_init
  • Training: 10.000 iterações, batch size 32768
  • Checkpoint: Salvo em checkpoints/checkpoint_1000.pt
  • Throughput final: 1.2M passos/segundo em GPU

A utilizar "pufferlib". Create multi-agent environment

Resultado esperado:

  • Configuração multi-agente: 4 agentes em tarefa de navegação cooperativa
  • Espaço de observação: Dict com posição, meta e posições de outros agentes
  • Espaço de ação: 5 ações discretas (4 direções + ficar)
  • Policy backbone compartilhada para aprendizado eficiente
  • Training com PuffeRL a 800K passos/segundo

Auditoria de Segurança

Seguro
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Arquivos analisados
5,444
Linhas analisadas
2
achados
4
Total de auditorias
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

68
Arquitetura
100
Manutenibilidade
87
Conteúdo
29
Comunidade
100
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

Benchmarking rápido

Benchmarks rápidos de novos algoritmos em ambientes Ocean com throughput de milhões de passos por segundo

Treinamento de ambientes de jogo

Treine agentes em Atari, Procgen ou NetHack com vetorização otimizada e PPO eficiente

Equipes de agentes cooperativos

Construa e treine sistemas multi-agente com integração PettingZoo e opções de política compartilhada

Tente Estes Prompts

Treinamento de ambiente básico
Use pufferlib para treinar um agente PPO no ambiente procgen-coinrun com 256 envs paralelos. Mostre o loop de treinamento e como salvar checkpoints.
Ambiente personalizado
Ajude-me a criar um PufferEnv personalizado para uma tarefa de mundo de grade com 4 ações discretas. Mostre as definições de reset, step e espaço de observação.
Treinamento multi-agente
Use pufferlib para treinar múltiplos agentes em um ambiente PettingZoo. Mostre como lidar com observações dict e políticas compartilhadas.
Ajuste de desempenho
Otimize minha configuração de treinamento pufferlib para máximo throughput. Quais configurações de vetorização e hiperparâmetros devo usar para 4 GPUs?

Melhores Práticas

  • Comece com ambientes Ocean ou integração Gymnasium antes de construir ambientes personalizados
  • Perfil de passos por segundo cedo para identificar gargalos antes de escalar
  • Use torch.compile e CUDA para máximo throughput de treinamento

Evitar

  • Evite usar CPU para treinamento em larga escala - use GPU com VRAM suficiente
  • Não pule a validação de ambiente antes de escalar para muitos envs paralelos
  • Evite codificar hiperparâmetros - use argumentos de CLI para reprodutibilidade

Perguntas Frequentes

Quais ambientes o pufferlib suporta?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter e mais de 20 ambientes da suite Ocean.
Quão rápido é o pufferlib comparado a implementações padrão?
Consegue speedups de 2-10x através de vetorização otimizada, memória compartilhada e implementação eficiente de PPO+LSTM.
Posso usar pufferlib com ambientes personalizados?
Sim, implemente a API PufferEnv com métodos reset, step e espaços de observação/ação para melhor desempenho.
O pufferlib suporta treinamento multi-GPU?
Sim, use torchrun com --nproc_per_node para multi-GPU e NCCL para treinamento distribuído multi-nó.
Quais frameworks de logging se integram com pufferlib?
Loggers de Weights & Biases (wandb) e Neptune são integrados com configuração simples.
Como faço para salvar e retomar o treinamento?
Use trainer.save_checkpoint() e trainer.load_checkpoint() com frequência de salvamento periódica para capacidade de resumir.

Detalhes do Desenvolvedor