Fähigkeiten pufferlib
🎮

pufferlib

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

Treinar agentes de aprendizado por reforço rapidamente

Auch verfügbar von: davila7

Treinar agentes de RL requer ambientes paralelos de alto desempenho e algoritmos eficientes. PufferLib fornece treinamento otimizado de PPO+LSTM com speedups de 2-10x através de vetorização, buffers de memória compartilhada e suporte multi-agente.

Unterstützt: Claude Codex Code(CC)
🥈 77 Silber
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

  • Environment: gym-CartPole-v1 com 256 envs paralelos
  • Policy: MLP de 2 camadas (256 unidades ocultas) com layer_init
  • Training: 10.000 iterações, batch size 32768
  • Checkpoint: Salvo em checkpoints/checkpoint_1000.pt
  • Throughput final: 1.2M passos/segundo em GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

  • Configuração multi-agente: 4 agentes em tarefa de navegação cooperativa
  • Espaço de observação: Dict com posição, meta e posições de outros agentes
  • Espaço de ação: 5 ações discretas (4 direções + ficar)
  • Policy backbone compartilhada para aprendizado eficiente
  • Training com PuffeRL a 800K passos/segundo

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Gescannte Dateien
5,444
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

68
Architektur
100
Wartbarkeit
87
Inhalt
22
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Benchmarking rápido

Benchmarks rápidos de novos algoritmos em ambientes Ocean com throughput de milhões de passos por segundo

Treinamento de ambientes de jogo

Treine agentes em Atari, Procgen ou NetHack com vetorização otimizada e PPO eficiente

Equipes de agentes cooperativos

Construa e treine sistemas multi-agente com integração PettingZoo e opções de política compartilhada

Probiere diese Prompts

Treinamento de ambiente básico
Use pufferlib para treinar um agente PPO no ambiente procgen-coinrun com 256 envs paralelos. Mostre o loop de treinamento e como salvar checkpoints.
Ambiente personalizado
Ajude-me a criar um PufferEnv personalizado para uma tarefa de mundo de grade com 4 ações discretas. Mostre as definições de reset, step e espaço de observação.
Treinamento multi-agente
Use pufferlib para treinar múltiplos agentes em um ambiente PettingZoo. Mostre como lidar com observações dict e políticas compartilhadas.
Ajuste de desempenho
Otimize minha configuração de treinamento pufferlib para máximo throughput. Quais configurações de vetorização e hiperparâmetros devo usar para 4 GPUs?

Bewährte Verfahren

  • Comece com ambientes Ocean ou integração Gymnasium antes de construir ambientes personalizados
  • Perfil de passos por segundo cedo para identificar gargalos antes de escalar
  • Use torch.compile e CUDA para máximo throughput de treinamento

Vermeiden

  • Evite usar CPU para treinamento em larga escala - use GPU com VRAM suficiente
  • Não pule a validação de ambiente antes de escalar para muitos envs paralelos
  • Evite codificar hiperparâmetros - use argumentos de CLI para reprodutibilidade

Häufig gestellte Fragen

Quais ambientes o pufferlib suporta?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter e mais de 20 ambientes da suite Ocean.
Quão rápido é o pufferlib comparado a implementações padrão?
Consegue speedups de 2-10x através de vetorização otimizada, memória compartilhada e implementação eficiente de PPO+LSTM.
Posso usar pufferlib com ambientes personalizados?
Sim, implemente a API PufferEnv com métodos reset, step e espaços de observação/ação para melhor desempenho.
O pufferlib suporta treinamento multi-GPU?
Sim, use torchrun com --nproc_per_node para multi-GPU e NCCL para treinamento distribuído multi-nó.
Quais frameworks de logging se integram com pufferlib?
Loggers de Weights & Biases (wandb) e Neptune são integrados com configuração simples.
Como faço para salvar e retomar o treinamento?
Use trainer.save_checkpoint() e trainer.load_checkpoint() com frequência de salvamento periódica para capacidade de resumir.