Fähigkeiten pufferlib
🎮

pufferlib

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

Verstärkungslernagenten schnell trainieren

Auch verfügbar von: davila7

Das Training von RL-Agenten erfordert hochleistungsfähige parallele Umgebungen und effiziente Algorithmen. PufferLib bietet optimiertes PPO+LSTM-Training mit 2-10x Beschleunigungen durch Vektorisierung, Shared-Memory-Buffer und Multi-Agent-Unterstützung.

Unterstützt: Claude Codex Code(CC)
🥈 78 Silber
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

  • Environment: gym-CartPole-v1 with 256 parallel envs
  • Policy: 2-layer MLP (256 hidden units) with layer_init
  • Training: 10,000 iterations, batch size 32768
  • Checkpoint: Saved to checkpoints/checkpoint_1000.pt
  • Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

  • Multi-agent setup: 4 agents in cooperative navigation task
  • Observation space: Dict with position, goal, and other agent positions
  • Action space: 5 discrete actions (4 directions + stay)
  • Shared policy backbone for efficient learning
  • Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Gescannte Dateien
5,444
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

68
Architektur
100
Wartbarkeit
87
Inhalt
29
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Schnelles Benchmarking

Neue Algorithmen schnell auf Ocean-Umgebungen mit Millionen Schritten pro Sekunde Durchsatz benchmarken

Training für Spielumgebungen

Agenten auf Atari, Procgen oder NetHack mit optimierter Vektorisierung und effizientem PPO trainieren

Kooperative Agententeams

Multi-Agent-Systeme mit PettingZoo-Integration und Optionen für gemeinsame Policies aufbauen und trainieren

Probiere diese Prompts

Grundlegendes Umgebungstraining
Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.
Benutzerdefinierte Umgebung
Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.
Multi-Agent-Training
Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.
Leistungs-Tuning
Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

Bewährte Verfahren

  • Beginnen Sie mit Ocean-Umgebungen oder der Gymnasium-Integration, bevor Sie benutzerdefinierte Umgebungen erstellen
  • Profilieren Sie früh die Schritte pro Sekunde, um Engpässe zu identifizieren, bevor Sie skalieren
  • Verwenden Sie torch.compile und CUDA für maximalen Trainingsdurchsatz

Vermeiden

  • Vermeiden Sie die Nutzung der CPU für großskaliges Training – verwenden Sie eine GPU mit ausreichend VRAM
  • Überspringen Sie nicht die Umgebungsvalidierung, bevor Sie auf viele parallele envs skalieren
  • Vermeiden Sie hartcodierte Hyperparameter – nutzen Sie CLI arguments für Reproduzierbarkeit

Häufig gestellte Fragen

Welche Umgebungen unterstützt pufferlib?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter und 20+ Ocean-Suite-Umgebungen.
Wie schnell ist pufferlib im Vergleich zu Standardimplementierungen?
Erreicht 2-10x Beschleunigungen durch optimierte Vektorisierung, Shared Memory und effiziente PPO+LSTM-Implementierung.
Kann ich pufferlib mit benutzerdefinierten Umgebungen verwenden?
Ja, implementieren Sie die PufferEnv API mit reset, step methods und Beobachtungs-/Aktionsräumen für beste Leistung.
Unterstützt pufferlib Multi-GPU-Training?
Ja, verwenden Sie torchrun mit --nproc_per_node für Multi-GPU und NCCL für verteiltes Multi-Node-Training.
Welche Logging-Frameworks integrieren sich mit pufferlib?
Weights & Biases (wandb) und Neptune-Logger sind mit einfacher Konfiguration integriert.
Wie speichere und setze ich das Training fort?
Verwenden Sie trainer.save_checkpoint() und trainer.load_checkpoint() mit periodischer Speicherfrequenz für die Fortsetzungsfähigkeit.