🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

Verstärkungslernagenten schnell trainieren

Auch verfügbar von: davila7

Das Training von RL-Agenten erfordert hochleistungsfähige parallele Umgebungen und effiziente Algorithmen. PufferLib bietet optimiertes PPO+LSTM-Training mit 2-10x Beschleunigungen durch Vektorisierung, Shared-Memory-Buffer und Multi-Agent-Unterstützung.

Unterstützt: Claude Codex Code(CC)

🥈 77 Silber

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

Environment: gym-CartPole-v1 with 256 parallel envs
Policy: 2-layer MLP (256 hidden units) with layer_init
Training: 10,000 iterations, batch size 32768
Checkpoint: Saved to checkpoints/checkpoint_1000.pt
Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

Multi-agent setup: 4 agents in cooperative navigation task
Observation space: Dict with position, goal, and other agent positions
Action space: 5 discrete actions (4 directions + stay)
Shared policy backbone for efficient learning
Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Gescannte Dateien

5,444

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Enthält Skripte (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Schnelles Benchmarking

Neue Algorithmen schnell auf Ocean-Umgebungen mit Millionen Schritten pro Sekunde Durchsatz benchmarken

Training für Spielumgebungen

Agenten auf Atari, Procgen oder NetHack mit optimierter Vektorisierung und effizientem PPO trainieren

Kooperative Agententeams

Multi-Agent-Systeme mit PettingZoo-Integration und Optionen für gemeinsame Policies aufbauen und trainieren

Probiere diese Prompts

Grundlegendes Umgebungstraining

Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.

Benutzerdefinierte Umgebung

Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.

Multi-Agent-Training

Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.

Leistungs-Tuning

Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

Bewährte Verfahren

Beginnen Sie mit Ocean-Umgebungen oder der Gymnasium-Integration, bevor Sie benutzerdefinierte Umgebungen erstellen
Profilieren Sie früh die Schritte pro Sekunde, um Engpässe zu identifizieren, bevor Sie skalieren
Verwenden Sie torch.compile und CUDA für maximalen Trainingsdurchsatz

Vermeiden

Vermeiden Sie die Nutzung der CPU für großskaliges Training – verwenden Sie eine GPU mit ausreichend VRAM
Überspringen Sie nicht die Umgebungsvalidierung, bevor Sie auf viele parallele envs skalieren
Vermeiden Sie hartcodierte Hyperparameter – nutzen Sie CLI arguments für Reproduzierbarkeit

Häufig gestellte Fragen

Welche Umgebungen unterstützt pufferlib?

Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter und 20+ Ocean-Suite-Umgebungen.

Wie schnell ist pufferlib im Vergleich zu Standardimplementierungen?

Erreicht 2-10x Beschleunigungen durch optimierte Vektorisierung, Shared Memory und effiziente PPO+LSTM-Implementierung.

Kann ich pufferlib mit benutzerdefinierten Umgebungen verwenden?

Ja, implementieren Sie die PufferEnv API mit reset, step methods und Beobachtungs-/Aktionsräumen für beste Leistung.

Unterstützt pufferlib Multi-GPU-Training?

Ja, verwenden Sie torchrun mit --nproc_per_node für Multi-GPU und NCCL für verteiltes Multi-Node-Training.

Welche Logging-Frameworks integrieren sich mit pufferlib?

Weights & Biases (wandb) und Neptune-Logger sind mit einfacher Konfiguration integriert.

Wie speichere und setze ich das Training fort?

Verwenden Sie trainer.save_checkpoint() und trainer.load_checkpoint() mit periodischer Speicherfrequenz für die Fortsetzungsfähigkeit.

Entwicklerdetails

Autor

K-Dense-AI

Lizenz

MIT license

Repository

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

Ref

main

Dateistruktur

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md