pufferlib
Verstärkungslernagenten schnell trainieren
Auch verfügbar von: davila7
Das Training von RL-Agenten erfordert hochleistungsfähige parallele Umgebungen und effiziente Algorithmen. PufferLib bietet optimiertes PPO+LSTM-Training mit 2-10x Beschleunigungen durch Vektorisierung, Shared-Memory-Buffer und Multi-Agent-Unterstützung.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "pufferlib". Train PPO on CartPole with pufferlib
Erwartetes Ergebnis:
- Environment: gym-CartPole-v1 with 256 parallel envs
- Policy: 2-layer MLP (256 hidden units) with layer_init
- Training: 10,000 iterations, batch size 32768
- Checkpoint: Saved to checkpoints/checkpoint_1000.pt
- Final throughput: 1.2M steps/second on GPU
Verwendung von "pufferlib". Create multi-agent environment
Erwartetes Ergebnis:
- Multi-agent setup: 4 agents in cooperative navigation task
- Observation space: Dict with position, goal, and other agent positions
- Action space: 5 discrete actions (4 directions + stay)
- Shared policy backbone for efficient learning
- Training with PuffeRL at 800K steps/second
Sicherheitsaudit
SicherAll 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.
Risikofaktoren
Qualitätsbewertung
Was du bauen kannst
Schnelles Benchmarking
Neue Algorithmen schnell auf Ocean-Umgebungen mit Millionen Schritten pro Sekunde Durchsatz benchmarken
Training für Spielumgebungen
Agenten auf Atari, Procgen oder NetHack mit optimierter Vektorisierung und effizientem PPO trainieren
Kooperative Agententeams
Multi-Agent-Systeme mit PettingZoo-Integration und Optionen für gemeinsame Policies aufbauen und trainieren
Probiere diese Prompts
Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.
Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.
Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.
Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?
Bewährte Verfahren
- Beginnen Sie mit Ocean-Umgebungen oder der Gymnasium-Integration, bevor Sie benutzerdefinierte Umgebungen erstellen
- Profilieren Sie früh die Schritte pro Sekunde, um Engpässe zu identifizieren, bevor Sie skalieren
- Verwenden Sie torch.compile und CUDA für maximalen Trainingsdurchsatz
Vermeiden
- Vermeiden Sie die Nutzung der CPU für großskaliges Training – verwenden Sie eine GPU mit ausreichend VRAM
- Überspringen Sie nicht die Umgebungsvalidierung, bevor Sie auf viele parallele envs skalieren
- Vermeiden Sie hartcodierte Hyperparameter – nutzen Sie CLI arguments für Reproduzierbarkeit
Häufig gestellte Fragen
Welche Umgebungen unterstützt pufferlib?
Wie schnell ist pufferlib im Vergleich zu Standardimplementierungen?
Kann ich pufferlib mit benutzerdefinierten Umgebungen verwenden?
Unterstützt pufferlib Multi-GPU-Training?
Welche Logging-Frameworks integrieren sich mit pufferlib?
Wie speichere und setze ich das Training fort?
Entwicklerdetails
Autor
K-Dense-AILizenz
MIT license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlibRef
main
Dateistruktur