Fähigkeiten pufferlib
🎮

pufferlib

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

Former des agents d'apprentissage par renforcement rapidement

Auch verfügbar von: davila7

La formation d'agents RL nécessite des environnements parallèles haute performance et des algorithmes efficaces. PufferLib fournit une formation PPO+LSTM optimisée avec des accélérations de 2 à 10x grâce à la vectorisation, les tampons mémoire partagés et le support multi-agents.

Unterstützt: Claude Codex Code(CC)
🥈 78 Silber
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

  • Environment: gym-CartPole-v1 with 256 parallel envs
  • Policy: 2-layer MLP (256 hidden units) with layer_init
  • Training: 10,000 iterations, batch size 32768
  • Checkpoint: Saved to checkpoints/checkpoint_1000.pt
  • Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

  • Multi-agent setup: 4 agents in cooperative navigation task
  • Observation space: Dict with position, goal, and other agent positions
  • Action space: 5 discrete actions (4 directions + stay)
  • Shared policy backbone for efficient learning
  • Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Gescannte Dateien
5,444
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

68
Architektur
100
Wartbarkeit
87
Inhalt
29
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Benchmarking rapide

Benchmark rapidement de nouveaux algorithmes sur les environnements Ocean avec un débit de millions de pas par seconde

Formation d'environnements de jeu

Formez des agents sur Atari, Procgen ou NetHack avec une vectorisation optimisée et un PPO efficace

Équipes d'agents coopératifs

Construisez et entraînez des systèmes multi-agents avec l'intégration PettingZoo et les options de politique partagée

Probiere diese Prompts

Formation d'environnement de base
Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.
Environnement personnalisé
Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.
Formation multi-agents
Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.
Optimisation des performances
Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

Bewährte Verfahren

  • Commencez par les environnements Ocean ou l'intégration Gymnasium avant de construire des environnements personnalisés
  • Profilmez les pas par seconde tôt pour identifier les goulots d'étranglement avant la mise à l'échelle
  • Utilisez torch.compile et CUDA pour un débit de formation maximal

Vermeiden

  • Évitez d'utiliser le CPU pour la formation à grande échelle - utilisez le GPU avec suffisamment de VRAM
  • Ne sautez pas la validation des environnements avant la mise à l'échelle vers de nombreux environnements parallèles
  • Évitez de coder en dur les hyperparamètres - utilisez les arguments CLI pour la reproductibilité

Häufig gestellte Fragen

Quels environnements pufferlib supporte-t-il ?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter, et plus de 20 environnements de la suite Ocean.
Quelle est la vitesse de pufferlib par rapport aux implémentations standard ?
atteint des accélérations de 2 à 10x grâce à une vectorisation optimisée, une mémoire partagée et une implémentation PPO+LSTM efficace.
Puis-je utiliser pufferlib avec des environnements personnalisés ?
Oui, implémentez l'API PufferEnv avec les méthodes reset, step et les espaces d'observation/d'action pour de meilleures performances.
Pufferlib supporte-t-il la formation multi-GPU ?
Oui, utilisez torchrun avec --nproc_per_node pour le multi-GPU et NCCL pour la formation distribuée multi-nœuds.
Quels frameworks de journalisation s'intègrent avec pufferlib ?
Weights & Biases (wandb) et les journaliseurs Neptune sont intégrés avec une configuration simple.
Comment sauvegarder et reprendre la formation ?
Utilisez trainer.save_checkpoint() et trainer.load_checkpoint() avec une fréquence de sauvegarde périodique pour la reprise.