🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Sûr ⚙️ Commandes externes⚡ Contient des scripts

Former des agents d'apprentissage par renforcement rapidement

Également disponible depuis: davila7

La formation d'agents RL nécessite des environnements parallèles haute performance et des algorithmes efficaces. PufferLib fournit une formation PPO+LSTM optimisée avec des accélérations de 2 à 10x grâce à la vectorisation, les tampons mémoire partagés et le support multi-agents.

Prend en charge: Claude Codex Code(CC)

🥈 77 Argent

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "pufferlib". Train PPO on CartPole with pufferlib

Résultat attendu:

Environment: gym-CartPole-v1 with 256 parallel envs
Policy: 2-layer MLP (256 hidden units) with layer_init
Training: 10,000 iterations, batch size 32768
Checkpoint: Saved to checkpoints/checkpoint_1000.pt
Final throughput: 1.2M steps/second on GPU

Utilisation de "pufferlib". Create multi-agent environment

Résultat attendu:

Multi-agent setup: 4 agents in cooperative navigation task
Observation space: Dict with position, goal, and other agent positions
Action space: 5 discrete actions (4 directions + stay)
Shared policy backbone for efficient learning
Training with PuffeRL at 800K steps/second

Audit de sécurité

Sûr

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Fichiers analysés

5,444

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚙️ Commandes externes (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Contient des scripts (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Benchmarking rapide

Benchmark rapidement de nouveaux algorithmes sur les environnements Ocean avec un débit de millions de pas par seconde

Formation d'environnements de jeu

Formez des agents sur Atari, Procgen ou NetHack avec une vectorisation optimisée et un PPO efficace

Équipes d'agents coopératifs

Construisez et entraînez des systèmes multi-agents avec l'intégration PettingZoo et les options de politique partagée

Essayez ces prompts

Formation d'environnement de base

Use pufferlib to train a PPO agent on the procgen-coinrun environment with 256 parallel envs. Show the training loop and how to save checkpoints.

Environnement personnalisé

Help me create a custom PufferEnv for a grid world task with 4 discrete actions. Show the reset, step, and observation space definitions.

Formation multi-agents

Use pufferlib to train multiple agents on a PettingZoo environment. Show how to handle dict observations and shared policies.

Optimisation des performances

Optimize my pufferlib training setup for maximum throughput. What vectorization settings and hyperparameters should I use for 4 GPUs?

Bonnes pratiques

Commencez par les environnements Ocean ou l'intégration Gymnasium avant de construire des environnements personnalisés
Profilmez les pas par seconde tôt pour identifier les goulots d'étranglement avant la mise à l'échelle
Utilisez torch.compile et CUDA pour un débit de formation maximal

Éviter

Évitez d'utiliser le CPU pour la formation à grande échelle - utilisez le GPU avec suffisamment de VRAM
Ne sautez pas la validation des environnements avant la mise à l'échelle vers de nombreux environnements parallèles
Évitez de coder en dur les hyperparamètres - utilisez les arguments CLI pour la reproductibilité

Foire aux questions

Quels environnements pufferlib supporte-t-il ?

Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter, et plus de 20 environnements de la suite Ocean.

Quelle est la vitesse de pufferlib par rapport aux implémentations standard ?

atteint des accélérations de 2 à 10x grâce à une vectorisation optimisée, une mémoire partagée et une implémentation PPO+LSTM efficace.

Puis-je utiliser pufferlib avec des environnements personnalisés ?

Oui, implémentez l'API PufferEnv avec les méthodes reset, step et les espaces d'observation/d'action pour de meilleures performances.

Pufferlib supporte-t-il la formation multi-GPU ?

Oui, utilisez torchrun avec --nproc_per_node pour le multi-GPU et NCCL pour la formation distribuée multi-nœuds.

Quels frameworks de journalisation s'intègrent avec pufferlib ?

Weights & Biases (wandb) et les journaliseurs Neptune sont intégrés avec une configuration simple.

Comment sauvegarder et reprendre la formation ?

Utilisez trainer.save_checkpoint() et trainer.load_checkpoint() avec une fréquence de sauvegarde périodique pour la reprise.

Détails du développeur

Auteur

K-Dense-AI

Licence

MIT license

Dépôt

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

Réf

main

Structure de fichiers

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md