Fähigkeiten pufferlib
🎮

pufferlib

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

Быстрое обучение агентов обучения с подкреплением

Auch verfügbar von: davila7

Обучение агентов RL требует высокопроизводительных параллельных окружений и эффективных алгоритмов. PufferLib обеспечивает оптимизированное обучение PPO+LSTM с ускорением в 2-10 раз благодаря векторизации, разделяемым буферам памяти и поддержке мультиагентных систем.

Unterstützt: Claude Codex Code(CC)
🥈 78 Silber
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

  • Environment: gym-CartPole-v1 with 256 parallel envs
  • Policy: 2-layer MLP (256 hidden units) with layer_init
  • Training: 10,000 iterations, batch size 32768
  • Checkpoint: Saved to checkpoints/checkpoint_1000.pt
  • Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

  • Multi-agent setup: 4 agents in cooperative navigation task
  • Observation space: Dict with position, goal, and other agent positions
  • Action space: 5 discrete actions (4 directions + stay)
  • Shared policy backbone for efficient learning
  • Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Gescannte Dateien
5,444
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

68
Architektur
100
Wartbarkeit
87
Inhalt
29
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Быстрое тестирование

Быстро тестируйте новые алгоритмы на окружениях Ocean со скоростью миллионы шагов в секунду

Обучение игровых агентов

Обучайте агентов на Atari, Procgen или NetHack с оптимизированной векторизацией и эффективным PPO

Команды кооперативных агентов

Создавайте и обучайте мультиагентные системы с интеграцией PettingZoo и опциями общей политики

Probiere diese Prompts

Базовое обучение окружения
Используйте pufferlib для обучения агента PPO на окружении procgen-coinrun с 256 параллельными окружениями. Покажите цикл обучения и как сохранять контрольные точки.
Пользовательское окружение
Помогите мне создать пользовательское PufferEnv для задачи поиска выхода из лабиринта с 4 дискретными действиями. Покажите определения reset, step и пространств наблюдения.
Мультиагентное обучение
Используйте pufferlib для обучения нескольких агентов на окружении PettingZoo. Покажите как обрабатывать наблюдения типа dict и общие политики.
Настройка производительности
Оптимизируйте мою конфигурацию обучения pufferlib для максимальной производительности. Какие настройки векторизации и гиперпараметры использовать для 4 GPU?

Bewährte Verfahren

  • Начните с окружений Ocean или интеграции Gymnasium перед созданием пользовательских окружений
  • Измеряйте шаги в секунду на раннем этапе для выявления узких мест перед масштабированием
  • Используйте torch.compile и CUDA для максимальной производительности обучения

Vermeiden

  • Не используйте CPU для крупномасштабного обучения - используйте GPU с достаточным объёмом VRAM
  • Не пропускайте валидацию окружения перед масштабированием до множества параллельных окружений
  • Не хардкодите гиперпараметры - используйте аргументы CLI для воспроизводимости

Häufig gestellte Fragen

Какие окружения поддерживает pufferlib?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter и более 20 окружений из набора Ocean.
Насколько быстро pufferlib по сравнению со стандартными реализациями?
Достигает ускорения в 2-10 раз благодаря оптимизированной векторизации, разделяемой памяти и эффективной реализации PPO+LSTM.
Можно ли использовать pufferlib с пользовательскими окружениями?
Да, реализуйте PufferEnv API с методами reset, step и пространствами наблюдения/действий для лучшей производительности.
Поддерживает ли pufferlib обучение на нескольких GPU?
Да, используйте torchrun с --nproc_per_node для нескольких GPU и NCCL для распределённого обучения на нескольких узлах.
Какие фреймворки логирования интегрируются с pufferlib?
Weights & Biases (wandb) и Neptune логгеры встроены с простой конфигурацией.
Как сохранять и возобновлять обучение?
Используйте trainer.save_checkpoint() и trainer.load_checkpoint() с периодической частотой сохранения для возможности продолжения обучения.