pufferlib
Быстрое обучение агентов обучения с подкреплением
Auch verfügbar von: davila7
Обучение агентов RL требует высокопроизводительных параллельных окружений и эффективных алгоритмов. PufferLib обеспечивает оптимизированное обучение PPO+LSTM с ускорением в 2-10 раз благодаря векторизации, разделяемым буферам памяти и поддержке мультиагентных систем.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "pufferlib". Train PPO on CartPole with pufferlib
Erwartetes Ergebnis:
- Environment: gym-CartPole-v1 with 256 parallel envs
- Policy: 2-layer MLP (256 hidden units) with layer_init
- Training: 10,000 iterations, batch size 32768
- Checkpoint: Saved to checkpoints/checkpoint_1000.pt
- Final throughput: 1.2M steps/second on GPU
Verwendung von "pufferlib". Create multi-agent environment
Erwartetes Ergebnis:
- Multi-agent setup: 4 agents in cooperative navigation task
- Observation space: Dict with position, goal, and other agent positions
- Action space: 5 discrete actions (4 directions + stay)
- Shared policy backbone for efficient learning
- Training with PuffeRL at 800K steps/second
Sicherheitsaudit
SicherAll 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.
Risikofaktoren
Qualitätsbewertung
Was du bauen kannst
Быстрое тестирование
Быстро тестируйте новые алгоритмы на окружениях Ocean со скоростью миллионы шагов в секунду
Обучение игровых агентов
Обучайте агентов на Atari, Procgen или NetHack с оптимизированной векторизацией и эффективным PPO
Команды кооперативных агентов
Создавайте и обучайте мультиагентные системы с интеграцией PettingZoo и опциями общей политики
Probiere diese Prompts
Используйте pufferlib для обучения агента PPO на окружении procgen-coinrun с 256 параллельными окружениями. Покажите цикл обучения и как сохранять контрольные точки.
Помогите мне создать пользовательское PufferEnv для задачи поиска выхода из лабиринта с 4 дискретными действиями. Покажите определения reset, step и пространств наблюдения.
Используйте pufferlib для обучения нескольких агентов на окружении PettingZoo. Покажите как обрабатывать наблюдения типа dict и общие политики.
Оптимизируйте мою конфигурацию обучения pufferlib для максимальной производительности. Какие настройки векторизации и гиперпараметры использовать для 4 GPU?
Bewährte Verfahren
- Начните с окружений Ocean или интеграции Gymnasium перед созданием пользовательских окружений
- Измеряйте шаги в секунду на раннем этапе для выявления узких мест перед масштабированием
- Используйте torch.compile и CUDA для максимальной производительности обучения
Vermeiden
- Не используйте CPU для крупномасштабного обучения - используйте GPU с достаточным объёмом VRAM
- Не пропускайте валидацию окружения перед масштабированием до множества параллельных окружений
- Не хардкодите гиперпараметры - используйте аргументы CLI для воспроизводимости
Häufig gestellte Fragen
Какие окружения поддерживает pufferlib?
Насколько быстро pufferlib по сравнению со стандартными реализациями?
Можно ли использовать pufferlib с пользовательскими окружениями?
Поддерживает ли pufferlib обучение на нескольких GPU?
Какие фреймворки логирования интегрируются с pufferlib?
Как сохранять и возобновлять обучение?
Entwicklerdetails
Autor
K-Dense-AILizenz
MIT license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlibRef
main
Dateistruktur