🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Безопасно ⚙️ Внешние команды⚡ Содержит скрипты

Быстрое обучение агентов обучения с подкреплением

Также доступно от: davila7

Обучение агентов RL требует высокопроизводительных параллельных окружений и эффективных алгоритмов. PufferLib обеспечивает оптимизированное обучение PPO+LSTM с ускорением в 2-10 раз благодаря векторизации, разделяемым буферам памяти и поддержке мультиагентных систем.

Поддерживает: Claude Codex Code(CC)

🥈 77 Серебро

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «pufferlib». Train PPO on CartPole with pufferlib

Ожидаемый результат:

Environment: gym-CartPole-v1 with 256 parallel envs
Policy: 2-layer MLP (256 hidden units) with layer_init
Training: 10,000 iterations, batch size 32768
Checkpoint: Saved to checkpoints/checkpoint_1000.pt
Final throughput: 1.2M steps/second on GPU

Использование «pufferlib». Create multi-agent environment

Ожидаемый результат:

Multi-agent setup: 4 agents in cooperative navigation task
Observation space: Dict with position, goal, and other agent positions
Action space: 5 discrete actions (4 directions + stay)
Shared policy backbone for efficient learning
Training with PuffeRL at 800K steps/second

Аудит безопасности

Безопасно

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Просканировано файлов

5,444

Проанализировано строк

находки

Всего аудитов

Факторы риска

⚙️ Внешние команды (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Содержит скрипты (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Быстрое тестирование

Быстро тестируйте новые алгоритмы на окружениях Ocean со скоростью миллионы шагов в секунду

Обучение игровых агентов

Обучайте агентов на Atari, Procgen или NetHack с оптимизированной векторизацией и эффективным PPO

Команды кооперативных агентов

Создавайте и обучайте мультиагентные системы с интеграцией PettingZoo и опциями общей политики

Попробуйте эти промпты

Базовое обучение окружения

Используйте pufferlib для обучения агента PPO на окружении procgen-coinrun с 256 параллельными окружениями. Покажите цикл обучения и как сохранять контрольные точки.

Пользовательское окружение

Помогите мне создать пользовательское PufferEnv для задачи поиска выхода из лабиринта с 4 дискретными действиями. Покажите определения reset, step и пространств наблюдения.

Мультиагентное обучение

Используйте pufferlib для обучения нескольких агентов на окружении PettingZoo. Покажите как обрабатывать наблюдения типа dict и общие политики.

Настройка производительности

Оптимизируйте мою конфигурацию обучения pufferlib для максимальной производительности. Какие настройки векторизации и гиперпараметры использовать для 4 GPU?

Лучшие практики

Начните с окружений Ocean или интеграции Gymnasium перед созданием пользовательских окружений
Измеряйте шаги в секунду на раннем этапе для выявления узких мест перед масштабированием
Используйте torch.compile и CUDA для максимальной производительности обучения

Избегать

Не используйте CPU для крупномасштабного обучения - используйте GPU с достаточным объёмом VRAM
Не пропускайте валидацию окружения перед масштабированием до множества параллельных окружений
Не хардкодите гиперпараметры - используйте аргументы CLI для воспроизводимости