스킬 pufferlib
🎮

pufferlib

안전 ⚙️ 외부 명령어⚡ 스크립트 포함

강화학습 에이전트 빠르게 훈련

또한 다음에서 사용할 수 있습니다: davila7

RL 에이전트 훈련에는 고성능 병렬 환경과 효율적인 알고리즘이 필요합니다. PufferLib는 벡터화, 공유 메모리 버퍼, 다중 에이전트 지원을 통해 최적화된 PPO+LSTM 훈련을 제공하며 2-10배의 속도 향상을 달성합니다.

지원: Claude Codex Code(CC)
🥈 78 실버
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"pufferlib" 사용 중입니다. pufferlib로 CartPole에서 PPO 훈련

예상 결과:

  • 환경: 256개의 병렬 환경이 있는 gym-CartPole-v1
  • 정책: layer_init이 있는 2층 MLP (256개 히든 유닛)
  • 훈련: 10,000회 반복, 배치 크기 32768
  • 체크포인트: checkpoints/checkpoint_1000.pt에 저장
  • 최종 처리량: GPU에서 초당 120만 스텝

"pufferlib" 사용 중입니다. 다중 에이전트 환경 생성

예상 결과:

  • 다중 에이전트 설정: 협력 탐색 작업에서 4개 에이전트
  • 관찰 공간: 위치, 목표 및 다른 에이전트 위치를 포함하는 Dict
  • 동작 공간: 5개의 이산 동작 (4방향 + 멈춤)
  • 효율적인 학습을 위한 공유 정책 백본
  • 초당 80만 스텝에서 PuffeRL로 훈련

보안 감사

안전
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
스캔된 파일
5,444
분석된 줄 수
2
발견 사항
4
총 감사 수
감사자: claude 감사 이력 보기 →

품질 점수

68
아키텍처
100
유지보수성
87
콘텐츠
29
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

빠른 벤치마킹

초당 수백만 스텝의 처리량으로 Ocean 환경에서 새로운 알고리즘을 빠르게 벤치마킹

게임 환경 훈련

최적화된 벡터화와 효율적인 PPO를 통해 Atari, Procgen 또는 NetHack에서 에이전트 훈련

협력적 에이전트 팀

PettingZoo 통합 및 공유 정책 옵션으로 다중 에이전트 시스템 구축 및 훈련

이 프롬프트를 사용해 보세요

기본 환경 훈련
pufferlib를 사용하여 256개의 병렬 환경으로 procgen-coinrun 환경에서 PPO 에이전트를 훈련하세요. 훈련 루프와 체크포인트 저장 방법을 보여주세요.
맞춤 환경
4개의 이산 동작을 사용하는 그리드 월드 작업에 대한 맞춤 PufferEnv를 만들어주세요. reset, step 및 관찰 공간 정의를 보여주세요.
다중 에이전트 훈련
pufferlib를 사용하여 PettingZoo 환경에서 여러 에이전트를 훈련하세요. dict 관찰과 공유 정책을 처리하는 방법을 보여주세요.
성능 튜닝
최대 처리량을 위해 pufferlib 훈련 설정을 최적화하세요. 4개 GPU에 어떤 벡터화 설정과 하이퍼파라미터를 사용해야 합니까?

모범 사례

  • 맞춤 환경을 구축하기 전에 Ocean 환경이나 Gymnasium 통합으로 시작하세요
  • 확장하기 전에 초기에 초당 스텝을 프로파일링하여 병목 현상을 식별하세요
  • 최대 훈련 처리량을 위해 torch.compile 및 CUDA를 사용하세요

피하기

  • 대규모 훈련에 CPU 사용을 피하세요 - 충분한 VRAM이 있는 GPU를 사용하세요
  • 많은 병렬 환경으로 확장하기 전에 환경 검증을 건너뛰지 마세요
  • 하이퍼파라미터 하드코딩 피하기 - 재현성을 위해 CLI 인수 사용하세요

자주 묻는 질문

pufferlib는 어떤 환경을 지원합니까?
Gymnasium, PettingZoo, Atari, Procgen, NetHack, Minigrid, Neural MMO, Crafter 및 20개 이상의 Ocean 스위트 환경을 지원합니다.
pufferlib는 표준 구현 대비 얼마나 빠릅니까?
최적화된 벡터화, 공유 메모리 및 효율적인 PPO+LSTM 구현을 통해 표준 구현 대비 2-10배의 속도 향상을 달성합니다.
맞춤 환경에서 pufferlib를 사용할 수 있습니까?
네, 최상의 성능을 위해 reset, step 메서드 및 관찰/동작 공간이 있는 PufferEnv API를 구현하세요.
pufferlib는 다중 GPU 훈련을 지원합니까?
네, multi-GPU의 경우 --nproc_per_node와 함께 torchrun을 사용하고 다중 노드의 경우 NCCL을 사용하세요.
어떤 로깅 프레임워크가 pufferlib와 통합됩니다か?
Weights & Biases(wandb) 및 Neptune 로거가 간단한 구성으로 내장되어 있습니다.
훈련을 저장하고 재개하려면 어떻게 해야 합니까?
trainer.save_checkpoint() 및 trainer.load_checkpoint()를 재개 기능을 위해 정기적인 저장 빈도와 함께 사용하세요.

개발자 세부 정보