Fähigkeiten pufferlib
🎮

pufferlib

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

تدريب وكلاء التعلم المعزز بسرعة

Auch verfügbar von: davila7

يتطلب تدريب وكلاء التعلم المعزز بيئات متوازية عالية الأداء وخوارزميات فعالة. يوفر PufferLib تدريب PPO+LSTM مُحسّن مع تسارع 2-10x من خلال التوجيه، ومخازن الذاكرة المشتركة، ودعم الوكلاء المتعددين.

Unterstützt: Claude Codex Code(CC)
🥈 77 Silber
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

  • Environment: gym-CartPole-v1 with 256 parallel envs
  • Policy: 2-layer MLP (256 hidden units) with layer_init
  • Training: 10,000 iterations, batch size 32768
  • Checkpoint: Saved to checkpoints/checkpoint_1000.pt
  • Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

  • Multi-agent setup: 4 agents in cooperative navigation task
  • Observation space: Dict with position, goal, and other agent positions
  • Action space: 5 discrete actions (4 directions + stay)
  • Shared policy backbone for efficient learning
  • Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

10
Gescannte Dateien
5,444
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

68
Architektur
100
Wartbarkeit
87
Inhalt
22
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

معايير سريعة

تقييم الخوارزميات الجديدة بسرعة على بيئات Ocean مع معدل ملايين الخطوات في الثانية

تدريب بيئات الألعاب

تدريب الوكلاء على Atari أو Procgen أو NetHack مع توجيه مُحسّن وPPO فعال

فرق الوكلاء المتعاونين

بناء وتدريب أنظمة متعددة الوكلاء مع تكامل PettingZoo وخيارات السياسة المشتركة

Probiere diese Prompts

تدريب بيئي أساسي
استخدم pufferlib لتدريب وكيل PPO على بيئة procgen-coinrun مع 256 بيئة متوازية. أظهر حلقة التدريب وكيفية حفظ نقاط التحقق.
بيئة مخصصة
ساعدني في إنشاء PufferEnv مخصصة لمهمة عالم الشبكات مع 4 إجراءات منفصلة. أظهر تعريفات reset وstep ومساحة الملاحظة.
تدريب متعدد الوكلاء
استخدم pufferlib لتدريب عدة وكلاء على بيئة PettingZoo. أظهر كيفية التعامل مع ملاحظات dict والسياسات المشتركة.
ضبط الأداء
حسّن إعداد تدريب pufferlib للإنتاجية القصوى. ما إعدادات التوجيه والمعاملات الفائقة التي يجب أن أستخدمها لـ 4 GPUs؟

Bewährte Verfahren

  • ابدأ ببيئات Ocean أو تكامل Gymnasium قبل بناء بيئات مخصصة
  • حدد الخطوات في الثانية مبكراً لتحديد الاختناقات قبل التوسع
  • استخدم torch.compile وCUDA للإنتاجية القصوى للتدريب

Vermeiden

  • تجنب استخدام CPU للتدريب واسع النطاق - استخدم GPU مع VRAM كافٍ
  • لا تتخطى التحقق من البيئة قبل التوسع إلى العديد من البيئات المتوازية
  • تجنب ترميز المعاملات الفائقة الثابت - استخدم وسائط CLI لقابلية إعادة الإنتاج

Häufig gestellte Fragen

ما البيئات التي يدعمها pufferlib؟
Gymnasium وPettingZoo وAtari وProcgen وNetHack وMinigrid وNeural MMO وCrafter وأكثر من 20 بيئة من مجموعة Ocean.
ما مدى سرعة pufferlib مقارنة بالتنفيذات القياسية؟
يحقق تسارع 2-10x من خلال التوجيه المُحسّن والذاكرة المشتركة وتنفيذ PPO+LSTM الفعال.
هل يمكنني استخدام pufferlib مع بيئات مخصصة؟
نعم، نفّذ واجهة PufferEnv مع أساليب reset وstep ومساحات الملاحظة والإجراءات للحصول على أفضل أداء.
هل يدعم pufferlib تدريب GPU متعدد؟
نعم، استخدم torchrun مع --nproc_per_node لتدريب GPU متعدد وNCCNلتدريب موزع متعدد العقد.
ما أُطر التسجيل التي تتكامل مع pufferlib؟
تسجيلات Weights & Biases (wandb) وNeptune مُدمجة مع تكوين بسيط.
كيف أحفظ وأستأنف التدريب؟
استخدم trainer.save_checkpoint() وtrainer.load_checkpoint() مع تكرار حفظ دوري لاستئناف التدريب.