pufferlib
تدريب وكلاء التعلم المعزز بسرعة
Auch verfügbar von: davila7
يتطلب تدريب وكلاء التعلم المعزز بيئات متوازية عالية الأداء وخوارزميات فعالة. يوفر PufferLib تدريب PPO+LSTM مُحسّن مع تسارع 2-10x من خلال التوجيه، ومخازن الذاكرة المشتركة، ودعم الوكلاء المتعددين.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "pufferlib". Train PPO on CartPole with pufferlib
Erwartetes Ergebnis:
- Environment: gym-CartPole-v1 with 256 parallel envs
- Policy: 2-layer MLP (256 hidden units) with layer_init
- Training: 10,000 iterations, batch size 32768
- Checkpoint: Saved to checkpoints/checkpoint_1000.pt
- Final throughput: 1.2M steps/second on GPU
Verwendung von "pufferlib". Create multi-agent environment
Erwartetes Ergebnis:
- Multi-agent setup: 4 agents in cooperative navigation task
- Observation space: Dict with position, goal, and other agent positions
- Action space: 5 discrete actions (4 directions + stay)
- Shared policy backbone for efficient learning
- Training with PuffeRL at 800K steps/second
Sicherheitsaudit
SicherAll 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.
Risikofaktoren
Qualitätsbewertung
Was du bauen kannst
معايير سريعة
تقييم الخوارزميات الجديدة بسرعة على بيئات Ocean مع معدل ملايين الخطوات في الثانية
تدريب بيئات الألعاب
تدريب الوكلاء على Atari أو Procgen أو NetHack مع توجيه مُحسّن وPPO فعال
فرق الوكلاء المتعاونين
بناء وتدريب أنظمة متعددة الوكلاء مع تكامل PettingZoo وخيارات السياسة المشتركة
Probiere diese Prompts
استخدم pufferlib لتدريب وكيل PPO على بيئة procgen-coinrun مع 256 بيئة متوازية. أظهر حلقة التدريب وكيفية حفظ نقاط التحقق.
ساعدني في إنشاء PufferEnv مخصصة لمهمة عالم الشبكات مع 4 إجراءات منفصلة. أظهر تعريفات reset وstep ومساحة الملاحظة.
استخدم pufferlib لتدريب عدة وكلاء على بيئة PettingZoo. أظهر كيفية التعامل مع ملاحظات dict والسياسات المشتركة.
حسّن إعداد تدريب pufferlib للإنتاجية القصوى. ما إعدادات التوجيه والمعاملات الفائقة التي يجب أن أستخدمها لـ 4 GPUs؟
Bewährte Verfahren
- ابدأ ببيئات Ocean أو تكامل Gymnasium قبل بناء بيئات مخصصة
- حدد الخطوات في الثانية مبكراً لتحديد الاختناقات قبل التوسع
- استخدم torch.compile وCUDA للإنتاجية القصوى للتدريب
Vermeiden
- تجنب استخدام CPU للتدريب واسع النطاق - استخدم GPU مع VRAM كافٍ
- لا تتخطى التحقق من البيئة قبل التوسع إلى العديد من البيئات المتوازية
- تجنب ترميز المعاملات الفائقة الثابت - استخدم وسائط CLI لقابلية إعادة الإنتاج
Häufig gestellte Fragen
ما البيئات التي يدعمها pufferlib؟
ما مدى سرعة pufferlib مقارنة بالتنفيذات القياسية؟
هل يمكنني استخدام pufferlib مع بيئات مخصصة؟
هل يدعم pufferlib تدريب GPU متعدد؟
ما أُطر التسجيل التي تتكامل مع pufferlib؟
كيف أحفظ وأستأنف التدريب؟
Entwicklerdetails
Autor
K-Dense-AILizenz
MIT license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlibRef
main
Dateistruktur