pufferlib
تدريب وكلاء التعلم المعزز بسرعة
متاح أيضًا من: davila7
يتطلب تدريب وكلاء التعلم المعزز بيئات متوازية عالية الأداء وخوارزميات فعالة. يوفر PufferLib تدريب PPO+LSTM مُحسّن مع تسارع 2-10x من خلال التوجيه، ومخازن الذاكرة المشتركة، ودعم الوكلاء المتعددين.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "pufferlib". Train PPO on CartPole with pufferlib
النتيجة المتوقعة:
- Environment: gym-CartPole-v1 with 256 parallel envs
- Policy: 2-layer MLP (256 hidden units) with layer_init
- Training: 10,000 iterations, batch size 32768
- Checkpoint: Saved to checkpoints/checkpoint_1000.pt
- Final throughput: 1.2M steps/second on GPU
استخدام "pufferlib". Create multi-agent environment
النتيجة المتوقعة:
- Multi-agent setup: 4 agents in cooperative navigation task
- Observation space: Dict with position, goal, and other agent positions
- Action space: 5 discrete actions (4 directions + stay)
- Shared policy backbone for efficient learning
- Training with PuffeRL at 800K steps/second
التدقيق الأمني
آمنAll 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.
عوامل الخطر
درجة الجودة
ماذا يمكنك بناءه
معايير سريعة
تقييم الخوارزميات الجديدة بسرعة على بيئات Ocean مع معدل ملايين الخطوات في الثانية
تدريب بيئات الألعاب
تدريب الوكلاء على Atari أو Procgen أو NetHack مع توجيه مُحسّن وPPO فعال
فرق الوكلاء المتعاونين
بناء وتدريب أنظمة متعددة الوكلاء مع تكامل PettingZoo وخيارات السياسة المشتركة
جرّب هذه الموجهات
استخدم pufferlib لتدريب وكيل PPO على بيئة procgen-coinrun مع 256 بيئة متوازية. أظهر حلقة التدريب وكيفية حفظ نقاط التحقق.
ساعدني في إنشاء PufferEnv مخصصة لمهمة عالم الشبكات مع 4 إجراءات منفصلة. أظهر تعريفات reset وstep ومساحة الملاحظة.
استخدم pufferlib لتدريب عدة وكلاء على بيئة PettingZoo. أظهر كيفية التعامل مع ملاحظات dict والسياسات المشتركة.
حسّن إعداد تدريب pufferlib للإنتاجية القصوى. ما إعدادات التوجيه والمعاملات الفائقة التي يجب أن أستخدمها لـ 4 GPUs؟
أفضل الممارسات
- ابدأ ببيئات Ocean أو تكامل Gymnasium قبل بناء بيئات مخصصة
- حدد الخطوات في الثانية مبكراً لتحديد الاختناقات قبل التوسع
- استخدم torch.compile وCUDA للإنتاجية القصوى للتدريب
تجنب
- تجنب استخدام CPU للتدريب واسع النطاق - استخدم GPU مع VRAM كافٍ
- لا تتخطى التحقق من البيئة قبل التوسع إلى العديد من البيئات المتوازية
- تجنب ترميز المعاملات الفائقة الثابت - استخدم وسائط CLI لقابلية إعادة الإنتاج
الأسئلة المتكررة
ما البيئات التي يدعمها pufferlib؟
ما مدى سرعة pufferlib مقارنة بالتنفيذات القياسية؟
هل يمكنني استخدام pufferlib مع بيئات مخصصة؟
هل يدعم pufferlib تدريب GPU متعدد؟
ما أُطر التسجيل التي تتكامل مع pufferlib؟
كيف أحفظ وأستأنف التدريب؟
تفاصيل المطور
المؤلف
K-Dense-AIالترخيص
MIT license
المستودع
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlibمرجع
main
بنية الملفات