🎮

pufferlib

Name: pufferlib
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle⚡ Enthält Skripte

تدريب وكلاء التعلم المعزز بسرعة

Auch verfügbar von: davila7

يتطلب تدريب وكلاء التعلم المعزز بيئات متوازية عالية الأداء وخوارزميات فعالة. يوفر PufferLib تدريب PPO+LSTM مُحسّن مع تسارع 2-10x من خلال التوجيه، ومخازن الذاكرة المشتركة، ودعم الوكلاء المتعددين.

Unterstützt: Claude Codex Code(CC)

🥈 77 Silber

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "pufferlib". Train PPO on CartPole with pufferlib

Erwartetes Ergebnis:

Environment: gym-CartPole-v1 with 256 parallel envs
Policy: 2-layer MLP (256 hidden units) with layer_init
Training: 10,000 iterations, batch size 32768
Checkpoint: Saved to checkpoints/checkpoint_1000.pt
Final throughput: 1.2M steps/second on GPU

Verwendung von "pufferlib". Create multi-agent environment

Erwartetes Ergebnis:

Multi-agent setup: 4 agents in cooperative navigation task
Observation space: Dict with position, goal, and other agent positions
Action space: 5 discrete actions (4 directions + stay)
Shared policy backbone for efficient learning
Training with PuffeRL at 800K steps/second

Sicherheitsaudit

Sicher

v4 • 1/17/2026

All 331 static findings are FALSE POSITIVES. This is a legitimate open-source reinforcement learning library. The static analyzer incorrectly flagged bash command examples in markdown documentation (SKILL.md, references/*.md) as dangerous backtick execution. No actual command injection, credential exfiltration, or malicious patterns exist in the codebase. Verified via grep - no hashlib, subprocess, or actual dangerous execution patterns found.

Gescannte Dateien

5,444

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (6)

SKILL.md:33-269 references/integration.md:1-50 references/environments.md:1-30 references/training.md:1-50 references/policies.md:1-50 references/vectorization.md:1-50

⚡ Enthält Skripte (2)

scripts/env_template.py:1-341 scripts/train_template.py:1-240

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

معايير سريعة

تقييم الخوارزميات الجديدة بسرعة على بيئات Ocean مع معدل ملايين الخطوات في الثانية

تدريب بيئات الألعاب

تدريب الوكلاء على Atari أو Procgen أو NetHack مع توجيه مُحسّن وPPO فعال

فرق الوكلاء المتعاونين

بناء وتدريب أنظمة متعددة الوكلاء مع تكامل PettingZoo وخيارات السياسة المشتركة

Probiere diese Prompts

تدريب بيئي أساسي

استخدم pufferlib لتدريب وكيل PPO على بيئة procgen-coinrun مع 256 بيئة متوازية. أظهر حلقة التدريب وكيفية حفظ نقاط التحقق.

بيئة مخصصة

ساعدني في إنشاء PufferEnv مخصصة لمهمة عالم الشبكات مع 4 إجراءات منفصلة. أظهر تعريفات reset وstep ومساحة الملاحظة.

تدريب متعدد الوكلاء

استخدم pufferlib لتدريب عدة وكلاء على بيئة PettingZoo. أظهر كيفية التعامل مع ملاحظات dict والسياسات المشتركة.

ضبط الأداء

حسّن إعداد تدريب pufferlib للإنتاجية القصوى. ما إعدادات التوجيه والمعاملات الفائقة التي يجب أن أستخدمها لـ 4 GPUs؟

Bewährte Verfahren

ابدأ ببيئات Ocean أو تكامل Gymnasium قبل بناء بيئات مخصصة
حدد الخطوات في الثانية مبكراً لتحديد الاختناقات قبل التوسع
استخدم torch.compile وCUDA للإنتاجية القصوى للتدريب

Vermeiden

تجنب استخدام CPU للتدريب واسع النطاق - استخدم GPU مع VRAM كافٍ
لا تتخطى التحقق من البيئة قبل التوسع إلى العديد من البيئات المتوازية
تجنب ترميز المعاملات الفائقة الثابت - استخدم وسائط CLI لقابلية إعادة الإنتاج

Häufig gestellte Fragen

ما البيئات التي يدعمها pufferlib؟

Gymnasium وPettingZoo وAtari وProcgen وNetHack وMinigrid وNeural MMO وCrafter وأكثر من 20 بيئة من مجموعة Ocean.

ما مدى سرعة pufferlib مقارنة بالتنفيذات القياسية؟

يحقق تسارع 2-10x من خلال التوجيه المُحسّن والذاكرة المشتركة وتنفيذ PPO+LSTM الفعال.

هل يمكنني استخدام pufferlib مع بيئات مخصصة؟

نعم، نفّذ واجهة PufferEnv مع أساليب reset وstep ومساحات الملاحظة والإجراءات للحصول على أفضل أداء.

هل يدعم pufferlib تدريب GPU متعدد؟

نعم، استخدم torchrun مع --nproc_per_node لتدريب GPU متعدد وNCCNلتدريب موزع متعدد العقد.

ما أُطر التسجيل التي تتكامل مع pufferlib؟

تسجيلات Weights & Biases (wandb) وNeptune مُدمجة مع تكوين بسيط.

كيف أحفظ وأستأنف التدريب؟

استخدم trainer.save_checkpoint() وtrainer.load_checkpoint() مع تكرار حفظ دوري لاستئناف التدريب.

Entwicklerdetails

Autor

K-Dense-AI

Lizenz

MIT license

Repository

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pufferlib

Ref

main

Dateistruktur

📁 references/

📄 environments.md

📄 integration.md

📄 policies.md

📄 training.md

📄 vectorization.md

📁 scripts/

📄 env_template.py

📄 train_template.py

📄 evaluation_result.json

📄 SKILL.md