debug-cuda-crash
تصحيح أعطال CUDA في FlashInfer
تترك أعطال CUDA غالباً معلومات تصحيح محدودة. يعلمك هذا البرنامج التعليمي استخدام تسجيل API الخاص بـ FlashInfer لالتقاط البيانات الوصفية للموترات قبل الأعطال. تعلم كيفية تحديد عدم تطابق الأشكال، وأخطاء أنواع البيانات، والمشاكل العددية بسرعة.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"debug-cuda-crash" 사용 중입니다. تعطل batch_decode_with_padded_kv_cache مع 'وصول ذاكرة غير قانوني'
예상 결과:
- ضبط متغيرات البيئة: export FLASHINFER_LOGLEVEL=3, export FLASHINFER_LOGDEST=debug.log
- تشغيل الكود مرة أخرى - ستتم تسجيل المدخلات قبل التعطل
- التحقق من السجل لأشكال الموترات وأنواع البيانات
- مشاكل شائعة: عدم تطابق الشكل، نوع بيانات خاطئ، موتر CPU مررته إلى GPU
- للتحليل الأعمق: compute-sanitizer --tool memcheck python your_script.py
"debug-cuda-crash" 사용 중입니다. تحتوي مخرجات الانتباه على قيم NaN
예상 결과:
- استخدام التسجيل المستوى 5: export FLASHINFER_LOGLEVEL=5
- التحقق من nan_count و inf_count في ملف السجل
- البحث عن قيم min/max الكبيرة التي تشير إلى عدم الاستقرار العددي
- التحقق من العمليات السابقة لقسمة صفرية أو تجاوز
"debug-cuda-crash" 사용 중입니다. تعطل التدريب الموزع على عدة GPU
예상 결과:
- استخدام سجلات خاصة بالعمليات: export FLASHINFER_LOGDEST=rank_%i.log
- يخلق كل عملية GPU ملف سجل الخاص بها
- التحقق من سجلات الرتبة الفردية لتحديد أي عملية تعطلت أولاً
- مقارنة المدخلات عبر الرتب لإيجاد التناقضات
보안 감사
안전All 160 static findings are FALSE POSITIVES. This skill contains ONLY markdown documentation with zero executable code. The 'backtick execution' findings flag markdown code block formatting, not shell commands. 'Weak cryptographic algorithm' findings flag hash identifiers in metadata. 'System reconnaissance' findings flag environment variable documentation. Pure educational content for CUDA debugging.
위험 요인
⚡ 스크립트 포함 (1)
품질 점수
만들 수 있는 것
تصحيح أعطال ML في الإنتاج
تشخيص أخطاء CUDA في أعباء عمل تقديم LLM في الإنتاج باستخدام تسجيل API لالتقاط المدخلات الفاشلة
تصحيح أخطاء ذاكرة النواة
استخدام compute-sanitizer مع تسجيل API لاكتشاف الوصول غير القانوني للذاكرة وأخطاء تجاوز الحدود
إصلاح عدم الاستقرار العددي
اكتشاف قيم NaN/Inf في حسابات الانتباه عن طريق فحص إحصائيات الموترات من المخرجات المسجلة
이 프롬프트를 사용해 보세요
تعطل كود FlashInfer الخاص بي مع 'وصول ذاكرة غير قانوني'. ساعدني في إعداد تسجيل API لتصحيح هذا.
تنتج نواة الانتباه الخاصة بي قيم NaN. كيف أستخدم تسجيل المستوى 5 لإيجاد المصدر؟
تعطلت مهمة التدريب متعددة GPU الخاصة بي. أرني كيفية تسجيل كل رتبة بشكل منفصل للتصحيح.
دمج تسجيل API لـ FlashInfer مع compute-sanitizer لتصحيح أخطاء وصول الذاكرة. أعطني الأمر بالضبط.
모범 사례
- ابدأ دائماً بتسجيل المستوى 3 للبيانات الوصفية للموترات دون إخراج ساحق
- سجل إلى ملف بدلاً من stdout للحفاظ على السجلات بعد الأعطال
- قارن آخر استدعاء API ناجح (تم تسجيل المدخلات والمخرجات) مع أول استدعاء فاشل (تم تسجيل المدخلات فقط)
피하기
- استخدام تسجيل المستوى 5 افتراضياً (يضيف حمل إحصائيات لكل استدعاء)
- تسجيل إلى stdout عندما يتعطل البرنامج (قد يُفقد الإخراج)
- نسيان تعطيل التسجيل في الإنتاج (يضيف حمل حتى المستوى 1)