benchmark-kernel
قياس أداء نواة GPU باستخدام توقيت CUPTI
يعد قياس أداء نواة GPU بدقة تحدياً بسبب الحمل الزائد في القياس. توفر هذه المهارة تعليمات خطوة بخطوة لاستخدام profilintg CUPTI للحصول على أوقات تنفيذ دقيقة للنواة. قارن بين backends مختلفة مثل FlashAttention و cuDNN للعثور على التنفيذ الأسرع لعبء عملك.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“benchmark-kernel”。 Benchmark decode attention with different backends
预期结果:
- fa2: median 0.145ms, 125.3 TFLOPS
- fa2_tc: median 0.138ms, 131.5 TFLOPS
- cudnn: median 0.142ms, 127.8 TFLOPS
- Best: fa2_tc with 131.5 TFLOPS throughput
正在使用“benchmark-kernel”。 How do I install CUPTI for accurate benchmarking
预期结果:
- Install with: pip install -U cupti-python
- Requires CUDA 13 or higher
- Framework auto-detects and uses CUPTI when available
- Falls back to CUDA events if CUPTI not installed
正在使用“benchmark-kernel”。 Why are my benchmark results inconsistent
预期结果:
- Increase warmup iterations (try 10 dry_run_iters)
- Increase measurement iterations (try 50 num_iters)
- Use cold L2 cache option to reduce cache effects
- Check for thermal throttling on your GPU
安全审计
安全Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.
风险因素
🌐 网络访问 (1)
📁 文件系统访问 (1)
⚙️ 外部命令 (96)
质量评分
你能构建什么
قياس أداء النواة بدقة
استخدم profilintg CUPTI للحصول على أوقات تنفيذ GPU دقيقة بدون حمل المضيف
مقارنة backends نواة الانتباه
قياس أداء تطبيقات انتباه مختلفة للعثور على الأسرع لعبء عملك
profilintg عمليات GEMM FP8
قياس أداء نوى ضرب المصفوفات بدقة مختلطة
试试这些提示
ساعدني في قياس أداء نواة CUDA الخاصة بي باستخدام bench_gpu_time() مع 30 تكراراً و5 عمليات إحماء
أظهر لي كيفية قياس أداء BatchDecodeWithPagedKVCacheWrapper مع backends fa2 و cudnn و cutlass
إنشاء ملف قائمة اختبار لقياس أداء أحجام دفعات وأطوال تسلسلات مختلفة
اكتب سكريبت Python يقيس أداء نواة الانتباه المخصصة مع توقيت CUPTI
最佳实践
- ثبّت CUPTI للدقة على مستوى الأجهزة عندما يكون ذلك ممكناً
- استخدم التحقق من المرجع للتحقق من صحة النواة أثناء القياس
- قم بتشغيل تكرارات كافية (30+) للأهمية الإحصائية
避免
- القياس بدون تكرارات إحماء
- استخدام CUDA events فقط عند توفر CUPTI
- مقارنة backends بدون التحقق من صحة الإخراج