技能 benchmark-kernel
📊

benchmark-kernel

安全 🌐 网络访问📁 文件系统访问⚙️ 外部命令

قياس أداء نواة GPU باستخدام توقيت CUPTI

يعد قياس أداء نواة GPU بدقة تحدياً بسبب الحمل الزائد في القياس. توفر هذه المهارة تعليمات خطوة بخطوة لاستخدام profilintg CUPTI للحصول على أوقات تنفيذ دقيقة للنواة. قارن بين backends مختلفة مثل FlashAttention و cuDNN للعثور على التنفيذ الأسرع لعبء عملك.

支持: Claude Codex Code(CC)
⚠️ 68
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“benchmark-kernel”。 Benchmark decode attention with different backends

预期结果:

  • fa2: median 0.145ms, 125.3 TFLOPS
  • fa2_tc: median 0.138ms, 131.5 TFLOPS
  • cudnn: median 0.142ms, 127.8 TFLOPS
  • Best: fa2_tc with 131.5 TFLOPS throughput

正在使用“benchmark-kernel”。 How do I install CUPTI for accurate benchmarking

预期结果:

  • Install with: pip install -U cupti-python
  • Requires CUDA 13 or higher
  • Framework auto-detects and uses CUPTI when available
  • Falls back to CUDA events if CUPTI not installed

正在使用“benchmark-kernel”。 Why are my benchmark results inconsistent

预期结果:

  • Increase warmup iterations (try 10 dry_run_iters)
  • Increase measurement iterations (try 50 num_iters)
  • Use cold L2 cache option to reduce cache effects
  • Check for thermal throttling on your GPU

安全审计

安全
v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

2
已扫描文件
595
分析行数
3
发现项
4
审计总数

风险因素

🌐 网络访问 (1)
📁 文件系统访问 (1)
⚙️ 外部命令 (96)
SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283
审计者: claude 查看审计历史 →

质量评分

38
架构
100
可维护性
85
内容
19
社区
100
安全
83
规范符合性

你能构建什么

قياس أداء النواة بدقة

استخدم profilintg CUPTI للحصول على أوقات تنفيذ GPU دقيقة بدون حمل المضيف

مقارنة backends نواة الانتباه

قياس أداء تطبيقات انتباه مختلفة للعثور على الأسرع لعبء عملك

profilintg عمليات GEMM FP8

قياس أداء نوى ضرب المصفوفات بدقة مختلطة

试试这些提示

توقيت النواة الأساسي
ساعدني في قياس أداء نواة CUDA الخاصة بي باستخدام bench_gpu_time() مع 30 تكراراً و5 عمليات إحماء
مقارنة backends
أظهر لي كيفية قياس أداء BatchDecodeWithPagedKVCacheWrapper مع backends fa2 و cudnn و cutlass
قياسات دفعة
إنشاء ملف قائمة اختبار لقياس أداء أحجام دفعات وأطوال تسلسلات مختلفة
قياس أداء Python مخصص
اكتب سكريبت Python يقيس أداء نواة الانتباه المخصصة مع توقيت CUPTI

最佳实践

  • ثبّت CUPTI للدقة على مستوى الأجهزة عندما يكون ذلك ممكناً
  • استخدم التحقق من المرجع للتحقق من صحة النواة أثناء القياس
  • قم بتشغيل تكرارات كافية (30+) للأهمية الإحصائية

避免

  • القياس بدون تكرارات إحماء
  • استخدام CUDA events فقط عند توفر CUPTI
  • مقارنة backends بدون التحقق من صحة الإخراج

常见问题

هل أحتاج إلى تثبيت CUPTI؟
لا، ينتقل الإطار تلقائياً إلى CUDA events إذا كان CUPTI غير متوفر
ما هو الحد الأدنى لإصدار CUDA؟
يتطلب CUPTI CUDA 13+, لكن CUDA events تعمل مع أي إصدار CUDA
هل يمكنني قياس أداء نوى غير FlashInfer؟
نعم، استخدم bench_gpu_time() مع أي دالة نواة CUDA في كود Python الخاص بك
هل بياناتي آمنة أثناء القياس؟
نعم، القياس يقيس فقط وقت التنفيذ دون الوصول إلى بيانات الإدخال
لماذا نتائج قياس الأداء غير متسقة؟
زد تكرارات الإحماء والقياس، وتحقق من اختناق الحراري على GPU الخاص بك
ما مدى دقة CUPTI مقارنة بـ CUDA events؟
CUPTI أكثر دقة للنوى السريعة أقل من 50 ميكروثانية، الفرق ضئيل للنوى الأطول

开发者详情

文件结构

📄 SKILL.md