📊

benchmark-kernel

Name: benchmark-kernel
Author: flashinfer-ai

آمن 🌐 الوصول إلى الشبكة📁 الوصول إلى نظام الملفات⚙️ الأوامر الخارجية

قياس أداء نواة GPU باستخدام توقيت CUPTI

يعد قياس أداء نواة GPU بدقة تحدياً بسبب الحمل الزائد في القياس. توفر هذه المهارة تعليمات خطوة بخطوة لاستخدام profilintg CUPTI للحصول على أوقات تنفيذ دقيقة للنواة. قارن بين backends مختلفة مثل FlashAttention و cuDNN للعثور على التنفيذ الأسرع لعبء عملك.

يدعم: Claude Codex Code(CC)

⚠️ 68 ضعيف

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "benchmark-kernel". Benchmark decode attention with different backends

النتيجة المتوقعة:

fa2: median 0.145ms, 125.3 TFLOPS
fa2_tc: median 0.138ms, 131.5 TFLOPS
cudnn: median 0.142ms, 127.8 TFLOPS
Best: fa2_tc with 131.5 TFLOPS throughput

استخدام "benchmark-kernel". How do I install CUPTI for accurate benchmarking

النتيجة المتوقعة:

Install with: pip install -U cupti-python
Requires CUDA 13 or higher
Framework auto-detects and uses CUPTI when available
Falls back to CUDA events if CUPTI not installed

استخدام "benchmark-kernel". Why are my benchmark results inconsistent

النتيجة المتوقعة:

Increase warmup iterations (try 10 dry_run_iters)
Increase measurement iterations (try 50 num_iters)
Use cold L2 cache option to reduce cache effects
Check for thermal throttling on your GPU

التدقيق الأمني

آمن

v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

الملفات التي تم فحصها

595

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

عوامل الخطر

🌐 الوصول إلى الشبكة (1)

skill-report.json:6

📁 الوصول إلى نظام الملفات (1)

skill-report.json:6

⚙️ الأوامر الخارجية (96)

SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

قياس أداء النواة بدقة

استخدم profilintg CUPTI للحصول على أوقات تنفيذ GPU دقيقة بدون حمل المضيف

مقارنة backends نواة الانتباه

قياس أداء تطبيقات انتباه مختلفة للعثور على الأسرع لعبء عملك

profilintg عمليات GEMM FP8

قياس أداء نوى ضرب المصفوفات بدقة مختلطة

جرّب هذه الموجهات

توقيت النواة الأساسي

ساعدني في قياس أداء نواة CUDA الخاصة بي باستخدام bench_gpu_time() مع 30 تكراراً و5 عمليات إحماء

مقارنة backends

أظهر لي كيفية قياس أداء BatchDecodeWithPagedKVCacheWrapper مع backends fa2 و cudnn و cutlass

قياسات دفعة

إنشاء ملف قائمة اختبار لقياس أداء أحجام دفعات وأطوال تسلسلات مختلفة

قياس أداء Python مخصص

اكتب سكريبت Python يقيس أداء نواة الانتباه المخصصة مع توقيت CUPTI

أفضل الممارسات

ثبّت CUPTI للدقة على مستوى الأجهزة عندما يكون ذلك ممكناً
استخدم التحقق من المرجع للتحقق من صحة النواة أثناء القياس
قم بتشغيل تكرارات كافية (30+) للأهمية الإحصائية

تجنب

القياس بدون تكرارات إحماء
استخدام CUDA events فقط عند توفر CUPTI
مقارنة backends بدون التحقق من صحة الإخراج

الأسئلة المتكررة

هل أحتاج إلى تثبيت CUPTI؟

لا، ينتقل الإطار تلقائياً إلى CUDA events إذا كان CUPTI غير متوفر

ما هو الحد الأدنى لإصدار CUDA؟

يتطلب CUPTI CUDA 13+， لكن CUDA events تعمل مع أي إصدار CUDA

هل يمكنني قياس أداء نوى غير FlashInfer؟

نعم، استخدم bench_gpu_time() مع أي دالة نواة CUDA في كود Python الخاص بك

هل بياناتي آمنة أثناء القياس؟

نعم، القياس يقيس فقط وقت التنفيذ دون الوصول إلى بيانات الإدخال

لماذا نتائج قياس الأداء غير متسقة؟

زد تكرارات الإحماء والقياس، وتحقق من اختناق الحراري على GPU الخاص بك

ما مدى دقة CUPTI مقارنة بـ CUDA events؟

CUPTI أكثر دقة للنوى السريعة أقل من 50 ميكروثانية، الفرق ضئيل للنوى الأطول

تفاصيل المطور

المؤلف

flashinfer-ai

الترخيص

MIT

المستودع

https://github.com/flashinfer-ai/flashinfer/tree/main/.claude/skills/benchmark-kernel

مرجع

main

بنية الملفات

📄 SKILL.md