⚡

add-cuda-kernel

Name: add-cuda-kernel
Author: flashinfer-ai

آمن 🌐 الوصول إلى الشبكة📁 الوصول إلى نظام الملفات⚙️ الأوامر الخارجية

إضافة نوى CUDA إلى FlashInfer

يحتاج FlashInfer إلى نوى GPU جديدة لكن العملية غير واضحة. يقدم هذا الدليل التعليمي تعليمات خطوة بخطوة لإضافة عمليات CUDA عنصرًا-بعنصر، مع تغطية تعريف النواة، وربط TVM-FFI، وواجهات Python، والاختبار، والقياس.

يدعم: Claude Codex Code(CC)

⚠️ 67 ضعيف

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "add-cuda-kernel". How do I add a new CUDA kernel to FlashInfer?

النتيجة المتوقعة:

أضِف نواة CUDA في 10 خطوات:
1. Define kernel in include/flashinfer/{name}.cuh using raw pointers
2. Create launcher in csrc/{name}.cu with TVM-FFI tensor handling
3. Export via TVM_FFI_DLL_EXPORT_TYPED_FUNC in csrc/{name}_jit_binding.cu
4. Create JIT generator in flashinfer/jit/{name}.py
5. Build Python API in flashinfer/{name}.py with @functools.cache
6. Write tests in tests/ directory with pytest.mark.parametrize
7. Register in flashinfer/aot.py for pre-compiled packages
8. Export from flashinfer/__init__.py
9. Add benchmark in benchmarks/ directory
10. Run pytest to test; kernel auto-compiles on first use

استخدام "add-cuda-kernel". What file structure do I need for a new FlashInfer kernel?

النتيجة المتوقعة:

الملفات المطلوبة:
- include/flashinfer/{name}.cuh - تعريف نواة CUDA
- csrc/{name}.cu - مُشغِّل PyTorch
- csrc/{name}_jit_binding.cu - ربط TVM-FFI
- flashinfer/jit/{name}.py - مولّد JIT
- flashinfer/{name}.py - واجهة Python
- tests/test_{name}.py - اختبارات وحدات
- benchmarks/bench_{name}.py - سكربت قياس الأداء

التدقيق الأمني

آمن

v4 • 1/17/2026

Documentation-only skill containing tutorial content. Static findings are false positives triggered by markdown code blocks being misidentified as Ruby/shell backticks, and function/documentation keywords incorrectly flagged as cryptographic algorithms. No executable code, no network access, no file system modifications.

الملفات التي تم فحصها

989

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

عوامل الخطر

🌐 الوصول إلى الشبكة (1)

skill-report.json:6

📁 الوصول إلى نظام الملفات (4)

skill-report.json:6 SKILL.md:791 SKILL.md:221 SKILL.md:214

⚙️ الأوامر الخارجية (109)

SKILL.md:8 SKILL.md:14 SKILL.md:14 SKILL.md:15 SKILL.md:18 SKILL.md:20 SKILL.md:22-67 SKILL.md:67-76 SKILL.md:76-78 SKILL.md:78-80 SKILL.md:80-106 SKILL.md:106-110 SKILL.md:110 SKILL.md:110-111 SKILL.md:111-112 SKILL.md:112-114 SKILL.md:114-116 SKILL.md:116-117 SKILL.md:117-118 SKILL.md:118-122 SKILL.md:122-123 SKILL.md:123-124 SKILL.md:124-127 SKILL.md:127 SKILL.md:127-129 SKILL.md:129-131 SKILL.md:131-138 SKILL.md:138-139 SKILL.md:139-161 SKILL.md:161-163 SKILL.md:163-165 SKILL.md:165-167 SKILL.md:167-176 SKILL.md:176-181 SKILL.md:181-185 SKILL.md:185-187 SKILL.md:187-230 SKILL.md:230-240 SKILL.md:240-245 SKILL.md:245-252 SKILL.md:252-255 SKILL.md:255-258 SKILL.md:258-264 SKILL.md:264-316 SKILL.md:316-320 SKILL.md:320-324 SKILL.md:324-357 SKILL.md:357-363 SKILL.md:363-364 SKILL.md:364-365 SKILL.md:365-366 SKILL.md:366-367 SKILL.md:367-373 SKILL.md:373-384 SKILL.md:384-386 SKILL.md:386-388 SKILL.md:388-390 SKILL.md:390-471 SKILL.md:471-475 SKILL.md:475-477 SKILL.md:477-478 SKILL.md:478 SKILL.md:478 SKILL.md:478-479 SKILL.md:479-481 SKILL.md:481 SKILL.md:481-485 SKILL.md:485-489 SKILL.md:489-497 SKILL.md:497-499 SKILL.md:499-507 SKILL.md:507-524 SKILL.md:524-530 SKILL.md:530-557 SKILL.md:557-563 SKILL.md:563-586 SKILL.md:586-588 SKILL.md:588-592 SKILL.md:592-605 SKILL.md:605-607 SKILL.md:607-609 SKILL.md:609-611 SKILL.md:611-617 SKILL.md:617-623 SKILL.md:623-624 SKILL.md:624-625 SKILL.md:625-627 SKILL.md:627-629 SKILL.md:629-631 SKILL.md:631-688 SKILL.md:688-692 SKILL.md:692-699 SKILL.md:699-701 SKILL.md:701-703 SKILL.md:703-716 SKILL.md:716-721 SKILL.md:721-725 SKILL.md:725-727 SKILL.md:727-732 SKILL.md:732-736 SKILL.md:736-742 SKILL.md:742-748 SKILL.md:748 SKILL.md:748-750 SKILL.md:750-783 SKILL.md:783-788 SKILL.md:788-791 SKILL.md:791-795 SKILL.md:795-805

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

إضافة عمليات جديدة

تعلّم سير العمل الكامل لدمج عمليات CUDA مخصّصة في مكتبة FlashInfer

توسيع FlashInfer

إضافة متغيرات انتباه جديدة، عمليات GEMM، أو نوى مخصّصة وفق أعراف المشروع

عمليات GPU مخصّصة

تنفيذ عمليات موترات متخصصة لخطوط خدمة LLM

جرّب هذه الموجهات

نواة قياس أساسية

Show me how to add a simple scale operation to FlashInfer that multiplies each tensor element by a scalar factor

نواة انتباه

How do I add a custom attention kernel to FlashInfer with multiple backends like CUTLASS and cuDNN

استهداف المعمارية

How do I specify supported CUDA architectures for my kernel and use CompilationContext for SM90 and SM100 targeting

نمط الاختبار

Show me the pattern for writing unit tests in FlashInfer with pytest parametrization for different dtypes and sizes

أفضل الممارسات

حافظ على كود النواة مستقلًا عن الإطار باستخدام المؤشرات الخام بدل موترات Torch في مجلد include/
استخدم @functools.cache للتخزين المؤقت للوحدة ووسم @flashinfer_api للتسجيل
حدّد معماريات CUDA المدعومة عبر supported_compute_capability وCompilationContext لاستهداف GPU بشكل صحيح

تجنب

تضمين ترويسات Torch في نوى مجلد include/ - حافظ على استقلالها عن الإطار
تخطي التحقق في مُزيّن @backend_requirement - تحقّق دائمًا من المدخلات
ترميز إصدارات معمارية CUDA بشكل ثابت بدل استخدام CompilationContext للمرونة

الأسئلة المتكررة

ما معماريات GPU التي يدعمها FlashInfer؟

يدعم FlashInfer معمارية SM75 حتى SM121، بما في ذلك Turing وAmpere وHopper وBlackwell مع كشف تلقائي.

ما الحد الأدنى لحجم المسألة لنوى FlashInfer؟

تختلف أحجام المسائل حسب نوع النواة؛ راجع توثيق كل نواة لقيود محددة على أبعاد الموترات.

كيف أدمج نواتي مع واجهات FlashInfer الحالية؟

قم بتصدير الدالة من flashinfer/__init__.py واتبع اصطلاحات التسمية المستخدمة في العمليات الموجودة.

هل تنفذ هذه المهارة أي كود على جهازي؟

لا، هذه مهارة تعليمية للقراءة فقط تحتوي على توثيق وكود أمثلة لأغراض التعلم فقط.

لماذا لا تُترجم نواتي على GPU لدي؟

تحقق من أن قدرة حساب GPU لديك تطابق الإصدارات المدعومة وأن عدة أدوات CUDA مثبتة بشكل صحيح.

كيف يقارن هذا بتطوير CUTLASS الخام؟

يوفر FlashInfer ربط TVM-FFI والتخزين المؤقت، بينما CUTLASS قوالب منخفضة المستوى تتطلب تعليمات برمجية داعمة أكثر.

تفاصيل المطور

المؤلف

flashinfer-ai

الترخيص

Apache-2.0

المستودع

https://github.com/flashinfer-ai/flashinfer/tree/main/.claude/skills/add-cuda-kernel

مرجع

main

بنية الملفات

📄 SKILL.md