スキル benchmark-kernel

📊

benchmark-kernel

Name: benchmark-kernel
Author: flashinfer-ai

安全 🌐 ネットワークアクセス📁 ファイルシステムへのアクセス⚙️ 外部コマンド

使用 CUPTI 計時功能對 GPU 核心進行效能測試

由於測量開銷，準確測量 GPU 核心效能具有挑戰性。本技能提供使用 CUPTI 硬體效能分析的逐步說明，以獲得精確的核心執行時間。比較不同的後端（如 FlashAttention 和 cuDNN），找出您工作負載的最快速實作。

対応: Claude Codex Code(CC)

⚠️ 68 貧弱

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「benchmark-kernel」を使用しています。使用不同後端對解碼注意力進行效能測試

期待される結果:

fa2: 中位數 0.145ms，125.3 TFLOPS
fa2_tc: 中位數 0.138ms，131.5 TFLOPS
cudnn: 中位數 0.142ms，127.8 TFLOPS
最佳：fa2_tc，吞吐量 131.5 TFLOPS

「benchmark-kernel」を使用しています。如何安裝 CUPTI 以進行準確的效能測試

期待される結果:

Install with: pip install -U cupti-python
Requires CUDA 13 or higher
Framework auto-detects and uses CUPTI when available
Falls back to CUDA events if CUPTI not installed

「benchmark-kernel」を使用しています。為什麼我的效能測試結果不一致

期待される結果:

增加暖機迭代次數（嘗試 10 次 dry_run_iters）
增加測量迭代次數（嘗試 50 次 num_iters）
使用冷 L2 快取選項以減少快取效應
檢查您的 GPU 是否發生熱節流

セキュリティ監査

安全

v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

スキャンされたファイル

595

解析された行数

検出結果

総監査数

リスク要因

🌐 ネットワークアクセス (1)

skill-report.json:6

📁 ファイルシステムへのアクセス (1)

skill-report.json:6

⚙️ 外部コマンド (96)

SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

準確測量核心效能

使用 CUPTI 硬體效能分析來獲得精確的 GPU 執行時間，不受主機端開銷影響

比較注意力核心後端

對不同的注意力實作進行效能測試，找出您工作負載的最快速選項

對 FP8 GEMM 操作進行效能分析

測量混合精度矩陣乘法核心的效能

これらのプロンプトを試す

基本核心計時

Help me benchmark my CUDA kernel using bench_gpu_time() with 30 iterations and 5 warmup runs

比較後端

Show me how to benchmark BatchDecodeWithPagedKVCacheWrapper with fa2, cudnn, and cutlass backends

批次效能測試

Create a test list file to benchmark different batch sizes and sequence lengths

自訂 Python 效能測試

Write a Python script that benchmarks my custom attention kernel with CUPTI timing

ベストプラクティス

可能的話安裝 CUPTI 以獲得硬體級準確度
使用參考檢查來驗證效能測試期間的核心正確性
執行足夠的迭代次數（30 次以上）以獲得統計意義

回避

在沒有暖機迭代次數的情況下進行效能測試
當 CUPTI 可用時卻只使用 CUDA 事件
在未驗證輸出正確性的情況下比較後端

よくある質問

我需要安裝 CUPTI 嗎？

不需要，如果 CUPTI 不可用，框架會自動回退到 CUDA 事件

最低 CUDA 版本要求是什麼？

CUPTI 需要 CUDA 13+，但 CUDA 事件可搭配任何 CUDA 版本使用

我可以對非 FlashInfer 核心進行效能測試嗎？

可以，在您的 Python 程式碼中對任何 CUDA 核心函數使用 bench_gpu_time()

效能測試期間我的資料安全嗎？

可以，效能測試僅測量執行時間，不會存取您的輸入資料

為什麼我的效能測試結果不一致？

增加暖機和測量迭代次數，並檢查您的 GPU 是否發生熱節流

CUPTI 相比 CUDA 事件的準確度如何？

對於 50 微秒以下的快速核心，CUPTI 更準確；對於較長的核心，差異可以忽略不計

開発者の詳細

作成者

flashinfer-ai

ライセンス

MIT

リポジトリ

https://github.com/flashinfer-ai/flashinfer/tree/main/.claude/skills/benchmark-kernel

参照

main

ファイル構成

📄 SKILL.md