Habilidades benchmark-kernel

📊

benchmark-kernel

Name: benchmark-kernel
Author: flashinfer-ai

Seguro 🌐 Acesso à rede📁 Acesso ao sistema de arquivos⚙️ Comandos externos

Avaliar kernels GPU com temporização CUPTI

A avaliação precisa de kernels GPU é difícil devido ao overhead de medição. Esta skill fornece instruções passo a passo para usar o profiling de hardware CUPTI para obter tempos de execução precisos de kernels. Compare diferentes backends como FlashAttention e cuDNN para encontrar a implementação mais rápida para sua carga de trabalho.

Suporta: Claude Codex Code(CC)

⚠️ 68 Ruim

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "benchmark-kernel". Avaliar atenção de decodificação com diferentes backends

Resultado esperado:

fa2: mediana 0.145ms, 125.3 TFLOPS
fa2_tc: mediana 0.138ms, 131.5 TFLOPS
cudnn: mediana 0.142ms, 127.8 TFLOPS
Melhor: fa2_tc com throughput de 131.5 TFLOPS

A utilizar "benchmark-kernel". Como instalar CUPTI para avaliação precisa

Resultado esperado:

Instale com: pip install -U cupti-python
Requer CUDA 13 ou superior
Framework detecta e usa CUPTI automaticamente quando disponível
Retorna para eventos CUDA se CUPTI não estiver instalado

A utilizar "benchmark-kernel". Por que meus resultados de avaliação são inconsistentes

Resultado esperado:

Aumente as iterações de aquecimento (experimente 10 dry_run_iters)
Aumente as iterações de medição (experimente 50 num_iters)
Use opção de cache L2 frio para reduzir efeitos de cache
Verifique thermal throttling na sua GPU

Auditoria de Segurança

Seguro

v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

Arquivos analisados

595

Linhas analisadas

achados

Total de auditorias

Fatores de risco

🌐 Acesso à rede (1)

skill-report.json:6

📁 Acesso ao sistema de arquivos (1)

skill-report.json:6

⚙️ Comandos externos (96)

SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Medir desempenho do kernel com precisão

Use o profiling de hardware CUPTI para obter tempos de execução GPU precisos sem overhead do host

Comparar backends de kernel de atenção

Avalie diferentes implementações de atenção para encontrar a mais rápida para sua carga de trabalho

Perfil de operações GEMM FP8

Meça o desempenho de kernels de multiplicação de matrizes de precisão mista

Tente Estes Prompts

Temporização básica de kernel

Ajude-me a avaliar meu kernel CUDA usando bench_gpu_time() com 30 iterações e 5 execuções de aquecimento

Comparar backends

Mostre-me como avaliar BatchDecodeWithPagedKVCacheWrapper com backends fa2, cudnn e cutlass

Avaliações em lote

Crie um arquivo de lista de teste para avaliar diferentes tamanhos de lote e comprimentos de sequência

Avaliação Python personalizada

Escreva um script Python que avalie meu kernel de atenção personalizado com temporização CUPTI

Melhores Práticas

Instale CUPTI para precisão em nível de hardware quando possível
Use verificação de referência para verificar a correção do kernel durante a avaliação
Execute iterações suficientes (30+) para significância estatística

Evitar

Avaliar sem iterações de aquecimento
Usar apenas eventos CUDA quando CUPTI está disponível
Comparar backends sem verificar a correção da saída

Perguntas Frequentes

Preciso ter CUPTI instalado?

Não, o framework retorna automaticamente para eventos CUDA se CUPTI estiver indisponível

Qual é a versão mínima do CUDA?

CUPTI requer CUDA 13+, mas eventos CUDA funcionam com qualquer versão do CUDA

Posso avaliar kernels não-FlashInfer?

Sim, use bench_gpu_time() com qualquer função de kernel CUDA no seu código Python

Meus dados estão seguros durante a avaliação?

Sim, a avaliação apenas mede o tempo de execução sem acessar seus dados de entrada

Por que meus resultados de avaliação são inconsistentes?

Aumente as iterações de aquecimento e medição, e verifique thermal throttling na sua GPU

Quão preciso é CUPTI comparado a eventos CUDA?

CUPTI é mais preciso para kernels rápidos abaixo de 50 microssegundos, a diferença é desprezível para kernels mais longos

Detalhes do Desenvolvedor

Autor

flashinfer-ai

Licença

MIT

Repositório

https://github.com/flashinfer-ai/flashinfer/tree/main/.claude/skills/benchmark-kernel

Referência

main

Estrutura de arquivos

📄 SKILL.md