Habilidades benchmark-kernel
📊

benchmark-kernel

Seguro 🌐 Acesso à rede📁 Acesso ao sistema de arquivos⚙️ Comandos externos

Avaliar kernels GPU com temporização CUPTI

A avaliação precisa de kernels GPU é difícil devido ao overhead de medição. Esta skill fornece instruções passo a passo para usar o profiling de hardware CUPTI para obter tempos de execução precisos de kernels. Compare diferentes backends como FlashAttention e cuDNN para encontrar a implementação mais rápida para sua carga de trabalho.

Suporta: Claude Codex Code(CC)
⚠️ 68 Ruim
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "benchmark-kernel". Avaliar atenção de decodificação com diferentes backends

Resultado esperado:

  • fa2: mediana 0.145ms, 125.3 TFLOPS
  • fa2_tc: mediana 0.138ms, 131.5 TFLOPS
  • cudnn: mediana 0.142ms, 127.8 TFLOPS
  • Melhor: fa2_tc com throughput de 131.5 TFLOPS

A utilizar "benchmark-kernel". Como instalar CUPTI para avaliação precisa

Resultado esperado:

  • Instale com: pip install -U cupti-python
  • Requer CUDA 13 ou superior
  • Framework detecta e usa CUPTI automaticamente quando disponível
  • Retorna para eventos CUDA se CUPTI não estiver instalado

A utilizar "benchmark-kernel". Por que meus resultados de avaliação são inconsistentes

Resultado esperado:

  • Aumente as iterações de aquecimento (experimente 10 dry_run_iters)
  • Aumente as iterações de medição (experimente 50 num_iters)
  • Use opção de cache L2 frio para reduzir efeitos de cache
  • Verifique thermal throttling na sua GPU

Auditoria de Segurança

Seguro
v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

2
Arquivos analisados
595
Linhas analisadas
3
achados
4
Total de auditorias

Fatores de risco

🌐 Acesso à rede (1)
📁 Acesso ao sistema de arquivos (1)
⚙️ Comandos externos (96)
SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

38
Arquitetura
100
Manutenibilidade
85
Conteúdo
21
Comunidade
100
Segurança
83
Conformidade com especificações

O Que Você Pode Construir

Medir desempenho do kernel com precisão

Use o profiling de hardware CUPTI para obter tempos de execução GPU precisos sem overhead do host

Comparar backends de kernel de atenção

Avalie diferentes implementações de atenção para encontrar a mais rápida para sua carga de trabalho

Perfil de operações GEMM FP8

Meça o desempenho de kernels de multiplicação de matrizes de precisão mista

Tente Estes Prompts

Temporização básica de kernel
Ajude-me a avaliar meu kernel CUDA usando bench_gpu_time() com 30 iterações e 5 execuções de aquecimento
Comparar backends
Mostre-me como avaliar BatchDecodeWithPagedKVCacheWrapper com backends fa2, cudnn e cutlass
Avaliações em lote
Crie um arquivo de lista de teste para avaliar diferentes tamanhos de lote e comprimentos de sequência
Avaliação Python personalizada
Escreva um script Python que avalie meu kernel de atenção personalizado com temporização CUPTI

Melhores Práticas

  • Instale CUPTI para precisão em nível de hardware quando possível
  • Use verificação de referência para verificar a correção do kernel durante a avaliação
  • Execute iterações suficientes (30+) para significância estatística

Evitar

  • Avaliar sem iterações de aquecimento
  • Usar apenas eventos CUDA quando CUPTI está disponível
  • Comparar backends sem verificar a correção da saída

Perguntas Frequentes

Preciso ter CUPTI instalado?
Não, o framework retorna automaticamente para eventos CUDA se CUPTI estiver indisponível
Qual é a versão mínima do CUDA?
CUPTI requer CUDA 13+, mas eventos CUDA funcionam com qualquer versão do CUDA
Posso avaliar kernels não-FlashInfer?
Sim, use bench_gpu_time() com qualquer função de kernel CUDA no seu código Python
Meus dados estão seguros durante a avaliação?
Sim, a avaliação apenas mede o tempo de execução sem acessar seus dados de entrada
Por que meus resultados de avaliação são inconsistentes?
Aumente as iterações de aquecimento e medição, e verifique thermal throttling na sua GPU
Quão preciso é CUPTI comparado a eventos CUDA?
CUPTI é mais preciso para kernels rápidos abaixo de 50 microssegundos, a diferença é desprezível para kernels mais longos

Detalhes do Desenvolvedor

Estrutura de arquivos

📄 SKILL.md