benchmark-kernel
Avaliar kernels GPU com temporização CUPTI
A avaliação precisa de kernels GPU é difícil devido ao overhead de medição. Esta skill fornece instruções passo a passo para usar o profiling de hardware CUPTI para obter tempos de execução precisos de kernels. Compare diferentes backends como FlashAttention e cuDNN para encontrar a implementação mais rápida para sua carga de trabalho.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "benchmark-kernel". Avaliar atenção de decodificação com diferentes backends
Resultado esperado:
- fa2: mediana 0.145ms, 125.3 TFLOPS
- fa2_tc: mediana 0.138ms, 131.5 TFLOPS
- cudnn: mediana 0.142ms, 127.8 TFLOPS
- Melhor: fa2_tc com throughput de 131.5 TFLOPS
A utilizar "benchmark-kernel". Como instalar CUPTI para avaliação precisa
Resultado esperado:
- Instale com: pip install -U cupti-python
- Requer CUDA 13 ou superior
- Framework detecta e usa CUPTI automaticamente quando disponível
- Retorna para eventos CUDA se CUPTI não estiver instalado
A utilizar "benchmark-kernel". Por que meus resultados de avaliação são inconsistentes
Resultado esperado:
- Aumente as iterações de aquecimento (experimente 10 dry_run_iters)
- Aumente as iterações de medição (experimente 50 num_iters)
- Use opção de cache L2 frio para reduzir efeitos de cache
- Verifique thermal throttling na sua GPU
Auditoria de Segurança
SeguroDocumentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.
Fatores de risco
🌐 Acesso à rede (1)
📁 Acesso ao sistema de arquivos (1)
⚙️ Comandos externos (96)
Pontuação de qualidade
O Que Você Pode Construir
Medir desempenho do kernel com precisão
Use o profiling de hardware CUPTI para obter tempos de execução GPU precisos sem overhead do host
Comparar backends de kernel de atenção
Avalie diferentes implementações de atenção para encontrar a mais rápida para sua carga de trabalho
Perfil de operações GEMM FP8
Meça o desempenho de kernels de multiplicação de matrizes de precisão mista
Tente Estes Prompts
Ajude-me a avaliar meu kernel CUDA usando bench_gpu_time() com 30 iterações e 5 execuções de aquecimento
Mostre-me como avaliar BatchDecodeWithPagedKVCacheWrapper com backends fa2, cudnn e cutlass
Crie um arquivo de lista de teste para avaliar diferentes tamanhos de lote e comprimentos de sequência
Escreva um script Python que avalie meu kernel de atenção personalizado com temporização CUPTI
Melhores Práticas
- Instale CUPTI para precisão em nível de hardware quando possível
- Use verificação de referência para verificar a correção do kernel durante a avaliação
- Execute iterações suficientes (30+) para significância estatística
Evitar
- Avaliar sem iterações de aquecimento
- Usar apenas eventos CUDA quando CUPTI está disponível
- Comparar backends sem verificar a correção da saída
Perguntas Frequentes
Preciso ter CUPTI instalado?
Qual é a versão mínima do CUDA?
Posso avaliar kernels não-FlashInfer?
Meus dados estão seguros durante a avaliação?
Por que meus resultados de avaliação são inconsistentes?
Quão preciso é CUPTI comparado a eventos CUDA?
Detalhes do Desenvolvedor
Estrutura de arquivos
📄 SKILL.md