benchmark-kernel
Avaliar kernels GPU com temporização CUPTI
A avaliação precisa de kernels GPU é difícil devido ao overhead de medição. Esta skill fornece instruções passo a passo para usar o profiling de hardware CUPTI para obter tempos de execução precisos de kernels. Compare diferentes backends como FlashAttention e cuDNN para encontrar a implementação mais rápida para sua carga de trabalho.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"benchmark-kernel" 사용 중입니다. Avaliar atenção de decodificação com diferentes backends
예상 결과:
- fa2: mediana 0.145ms, 125.3 TFLOPS
- fa2_tc: mediana 0.138ms, 131.5 TFLOPS
- cudnn: mediana 0.142ms, 127.8 TFLOPS
- Melhor: fa2_tc com throughput de 131.5 TFLOPS
"benchmark-kernel" 사용 중입니다. Como instalar CUPTI para avaliação precisa
예상 결과:
- Instale com: pip install -U cupti-python
- Requer CUDA 13 ou superior
- Framework detecta e usa CUPTI automaticamente quando disponível
- Retorna para eventos CUDA se CUPTI não estiver instalado
"benchmark-kernel" 사용 중입니다. Por que meus resultados de avaliação são inconsistentes
예상 결과:
- Aumente as iterações de aquecimento (experimente 10 dry_run_iters)
- Aumente as iterações de medição (experimente 50 num_iters)
- Use opção de cache L2 frio para reduzir efeitos de cache
- Verifique thermal throttling na sua GPU
보안 감사
안전Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.
위험 요인
🌐 네트워크 접근 (1)
📁 파일 시스템 액세스 (1)
⚙️ 외부 명령어 (96)
품질 점수
만들 수 있는 것
Medir desempenho do kernel com precisão
Use o profiling de hardware CUPTI para obter tempos de execução GPU precisos sem overhead do host
Comparar backends de kernel de atenção
Avalie diferentes implementações de atenção para encontrar a mais rápida para sua carga de trabalho
Perfil de operações GEMM FP8
Meça o desempenho de kernels de multiplicação de matrizes de precisão mista
이 프롬프트를 사용해 보세요
Ajude-me a avaliar meu kernel CUDA usando bench_gpu_time() com 30 iterações e 5 execuções de aquecimento
Mostre-me como avaliar BatchDecodeWithPagedKVCacheWrapper com backends fa2, cudnn e cutlass
Crie um arquivo de lista de teste para avaliar diferentes tamanhos de lote e comprimentos de sequência
Escreva um script Python que avalie meu kernel de atenção personalizado com temporização CUPTI
모범 사례
- Instale CUPTI para precisão em nível de hardware quando possível
- Use verificação de referência para verificar a correção do kernel durante a avaliação
- Execute iterações suficientes (30+) para significância estatística
피하기
- Avaliar sem iterações de aquecimento
- Usar apenas eventos CUDA quando CUPTI está disponível
- Comparar backends sem verificar a correção da saída