스킬 benchmark-kernel
📊

benchmark-kernel

안전 🌐 네트워크 접근📁 파일 시스템 액세스⚙️ 외부 명령어

Avaliar kernels GPU com temporização CUPTI

A avaliação precisa de kernels GPU é difícil devido ao overhead de medição. Esta skill fornece instruções passo a passo para usar o profiling de hardware CUPTI para obter tempos de execução precisos de kernels. Compare diferentes backends como FlashAttention e cuDNN para encontrar a implementação mais rápida para sua carga de trabalho.

지원: Claude Codex Code(CC)
⚠️ 68 나쁨
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"benchmark-kernel" 사용 중입니다. Avaliar atenção de decodificação com diferentes backends

예상 결과:

  • fa2: mediana 0.145ms, 125.3 TFLOPS
  • fa2_tc: mediana 0.138ms, 131.5 TFLOPS
  • cudnn: mediana 0.142ms, 127.8 TFLOPS
  • Melhor: fa2_tc com throughput de 131.5 TFLOPS

"benchmark-kernel" 사용 중입니다. Como instalar CUPTI para avaliação precisa

예상 결과:

  • Instale com: pip install -U cupti-python
  • Requer CUDA 13 ou superior
  • Framework detecta e usa CUPTI automaticamente quando disponível
  • Retorna para eventos CUDA se CUPTI não estiver instalado

"benchmark-kernel" 사용 중입니다. Por que meus resultados de avaliação são inconsistentes

예상 결과:

  • Aumente as iterações de aquecimento (experimente 10 dry_run_iters)
  • Aumente as iterações de medição (experimente 50 num_iters)
  • Use opção de cache L2 frio para reduzir efeitos de cache
  • Verifique thermal throttling na sua GPU

보안 감사

안전
v4 • 1/17/2026

Documentation-only skill containing tutorial instructions for GPU kernel benchmarking. No executable code, network calls, or file system access. Static findings are false positives caused by the analyzer incorrectly flagging documentation strings and bash command examples as security vulnerabilities.

2
스캔된 파일
595
분석된 줄 수
3
발견 사항
4
총 감사 수

위험 요인

🌐 네트워크 접근 (1)
📁 파일 시스템 액세스 (1)
⚙️ 외부 명령어 (96)
SKILL.md:24 SKILL.md:38-40 SKILL.md:40-47 SKILL.md:47-56 SKILL.md:56 SKILL.md:56 SKILL.md:56 SKILL.md:56-57 SKILL.md:57 SKILL.md:57 SKILL.md:57 SKILL.md:57-58 SKILL.md:58 SKILL.md:58 SKILL.md:58 SKILL.md:58-64 SKILL.md:64-83 SKILL.md:83-87 SKILL.md:87-101 SKILL.md:101-106 SKILL.md:106-110 SKILL.md:110-116 SKILL.md:116-126 SKILL.md:126-128 SKILL.md:128-132 SKILL.md:132-136 SKILL.md:136-142 SKILL.md:142-144 SKILL.md:144-150 SKILL.md:150-151 SKILL.md:151-152 SKILL.md:152-153 SKILL.md:153-154 SKILL.md:154-155 SKILL.md:155-156 SKILL.md:156-157 SKILL.md:157-158 SKILL.md:158-166 SKILL.md:166-196 SKILL.md:196-202 SKILL.md:202-204 SKILL.md:204-207 SKILL.md:207-210 SKILL.md:210-213 SKILL.md:213-217 SKILL.md:217-221 SKILL.md:221-238 SKILL.md:238-244 SKILL.md:244-251 SKILL.md:251-253 SKILL.md:253-257 SKILL.md:257-267 SKILL.md:267-269 SKILL.md:269-272 SKILL.md:272-274 SKILL.md:274-277 SKILL.md:277-279 SKILL.md:279-282 SKILL.md:282-284 SKILL.md:284-288 SKILL.md:288-294 SKILL.md:294-296 SKILL.md:296-301 SKILL.md:301-303 SKILL.md:303-307 SKILL.md:307-309 SKILL.md:309 SKILL.md:309-314 SKILL.md:314-316 SKILL.md:316-319 SKILL.md:319-321 SKILL.md:321-324 SKILL.md:324-326 SKILL.md:326-329 SKILL.md:329-331 SKILL.md:331-334 SKILL.md:334-336 SKILL.md:336-339 SKILL.md:339-341 SKILL.md:341-344 SKILL.md:344-346 SKILL.md:346-351 SKILL.md:351-359 SKILL.md:359-362 SKILL.md:362-372 SKILL.md:372-375 SKILL.md:375-383 SKILL.md:383-386 SKILL.md:386-397 SKILL.md:397-404 SKILL.md:404-413 SKILL.md:413 SKILL.md:413-414 SKILL.md:414-420 SKILL.md:420-421 SKILL.md:283
감사자: claude 감사 이력 보기 →

품질 점수

38
아키텍처
100
유지보수성
85
콘텐츠
19
커뮤니티
100
보안
83
사양 준수

만들 수 있는 것

Medir desempenho do kernel com precisão

Use o profiling de hardware CUPTI para obter tempos de execução GPU precisos sem overhead do host

Comparar backends de kernel de atenção

Avalie diferentes implementações de atenção para encontrar a mais rápida para sua carga de trabalho

Perfil de operações GEMM FP8

Meça o desempenho de kernels de multiplicação de matrizes de precisão mista

이 프롬프트를 사용해 보세요

Temporização básica de kernel
Ajude-me a avaliar meu kernel CUDA usando bench_gpu_time() com 30 iterações e 5 execuções de aquecimento
Comparar backends
Mostre-me como avaliar BatchDecodeWithPagedKVCacheWrapper com backends fa2, cudnn e cutlass
Avaliações em lote
Crie um arquivo de lista de teste para avaliar diferentes tamanhos de lote e comprimentos de sequência
Avaliação Python personalizada
Escreva um script Python que avalie meu kernel de atenção personalizado com temporização CUPTI

모범 사례

  • Instale CUPTI para precisão em nível de hardware quando possível
  • Use verificação de referência para verificar a correção do kernel durante a avaliação
  • Execute iterações suficientes (30+) para significância estatística

피하기

  • Avaliar sem iterações de aquecimento
  • Usar apenas eventos CUDA quando CUPTI está disponível
  • Comparar backends sem verificar a correção da saída

자주 묻는 질문

Preciso ter CUPTI instalado?
Não, o framework retorna automaticamente para eventos CUDA se CUPTI estiver indisponível
Qual é a versão mínima do CUDA?
CUPTI requer CUDA 13+, mas eventos CUDA funcionam com qualquer versão do CUDA
Posso avaliar kernels não-FlashInfer?
Sim, use bench_gpu_time() com qualquer função de kernel CUDA no seu código Python
Meus dados estão seguros durante a avaliação?
Sim, a avaliação apenas mede o tempo de execução sem acessar seus dados de entrada
Por que meus resultados de avaliação são inconsistentes?
Aumente as iterações de aquecimento e medição, e verifique thermal throttling na sua GPU
Quão preciso é CUPTI comparado a eventos CUDA?
CUPTI é mais preciso para kernels rápidos abaixo de 50 microssegundos, a diferença é desprezível para kernels mais longos

개발자 세부 정보

파일 구조

📄 SKILL.md