Habilidades ml-training-debugger

🔧

ml-training-debugger

Name: ml-training-debugger
Author: DNYoussef

Seguro ⚙️ Comandos externos🌐 Acesso à rede📁 Acesso ao sistema de arquivos

Depurar Falhas no Treinamento de ML

O treinamento de ML frequentemente falha com causas pouco claras. Esta skill gera um agente especialista que analisa sistematicamente logs de treinamento, curvas de perda e código do modelo para identificar causas raiz como problemas de taxa de aprendizado, colapso de modo ou problemas de arquitetura.

Suporta: Claude Codex Code(CC)

⚠️ 68 Ruim

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "ml-training-debugger". Meu modelo gera apenas dois-pontos (::::) independentemente da entrada. A perda de treinamento diminuiu mas as saídas são degeneradas.

Resultado esperado:

Causa Raiz: Desequilíbrio de arquitetura - camada de embedding tem 79% dos parâmetros
Evidência: Contagem de parâmetros mostra transformer subparametrizado
Correção: Reequilibrar arquitetura para 50% embeddings, 50% transformers
Confiança: 90%

A utilizar "ml-training-debugger". Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar rapidamente.

Resultado esperado:

Causa Raiz: Taxa de aprendizado muito alta para transição de currículo
Evidência: Perda aumentou 15% na época 7, norma de gradiente disparou para 45.2
Correção: Reduzir muon_lr de 1e-2 para 5e-3, habilitar gradient clipping
Confiança: 95%

A utilizar "ml-training-debugger". Recebendo aviso degrees of freedom is <= 0 durante treinamento com ACT head.

Resultado esperado:

Causa Raiz: Colapso de variância ACT - todos os tokens usam os mesmos passos de parada
Evidência: Aviso aparece no cálculo de perda ACT, var() é igual a zero
Correção: Adicionar regularização de diversidade à perda ACT, verificar variância
Confiança: 98%

Auditoria de Segurança

Seguro

v5 • 1/17/2026

Pure prompt-based skill with no executable code. Operates in read-only mode analyzing training artifacts to diagnose failures. All capabilities are transparent in documentation. No network calls, credential access, or malicious patterns detected after evaluation.

Arquivos analisados

789

Linhas analisadas

achados

Total de auditorias

Fatores de risco

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Depurar Divergência de Treinamento

Diagnosticar por que a perda começou a aumentar na época 7 e identificar o problema de taxa de aprendizado.

Corrigir Colapso de Modo

Entender por que o modelo gera apenas um token e como reequilibrar a arquitetura.

Analisar Problemas de Gradiente

Investigar gradientes explosivos ou desaparecentes em redes neurais profundas.

Tente Estes Prompts

Problema Básico de Perda

Minha perda de treinamento não está diminuindo. Analise meus logs de treinamento e ajude a identificar a causa raiz.

Falha na Época

Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar. Depure isso.

Problema de Saída do Modelo

Meu modelo gera apenas o mesmo token independentemente da entrada. Ajude a diagnosticar colapso de modo.

Análise Completa

Depure minha falha de treinamento. Sintomas: [descrever]. Artefatos disponíveis: [listar arquivos]. Forneça análise de causa raiz com evidências.

Melhores Práticas

Forneça logs de treinamento, curvas de perda e código do modelo para diagnóstico preciso
Inclua mensagens de erro e descrições de sintomas
Especifique quando a falha ocorreu (época, passo, iteração)
Solicite níveis de confiança e evidências para cada diagnóstico

Evitar

Solicitar correções sem fornecer artefatos de treinamento
Esperar que a skill modifique código diretamente
Solicitar diagnóstico sem descrição clara de sintomas
Presumir que a skill pode acessar GPU ou ambiente de tempo de execução

Perguntas Frequentes

Quais frameworks de ML esta skill suporta?

Foca em PyTorch mas a metodologia de diagnóstico se aplica a qualquer framework de deep learning.

Quais artefatos a skill precisa para analisar?

Logs de treinamento, curvas de perda (CSV), código do modelo, configuração de hiperparâmetros e mensagens de erro.

Esta skill pode corrigir os problemas que encontra?

Não, ela fornece diagnóstico e recomendações. Use a skill ml-expertise para implementar correções.

Meus dados de treinamento são acessados?

Não. A skill apenas analisa logs, métricas e código. Dados de treinamento nunca são acessados.

E se a skill não conseguir diagnosticar o problema?

Ela solicitará artefatos específicos ou sugerirá caminhos de escalação para problemas complexos.

Como isso difere da depuração geral de código?

Especializa-se em padrões específicos de ML: curvas de perda, gradientes, dinâmica de otimizadores e problemas de arquitetura.

Detalhes do Desenvolvedor

Autor

DNYoussef

Licença

MIT

Repositório

https://github.com/DNYoussef/ai-chrome-extension/tree/main/.claude/skills/ml-training-debugger

Referência

main

Estrutura de arquivos

📁 agents/

📄 ml-debugger-specialist.prompt

📄 SKILL.md