ml-training-debugger
Depurar Falhas no Treinamento de ML
O treinamento de ML frequentemente falha com causas pouco claras. Esta skill gera um agente especialista que analisa sistematicamente logs de treinamento, curvas de perda e código do modelo para identificar causas raiz como problemas de taxa de aprendizado, colapso de modo ou problemas de arquitetura.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "ml-training-debugger". Meu modelo gera apenas dois-pontos (::::) independentemente da entrada. A perda de treinamento diminuiu mas as saídas são degeneradas.
Résultat attendu:
- Causa Raiz: Desequilíbrio de arquitetura - camada de embedding tem 79% dos parâmetros
- Evidência: Contagem de parâmetros mostra transformer subparametrizado
- Correção: Reequilibrar arquitetura para 50% embeddings, 50% transformers
- Confiança: 90%
Utilisation de "ml-training-debugger". Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar rapidamente.
Résultat attendu:
- Causa Raiz: Taxa de aprendizado muito alta para transição de currículo
- Evidência: Perda aumentou 15% na época 7, norma de gradiente disparou para 45.2
- Correção: Reduzir muon_lr de 1e-2 para 5e-3, habilitar gradient clipping
- Confiança: 95%
Utilisation de "ml-training-debugger". Recebendo aviso degrees of freedom is <= 0 durante treinamento com ACT head.
Résultat attendu:
- Causa Raiz: Colapso de variância ACT - todos os tokens usam os mesmos passos de parada
- Evidência: Aviso aparece no cálculo de perda ACT, var() é igual a zero
- Correção: Adicionar regularização de diversidade à perda ACT, verificar variância
- Confiança: 98%
Audit de sécurité
SûrPure prompt-based skill with no executable code. Operates in read-only mode analyzing training artifacts to diagnose failures. All capabilities are transparent in documentation. No network calls, credential access, or malicious patterns detected after evaluation.
Facteurs de risque
⚙️ Commandes externes (29)
🌐 Accès réseau (1)
📁 Accès au système de fichiers (1)
Score de qualité
Ce que vous pouvez construire
Depurar Divergência de Treinamento
Diagnosticar por que a perda começou a aumentar na época 7 e identificar o problema de taxa de aprendizado.
Corrigir Colapso de Modo
Entender por que o modelo gera apenas um token e como reequilibrar a arquitetura.
Analisar Problemas de Gradiente
Investigar gradientes explosivos ou desaparecentes em redes neurais profundas.
Essayez ces prompts
Minha perda de treinamento não está diminuindo. Analise meus logs de treinamento e ajude a identificar a causa raiz.
Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar. Depure isso.
Meu modelo gera apenas o mesmo token independentemente da entrada. Ajude a diagnosticar colapso de modo.
Depure minha falha de treinamento. Sintomas: [descrever]. Artefatos disponíveis: [listar arquivos]. Forneça análise de causa raiz com evidências.
Bonnes pratiques
- Forneça logs de treinamento, curvas de perda e código do modelo para diagnóstico preciso
- Inclua mensagens de erro e descrições de sintomas
- Especifique quando a falha ocorreu (época, passo, iteração)
- Solicite níveis de confiança e evidências para cada diagnóstico
Éviter
- Solicitar correções sem fornecer artefatos de treinamento
- Esperar que a skill modifique código diretamente
- Solicitar diagnóstico sem descrição clara de sintomas
- Presumir que a skill pode acessar GPU ou ambiente de tempo de execução
Foire aux questions
Quais frameworks de ML esta skill suporta?
Quais artefatos a skill precisa para analisar?
Esta skill pode corrigir os problemas que encontra?
Meus dados de treinamento são acessados?
E se a skill não conseguir diagnosticar o problema?
Como isso difere da depuração geral de código?
Détails du développeur
Auteur
DNYoussefLicence
MIT
Dépôt
https://github.com/DNYoussef/ai-chrome-extension/tree/main/.claude/skills/ml-training-debuggerRéf
main
Structure de fichiers