Compétences ml-training-debugger
🔧

ml-training-debugger

Sûr ⚙️ Commandes externes🌐 Accès réseau📁 Accès au système de fichiers

Depurar Falhas no Treinamento de ML

O treinamento de ML frequentemente falha com causas pouco claras. Esta skill gera um agente especialista que analisa sistematicamente logs de treinamento, curvas de perda e código do modelo para identificar causas raiz como problemas de taxa de aprendizado, colapso de modo ou problemas de arquitetura.

Prend en charge: Claude Codex Code(CC)
📊 70 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "ml-training-debugger". Meu modelo gera apenas dois-pontos (::::) independentemente da entrada. A perda de treinamento diminuiu mas as saídas são degeneradas.

Résultat attendu:

  • Causa Raiz: Desequilíbrio de arquitetura - camada de embedding tem 79% dos parâmetros
  • Evidência: Contagem de parâmetros mostra transformer subparametrizado
  • Correção: Reequilibrar arquitetura para 50% embeddings, 50% transformers
  • Confiança: 90%

Utilisation de "ml-training-debugger". Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar rapidamente.

Résultat attendu:

  • Causa Raiz: Taxa de aprendizado muito alta para transição de currículo
  • Evidência: Perda aumentou 15% na época 7, norma de gradiente disparou para 45.2
  • Correção: Reduzir muon_lr de 1e-2 para 5e-3, habilitar gradient clipping
  • Confiança: 95%

Utilisation de "ml-training-debugger". Recebendo aviso degrees of freedom is <= 0 durante treinamento com ACT head.

Résultat attendu:

  • Causa Raiz: Colapso de variância ACT - todos os tokens usam os mesmos passos de parada
  • Evidência: Aviso aparece no cálculo de perda ACT, var() é igual a zero
  • Correção: Adicionar regularização de diversidade à perda ACT, verificar variância
  • Confiança: 98%

Audit de sécurité

Sûr
v5 • 1/17/2026

Pure prompt-based skill with no executable code. Operates in read-only mode analyzing training artifacts to diagnose failures. All capabilities are transparent in documentation. No network calls, credential access, or malicious patterns detected after evaluation.

3
Fichiers analysés
789
Lignes analysées
3
résultats
5
Total des audits

Score de qualité

38
Architecture
100
Maintenabilité
85
Contenu
31
Communauté
100
Sécurité
83
Conformité aux spécifications

Ce que vous pouvez construire

Depurar Divergência de Treinamento

Diagnosticar por que a perda começou a aumentar na época 7 e identificar o problema de taxa de aprendizado.

Corrigir Colapso de Modo

Entender por que o modelo gera apenas um token e como reequilibrar a arquitetura.

Analisar Problemas de Gradiente

Investigar gradientes explosivos ou desaparecentes em redes neurais profundas.

Essayez ces prompts

Problema Básico de Perda
Minha perda de treinamento não está diminuindo. Analise meus logs de treinamento e ajude a identificar a causa raiz.
Falha na Época
Meu modelo estava treinando bem até a época 7, então a perda começou a aumentar. Depure isso.
Problema de Saída do Modelo
Meu modelo gera apenas o mesmo token independentemente da entrada. Ajude a diagnosticar colapso de modo.
Análise Completa
Depure minha falha de treinamento. Sintomas: [descrever]. Artefatos disponíveis: [listar arquivos]. Forneça análise de causa raiz com evidências.

Bonnes pratiques

  • Forneça logs de treinamento, curvas de perda e código do modelo para diagnóstico preciso
  • Inclua mensagens de erro e descrições de sintomas
  • Especifique quando a falha ocorreu (época, passo, iteração)
  • Solicite níveis de confiança e evidências para cada diagnóstico

Éviter

  • Solicitar correções sem fornecer artefatos de treinamento
  • Esperar que a skill modifique código diretamente
  • Solicitar diagnóstico sem descrição clara de sintomas
  • Presumir que a skill pode acessar GPU ou ambiente de tempo de execução

Foire aux questions

Quais frameworks de ML esta skill suporta?
Foca em PyTorch mas a metodologia de diagnóstico se aplica a qualquer framework de deep learning.
Quais artefatos a skill precisa para analisar?
Logs de treinamento, curvas de perda (CSV), código do modelo, configuração de hiperparâmetros e mensagens de erro.
Esta skill pode corrigir os problemas que encontra?
Não, ela fornece diagnóstico e recomendações. Use a skill ml-expertise para implementar correções.
Meus dados de treinamento são acessados?
Não. A skill apenas analisa logs, métricas e código. Dados de treinamento nunca são acessados.
E se a skill não conseguir diagnosticar o problema?
Ela solicitará artefatos específicos ou sugerirá caminhos de escalação para problemas complexos.
Como isso difere da depuração geral de código?
Especializa-se em padrões específicos de ML: curvas de perda, gradientes, dinâmica de otimizadores e problemas de arquitetura.

Détails du développeur

Structure de fichiers