pytdc
Acesse Conjuntos de Dados de Descoberta de Fármacos com PyTDC
Também disponível em: davila7
Pesquisadores de descoberta de fármacos precisam de conjuntos de dados padronizados para treinar modelos de ML. O PyTDC fornece conjuntos de dados curados de ADME, toxicidade e interação fármaco-alvo com divisões treino-teste adequadas e oráculos de avaliação.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "pytdc". Carregue o conjunto de dados de toxicidade AMES e me mostre o formato dos dados
Resultado esperado:
- Conjunto de dados carregado com 7.255 compostos para predição de mutagenicidade
- Colunas incluem Drug_ID, Drug (SMILES) e Y (rótulo binário de toxicidade)
- Divisão por scaffold aplicada: 5.078 treino, 725 validação, 1.452 moléculas de teste
A utilizar "pytdc". Avalie esta molécula com o oráculo GSK3B: CC(C)Cc1ccc(cc1)C(C)C(O)=O
Resultado esperado:
- Pontuação de ligação GSK3B: 0,0234 (baixa afinidade predita)
- Este SMILES representa ibuprofeno, não é esperado que iniba GSK3B
- Pontuações variam de 0 a 1, com valores mais altos indicando ligação predita mais forte
Auditoria de Segurança
SeguroThis skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.
Fatores de risco
⚙️ Comandos externos (339)
🌐 Acesso à rede (15)
Pontuação de qualidade
O Que Você Pode Construir
Treinar Modelos de Predição ADME
Carregar dados de permeabilidade Caco-2 com divisões por scaffold, treinar preditores de propriedades moleculares e avaliar com métricas padrão.
Avaliar Preditores de Toxicidade
Acessar conjuntos de dados de toxicidade hERG, AMES e DILI com protocolos de benchmark para validar modelos de predição de segurança.
Gerar Novos Candidatos a Fármacos
Usar oráculos moleculares como GSK3B e DRD2 para guiar modelos generativos em direção a compostos com atividade biológica desejada.
Tente Estes Prompts
Me ajude a carregar o conjunto de dados Caco2_Wang do TDC com divisão por scaffold para treinar um preditor de permeabilidade intestinal.
Me mostre como avaliar meu modelo ADME usando o grupo de benchmark do TDC com o protocolo de 5 sementes obrigatório.
Quero avaliar strings SMILES geradas usando oráculos do TDC para propriedades QED, SA e GSK3B. Me mostre o fluxo de trabalho.
Carregue o conjunto de dados BindingDB_Kd com divisão cold-drug para garantir que meu modelo generalize para compostos de fármacos não vistos.
Melhores Práticas
- Use divisões por scaffold em vez de divisões aleatórias para avaliação realista de modelos em scaffolds químicos novos
- Execute avaliações de benchmark com todas as 5 sementes obrigatórias para reportar desempenho médio e desvio padrão
- Combine múltiplos oráculos com pontuação ponderada para otimização molecular multi-objetivo
Evitar
- Evite divisões aleatórias para modelos ADME de produção pois elas superestimam o desempenho em moléculas similares
- Não reporte resultados de benchmark com semente única pois podem não refletir a verdadeira variância do modelo
- Evite usar oráculos como rótulos de verdade fundamental para treinamento já que eles próprios são modelos preditivos
Perguntas Frequentes
Quais conjuntos de dados estão disponíveis no PyTDC?
O que é uma divisão por scaffold e por que usá-la?
Como funcionam os oráculos moleculares?
O que é o protocolo de 5 sementes para benchmarks?
Posso usar o PyTDC com PyTorch Geometric ou DGL?
O que é uma divisão cold-drug para predição DTI?
Detalhes do Desenvolvedor
Autor
K-Dense-AILicença
MIT license
Repositório
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pytdcReferência
main
Estrutura de arquivos