🧪

deepchem

Name: deepchem
Author: davila7

Baixo Risco ⚡ Contém scripts🌐 Acesso à rede📁 Acesso ao sistema de arquivos⚙️ Comandos externos

Prever propriedades moleculares para descoberta de fármacos

Também disponível em: K-Dense-AI

A descoberta de fármacos requer a previsão de propriedades moleculares como solubilidade e toxicidade. O DeepChem fornece modelos pré-treinados e redes neurais de grafos para prever essas propriedades a partir de estruturas moleculares.

Suporta: Claude Codex Code(CC)

📊 71 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "deepchem". Predict solubility for caffeine using DeepChem

Resultado esperado:

Predicted solubility for CN1C=NC2=C1C(=O)N(C(=O)N2C)C: -1.190 log(mol/L)
Model: MultitaskRegressor with CircularFingerprint featurizer
Dataset: Delaney benchmark, R²=0.89 on test set

A utilizar "deepchem". Train a GCN model on Tox21 dataset

Resultado esperado:

Training GCN on 12 toxicity prediction tasks
Using scaffold splitting to prevent data leakage
Test ROC-AUC: 0.782 average across all tasks

Auditoria de Segurança

Baixo Risco

v5 • 1/17/2026

Legitimate molecular ML toolkit with standard ML library behaviors. Downloads pretrained models from HuggingFace and saves checkpoints locally. No suspicious network endpoints, credential access, or code execution patterns. Static findings are false positives from markdown documentation parsing.

Arquivos analisados

2,639

Linhas analisadas

achados

Total de auditorias

Problemas de Risco Médio (1)

scripts/transfer_learning.py:59-66

Pretrained model downloads from HuggingFace

The transfer_learning.py script downloads pretrained models from HuggingFace (line 61: model_id='seyonec/ChemBERTa-zinc-base-v1'). Standard ML library behavior for transfer learning workflows.

Problemas de Baixo Risco (1)

scripts/transfer_learning.py:121-126

Model checkpoint storage to local directories

Scripts save model checkpoints to local directories (line 125: model_dir='./grover_pretrained'). Standard ML practice for model persistence.

Fatores de risco

⚡ Contém scripts (3)

scripts/predict_solubility.py:1-225 scripts/transfer_learning.py:1-376 scripts/graph_neural_network.py:1-339

🌐 Acesso à rede (1)

scripts/transfer_learning.py:59-66

📁 Acesso ao sistema de arquivos (2)

scripts/transfer_learning.py:121-126 scripts/graph_neural_network.py:191

⚙️ Comandos externos (3)

scripts/predict_solubility.py:14-16 scripts/transfer_learning.py:13-15 scripts/graph_neural_network.py:14-16

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

Segurança

Conformidade com especificações

O Que Você Pode Construir

Triagem de bibliotecas de compostos

Prever propriedades ADMET para grandes bibliotecas de compostos a fim de priorizar candidatos para síntese.

Construção de modelos preditivos

Treinar modelos personalizados de previsão de propriedades usando seus dados químicos proprietários.

Previsão de propriedades de materiais

Aplicar redes neurais de grafos de cristais para prever bandgap, energia de formação e outras propriedades de materiais.

Tente Estes Prompts

Previsão básica de solubilidade

Use DeepChem to predict aqueous solubility for these SMILES: CCO, CC(=O)O, c1ccccc1, CN1C=NC2=C1C(=O)N(C(=O)N2C)C

Treinar modelo de propriedades

Train a GCN model on my molecules.csv file to predict activity. The SMILES column is 'smiles' and target column is 'target'. Use ScaffoldSplitter for data splitting.

Aprendizado por transferência

Fine-tune ChemBERTa on the BBBP dataset using DeepChem. Use scaffold splitting and evaluate with ROC-AUC score.

Avaliação de benchmark

Evaluate GCN, GAT, and AttentiveFP models on Tox21 dataset using DeepChem. Compare ROC-AUC scores and report the best performing architecture.

Melhores Práticas

Use ScaffoldSplitter para dados moleculares para evitar vazamento de dados de estruturas semelhantes
Aplicar transformadores de normalização a características e alvos para melhor convergência do modelo
Começar com modelos mais simples (Random Forest + CircularFingerprint) antes de escalar para aprendizado profundo

Evitar

Usar divisão aleatória para conjuntos de dados moleculares causa vazamento de dados de compostos semelhantes
Treinar redes neurais profundas em conjuntos de dados pequenos (<1000 amostras) leva a overfitting
Ignorar a normalização de dados reduz o desempenho do modelo e a estabilidade do treinamento

Perguntas Frequentes

Qual featurizer devo usar?

Use CircularFingerprint para conjuntos de dados pequenos e ML tradicional. Use MolGraphConvFeaturizer para conjuntos de dados grandes e redes neurais de grafos.

Quais recursos computacionais preciso?

Redes neurais de grafos requerem GPU para treinamento. ML tradicional (Random Forest, XGBoost) executa eficientemente em CPU com conjuntos de dados menores.

Como instalo o DeepChem?

Execute: uv pip install deepchem. Para modelos PyTorch: uv pip install deepchem[torch]. Para todos os recursos: uv pip install deepchem[all].

Meus dados estão seguros ao usar modelos pré-treinados?

Sim. Seus dados são processados localmente. Os pesos dos modelos pré-treinados são baixados do HuggingFace, mas seus dados nunca saem do seu ambiente.

Por que meu modelo está com desempenho inferior?

Problemas comuns: dados insuficientes, escolha errada de featurizer, vazamento de dados por divisão aleatória ou épocas de treinamento insuficientes. Use ScaffoldSplitter e comece com baselines mais simples.

Como isso se compara a outros frameworks de ML?

O DeepChem é especializado em dados moleculares com carregadores, featurizers e benchmarks integrados. Para ML geral, use scikit-learn ou PyTorch diretamente.