🧪

deepchem

Name: deepchem
Author: davila7

Riesgo bajo ⚡ Contiene scripts🌐 Acceso a red📁 Acceso al sistema de archivos⚙️ Comandos externos

Predecir propiedades moleculares para el descubrimiento de fármacos

También disponible en: K-Dense-AI

El descubrimiento de fármacos requiere predecir propiedades moleculares como solubilidad y toxicidad. DeepChem proporciona modelos preentrenados y redes neuronales de grafos para predecir estas propiedades a partir de estructuras moleculares.

Soporta: Claude Codex Code(CC)

📊 71 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "deepchem". Predict solubility for caffeine using DeepChem

Resultado esperado:

Predicted solubility for CN1C=NC2=C1C(=O)N(C(=O)N2C)C: -1.190 log(mol/L)
Model: MultitaskRegressor with CircularFingerprint featurizer
Dataset: Delaney benchmark, R²=0.89 on test set

Usando "deepchem". Train a GCN model on Tox21 dataset

Resultado esperado:

Training GCN on 12 toxicity prediction tasks
Using scaffold splitting to prevent data leakage
Test ROC-AUC: 0.782 average across all tasks

Auditoría de seguridad

Riesgo bajo

v5 • 1/17/2026

Legitimate molecular ML toolkit with standard ML library behaviors. Downloads pretrained models from HuggingFace and saves checkpoints locally. No suspicious network endpoints, credential access, or code execution patterns. Static findings are false positives from markdown documentation parsing.

Archivos escaneados

2,639

Líneas analizadas

hallazgos

Auditorías totales

Problemas de riesgo medio (1)

scripts/transfer_learning.py:59-66

Pretrained model downloads from HuggingFace

The transfer_learning.py script downloads pretrained models from HuggingFace (line 61: model_id='seyonec/ChemBERTa-zinc-base-v1'). Standard ML library behavior for transfer learning workflows.

Problemas de riesgo bajo (1)

scripts/transfer_learning.py:121-126

Model checkpoint storage to local directories

Scripts save model checkpoints to local directories (line 125: model_dir='./grover_pretrained'). Standard ML practice for model persistence.

Factores de riesgo

⚡ Contiene scripts (3)

scripts/predict_solubility.py:1-225 scripts/transfer_learning.py:1-376 scripts/graph_neural_network.py:1-339

🌐 Acceso a red (1)

scripts/transfer_learning.py:59-66

📁 Acceso al sistema de archivos (2)

scripts/transfer_learning.py:121-126 scripts/graph_neural_network.py:191

⚙️ Comandos externos (3)

scripts/predict_solubility.py:14-16 scripts/transfer_learning.py:13-15 scripts/graph_neural_network.py:14-16

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Filtrar bibliotecas de compuestos

Predecir propiedades ADMET para bibliotecas grandes de compuestos para priorizar candidatos para síntesis.

Construir modelos predictivos

Entrenar modelos personalizados de predicción de propiedades utilizando sus datos químicos propietarios.

Predecir propiedades de materiales

Aplicar redes neuronales de grafos de cristales para predecir band gap, energía de formación y otras propiedades de materiales.

Prueba estos prompts

Predicción básica de solubilidad

Use DeepChem to predict aqueous solubility for these SMILES: CCO, CC(=O)O, c1ccccc1, CN1C=NC2=C1C(=O)N(C(=O)N2C)C

Entrenar modelo de propiedades

Train a GCN model on my molecules.csv file to predict activity. The SMILES column is 'smiles' and target column is 'target'. Use ScaffoldSplitter for data splitting.

Aprendizaje por transferencia

Fine-tune ChemBERTa on the BBBP dataset using DeepChem. Use scaffold splitting and evaluate with ROC-AUC score.

Evaluación de referencia

Evaluate GCN, GAT, and AttentiveFP models on Tox21 dataset using DeepChem. Compare ROC-AUC scores and report the best performing architecture.

Mejores prácticas

Usar ScaffoldSplitter para datos moleculares para prevenir fuga de datos de estructuras similares
Aplicar transformadores de normalización a características y objetivos para mejor convergencia del modelo
Comenzar con modelos más simples (Random Forest + CircularFingerprint) antes de escalar a aprendizaje profundo

Evitar

Usar división aleatoria para conjuntos de datos moleculares causa fuga de datos de compuestos similares
Entrenar redes neuronales profundas en conjuntos de datos pequeños (<1000 muestras) conduce a sobreajuste
Omitir la normalización de datos reduce el rendimiento del modelo y la estabilidad del entrenamiento

Preguntas frecuentes

¿Qué featurizer debo usar?

Usar CircularFingerprint para conjuntos de datos pequeños y ML tradicional. Usar MolGraphConvFeaturizer para conjuntos de datos grandes y redes neuronales de grafos.

¿Qué recursos computacionales necesito?

Las redes neuronales de grafos requieren GPU para entrenamiento. ML tradicional (Random Forest, XGBoost) se ejecuta eficientemente en CPU con conjuntos de datos más pequeños.

¿Cómo instalo DeepChem?

Ejecutar: uv pip install deepchem. Para modelos PyTorch: uv pip install deepchem[torch]. Para todas las características: uv pip install deepchem[all].

¿Están seguros mis datos al usar modelos preentrenados?

Sí. Sus datos se procesan localmente. Los pesos de modelos preentrenados se descargan de HuggingFace pero sus datos nunca salen de su entorno.

¿Por qué mi modelo tiene bajo rendimiento?

Problemas comunes: datos insuficientes, elección incorrecta de featurizer, fuga de datos por división aleatoria, o épocas de entrenamiento insuficientes. Usar ScaffoldSplitter y comenzar con líneas base más simples.

¿Cómo se compara esto con otros frameworks de ML?

DeepChem se especializa en datos moleculares con cargadores, featurizers y referencias integrados. Para ML general, usar scikit-learn o PyTorch directamente.