Construir modelos de aprendizaje automático para datos moleculares requiere convertir estructuras químicas en representaciones numéricas. Molfeat proporciona más de 100 featurizers incluyendo ECFP, MACCS, descriptores y transformadores preentrenados como ChemBERTa para agilizar el modelado QSAR y el cribado virtual.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“molfeat”。 Featurizar ['CCO', 'CC(=O)O', 'c1ccccc1'] usando ECFP4 con radio 2
预期结果:
Forma de características: (3, 2048)
Primera molécula (Etanol, CCO):
- Bits distintos de cero: 156
- Densidad de bits: 7.6%
Segunda molécula (Ácido acético, CC(=O)O):
- Bits distintos de cero: 189
- Densidad de bits: 9.2%
Tercera molécula (Benceno, c1ccccc1):
- Bits distintos de cero: 248
- Densidad de bits: 12.1%
正在使用“molfeat”。 Comparar dimensiones de featurizer para MACCS, ECFP y RDKit 2D
预期结果:
Dimensiones de Featurizer:
- Claves MACCS: 167 dimensiones (muy rápido)
- ECFP4: 2048 dimensiones (rápido, propósito general)
- Descriptores RDKit 2D: más de 200 dimensiones (interpretable)
- Mordred: más de 1800 dimensiones (completo)
- ChemBERTa: 768 dimensiones (aprendizaje profundo)
安全审计
安全All 389 static findings are false positives. The skill is a legitimate cheminformatics library for molecular featurization. Scanner detections are triggered by documentation code blocks and chemical terminology (e.g., C2 as carbon count, desc2D as 2D descriptors). No malicious code patterns found.
风险因素
质量评分
你能构建什么
Construir modelos de predicción QSAR
Convertir conjuntos de datos moleculares a características numéricas usando ECFP o descriptores, luego entrenar modelos Random Forest, SVM o XGBoost para predicción de propiedades.
Cribar bibliotecas de compuestos
Featurizar grandes bases de datos moleculares y aplicar clasificadores entrenados para identificar candidatos prometedores a fármacos mediante cribado virtual.
Encontrar moléculas similares
Generar huellas para moléculas de consulta y compuestos de base de datos, luego calcular puntuaciones de similitud para búsqueda basada en estructura.
试试这些提示
Usa molfeat para convertir esta lista de SMILES a huellas ECFP con radio 3 y 2048 bits:
{smit_list}Compara ECFP, MACCS y descriptores RDKit 2D usando molfeat en este conjunto de datos. Muestra la forma de las características de salida para cada uno:
{smiles_list}Construye un pipeline completo molfeat + scikit-learn usando huellas ECFP para predecir valores logP para este conjunto de datos. Incluye validación cruzada:
{smiles_and_values}Usa el transformer preentrenado ChemBERTa de molfeat para generar embeddings moleculares para cribado virtual. Aplica el modelo con procesamiento paralelo:
{large_smiles_list}最佳实践
- Usar procesamiento paralelo (n_jobs=-1) para featurización por lotes para utilizar todos los núcleos de CPU
- Cachear modelos de transformer preentrenados para evitar descargas repetidas
- Guardar configuraciones de featurizer con to_state_yaml_file() para investigación reproducible
避免
- Procesar moléculas una a la vez en un bucle en lugar de usar procesamiento por lotes
- Usar modelos de aprendizaje profundo para conjuntos de datos pequeños cuando las huellas serían suficientes
- Ignorar SMILES inválidos sin registro, lo que oculta problemas de calidad de datos