技能 molfeat
⚗️

molfeat

安全 ⚙️ 外部命令📁 文件系统访问🌐 网络访问

Generar características moleculares para ML

也可从以下获取: K-Dense-AI

Construir modelos de aprendizaje automático para datos moleculares requiere convertir estructuras químicas en representaciones numéricas. Molfeat proporciona más de 100 featurizers incluyendo ECFP, MACCS, descriptores y transformadores preentrenados como ChemBERTa para agilizar el modelado QSAR y el cribado virtual.

支持: Claude Codex Code(CC)
📊 70 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“molfeat”。 Featurizar ['CCO', 'CC(=O)O', 'c1ccccc1'] usando ECFP4 con radio 2

预期结果:

Forma de características: (3, 2048)

Primera molécula (Etanol, CCO):
- Bits distintos de cero: 156
- Densidad de bits: 7.6%

Segunda molécula (Ácido acético, CC(=O)O):
- Bits distintos de cero: 189
- Densidad de bits: 9.2%

Tercera molécula (Benceno, c1ccccc1):
- Bits distintos de cero: 248
- Densidad de bits: 12.1%

正在使用“molfeat”。 Comparar dimensiones de featurizer para MACCS, ECFP y RDKit 2D

预期结果:

Dimensiones de Featurizer:
- Claves MACCS: 167 dimensiones (muy rápido)
- ECFP4: 2048 dimensiones (rápido, propósito general)
- Descriptores RDKit 2D: más de 200 dimensiones (interpretable)
- Mordred: más de 1800 dimensiones (completo)
- ChemBERTa: 768 dimensiones (aprendizaje profundo)

安全审计

安全
v6 • 1/21/2026

All 389 static findings are false positives. The skill is a legitimate cheminformatics library for molecular featurization. Scanner detections are triggered by documentation code blocks and chemical terminology (e.g., C2 as carbon count, desc2D as 2D descriptors). No malicious code patterns found.

5
已扫描文件
5,318
分析行数
3
发现项
6
审计总数
审计者: claude 查看审计历史 →

质量评分

45
架构
100
可维护性
87
内容
20
社区
100
安全
78
规范符合性

你能构建什么

Construir modelos de predicción QSAR

Convertir conjuntos de datos moleculares a características numéricas usando ECFP o descriptores, luego entrenar modelos Random Forest, SVM o XGBoost para predicción de propiedades.

Cribar bibliotecas de compuestos

Featurizar grandes bases de datos moleculares y aplicar clasificadores entrenados para identificar candidatos prometedores a fármacos mediante cribado virtual.

Encontrar moléculas similares

Generar huellas para moléculas de consulta y compuestos de base de datos, luego calcular puntuaciones de similitud para búsqueda basada en estructura.

试试这些提示

Featurización molecular básica
Usa molfeat para convertir esta lista de SMILES a huellas ECFP con radio 3 y 2048 bits:

{smit_list}
Comparación de múltiples featurizers
Compara ECFP, MACCS y descriptores RDKit 2D usando molfeat en este conjunto de datos. Muestra la forma de las características de salida para cada uno:

{smiles_list}
Pipeline de modelo QSAR
Construye un pipeline completo molfeat + scikit-learn usando huellas ECFP para predecir valores logP para este conjunto de datos. Incluye validación cruzada:

{smiles_and_values}
Embeddings de transformer preentrenado
Usa el transformer preentrenado ChemBERTa de molfeat para generar embeddings moleculares para cribado virtual. Aplica el modelo con procesamiento paralelo:

{large_smiles_list}

最佳实践

  • Usar procesamiento paralelo (n_jobs=-1) para featurización por lotes para utilizar todos los núcleos de CPU
  • Cachear modelos de transformer preentrenados para evitar descargas repetidas
  • Guardar configuraciones de featurizer con to_state_yaml_file() para investigación reproducible

避免

  • Procesar moléculas una a la vez en un bucle en lugar de usar procesamiento por lotes
  • Usar modelos de aprendizaje profundo para conjuntos de datos pequeños cuando las huellas serían suficientes
  • Ignorar SMILES inválidos sin registro, lo que oculta problemas de calidad de datos

常见问题

¿Cuál es la diferencia entre calculadores y transformadores en molfeat?
Los calculadores (molfeat.calc) procesan moléculas individuales y devuelven vectores de características. Los transformadores (molfeat.trans) envuelven calculadores para procesamiento por lotes con compatibilidad con scikit-learn y paralelización. Usa calculadores para bucles personalizados, transformadores para pipelines.
¿Con qué featurizer debería comenzar para modelado QSAR?
ECFP4 (Extended-Connectivity Fingerprint con radio 2) es el punto de partida más popular. Captura subestructuras circulares alrededor de cada átomo y funciona bien con la mayoría de los algoritmos de ML. Para modelos interpretables, prueba los descriptores RDKit 2D.
¿Cómo manejo conjuntos de datos grandes con molfeat?
Usa MoleculeTransformer con n_jobs=-1 para procesamiento paralelo. Para conjuntos de datos muy grandes, procesa en fragmentos usando un patrón de generador. Habilita ignore_errors=True para omitir moléculas inválidas. Cachea modelos preentrenados para evitar descargas repetidas.
¿Se puede usar molfeat con pipelines de scikit-learn?
Sí. MoleculeTransformer es un transformador compatible con scikit-learn. Puedes incluirlo directamente en objetos Pipeline junto con clasificadores o regresores para flujos de trabajo de extremo a extremo desde SMILES hasta predicciones.
¿Qué modelos preentrenados están disponibles en molfeat?
Molfeat incluye ChemBERTa (77M compuestos), ChemGPT (autoregresivo), Graphormer (química cuántica) y modelos GIN. Ver modelos disponibles con ModelStore().available_models o buscar por nombre.
¿Cómo guardo y recargo una configuración de featurizer?
Usa transformer.to_state_yaml_file('config.yml') para guardar. Recarga con MoleculeTransformer.from_state_yaml_file('config.yml'). Esto preserva todos los parámetros para resultados reproducibles entre sesiones.