技能 molfeat
🧪

molfeat

安全 ⚙️ 外部命令📁 檔案系統存取🌐 網路存取

将分子转换为机器学习特征

也可從以下取得: davila7

分子机器学习需要将化学结构转换为数值表示。Molfeat 提供 100+ 种特征化器,将 SMILES 字符串转换为适用于 QSAR 建模和药物发现的机器学习特征。

支援: Claude Codex Code(CC)
📊 70 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「molfeat」。 Convert aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) to ECFP fingerprint

預期結果:

  • 生成半径为 3、2048 位的 ECFP 指纹
  • 非零位:激活了 45 个特征
  • 位密度:2.2%(稀疏表示)
  • 形状:(2048,) numpy array
  • 可用于机器学习模型

正在使用「molfeat」。 Compare ECFP, MACCS, and RDKit descriptors for caffeine

預期結果:

  • ECFP4:2048 位向量,含 52 个非零特征
  • MACCS:167 位结构键,28 个为真位
  • RDKit2D:200+ 个描述符值,包括 LogP=0.43、TPSA=61.1
  • 组合特征:2415 维向量

安全審計

安全
v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

5
已掃描檔案
2,234
分析行數
3
發現項
4
審計總數

風險因素

⚙️ 外部命令 (1)
📁 檔案系統存取 (1)
🌐 網路存取 (1)
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
87
內容
20
社群
100
安全
78
規範符合性

你能建構什麼

为药物属性构建 QSAR 模型

使用分子指纹和描述符训练机器学习模型,以预测 ADME 属性、毒性或生物活性

化合物库的虚拟筛选

将数百万个分子转换为特征,用于相似性搜索和针对生物靶点的活性预测

化学空间分析与聚类

生成分子嵌入以可视化并聚类化学库,用于多样性分析

試試這些提示

基础指纹生成
Use molfeat to convert these SMILES to ECFP fingerprints: CCO, CC(=O)O, c1ccccc1. Show the code and output shape.
批处理描述符
Load a dataset of 100 molecules and extract RDKit 2D descriptors using molfeat with parallel processing.
预训练模型嵌入
Use ChemBERTa to generate embeddings for drug-like molecules and visualize them with PCA.
QSAR 流水线优化
Compare ECFP, MACCS, and ChemBERTa features for predicting molecular properties using random forest regression.

最佳實務

  • 在多核系统上使用 n_jobs=-1 进行并行处理
  • 缓存预训练模型嵌入以避免重复计算
  • 对于大型数据集,使用 ignore_errors=True 处理无效分子

避免

  • 在循环中逐个处理分子而非批处理
  • 在指纹已足够的简单相似性搜索中使用深度学习模型
  • 在处理大型化合物库时忽略错误处理

常見問題

计算器和转换器有什么区别?
计算器处理单个分子,而转换器可并行处理批量分子并与 scikit-learn 兼容。
QSAR 建模应使用哪种特征化器?
从 ECFP 指纹开始(半径 2-3、1024-2048 位),它们能捕捉与生物活性相关的分子连接模式。
如何处理无效的 SMILES 字符串?
在 MoleculeTransformer 中设置 ignore_errors=True 以跳过无效分子并继续处理。
能否组合多个特征化器?
可以,使用 FeatConcat 将指纹和描述符等不同特征类型组合成单一向量。
为什么预训练模型比指纹慢?
深度学习模型需要神经网络推理,而指纹使用预定义算法,但具备更好的迁移学习能力。
如何保存并复用特征化器配置?
使用 transformer.to_state_yaml_file() 保存,并用 MoleculeTransformer.from_state_yaml_file() 重新加载配置。

開發者詳情