技能 molfeat
🧪

molfeat

安全 ⚙️ 外部命令📁 檔案系統存取🌐 網路存取

將分子轉換為機器學習特徵

也可從以下取得: davila7

分子機器學習需要將化學結構轉換為數值表示。Molfeat 提供 100 多種特徵化工具,可將 SMILES 字串轉換為可立即用於機器學習的特徵,用於 QSAR 建模和藥物發現。

支援: Claude Codex Code(CC)
📊 70 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「molfeat」。 將阿斯匹靈 (CC(=O)OC1=CC=CC=C1C(=O)O) 轉換為 ECFP 指紋

預期結果:

  • 生成具有半徑 3 和 2048 位元的 ECFP 指紋
  • 非零位元:啟用 45 個特徵
  • 位元密度:2.2%(稀疏表示)
  • 形狀:(2048,) numpy 陣列
  • 可立即用於機器學習模型

正在使用「molfeat」。 比較咖啡因的 ECFP、MACCS 和 RDKit 描述符

預期結果:

  • ECFP4:2048 位元向量,包含 52 個非零特徵
  • MACCS:167 位元結構金鑰,包含 28 個為真的位元
  • RDKit2D:200 多個描述符值,包括 LogP=0.43、TPSA=61.1
  • 組合特徵:2415 維向量

安全審計

安全
v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

5
已掃描檔案
2,234
分析行數
3
發現項
4
審計總數

風險因素

⚙️ 外部命令 (1)
📁 檔案系統存取 (1)
🌐 網路存取 (1)
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
87
內容
21
社群
100
安全
78
規範符合性

你能建構什麼

建構藥物性質的 QSAR 模型

使用分子指紋和描述符訓練機器學習模型,預測 ADME 性質、毒性或生物活性

化合物庫的虛擬篩選

將數百萬分子轉換為特徵,用於相似性搜索和對生物靶點的活性預測

化學空間分析和聚類

生成分子嵌入以可視化和聚類化學庫,進行多樣性分析

試試這些提示

基本指紋生成
使用 molfeat 將這些 SMILES 轉換為 ECFP 指紋:CCO、CC(=O)O、c1ccccc1。顯示程式碼和輸出形狀。
批次處理描述符
載入包含 100 個分子的數據集,並使用 molfeat 透過平行處理提取 RDKit 2D 描述符。
預訓練模型嵌入
使用 ChemBERTa 為類藥分子生成嵌入,並使用 PCA 進行視覺化。
QSAR 管線優化
比較 ECFP、MACCS 和 ChemBERTa 特徵,用於預測分子性質的隨機森林回歸。

最佳實務

  • 在多核系統上使用 n_jobs=-1 進行平行處理
  • 快取預訓練模型嵌入以避免重新計算
  • 處理大型數據集時使用 ignore_errors=True 處理無效分子

避免

  • 在迴圈中一次處理一個分子而非批次處理
  • 在指紋方法就足夠的簡單相似性搜索中使用深度學習模型
  • 處理大型化合物庫時忽略錯誤處理

常見問題

計算器和轉換器有什麼區別?
計算器處理單個分子,而轉換器則處理批次,支援平行化和 scikit-learn 相容性。
我應該為 QSAR 建模使用哪種特徵化工具?
從 ECFP 指紋開始(半徑 2-3,1024-2048 位元),因為它們捕獲與生物活性相關的分子連接模式。
如何處理無效的 SMILES 字串?
在 MoleculeTransformer 中設定 ignore_errors=True 以跳過無效分子並繼續處理。
我可以組合多種特徵化工具嗎?
可以,使用 FeatConcat 將不同類型的特徵(如指紋和描述符)組合成單一向量。
為什麼預訓練模型比指紋慢?
深度學習模型需要神經網路推論,而指紋使用預定義演算法,但提供更好的遷移學習能力。
如何儲存和重複使用特徵化工具配置?
使用 transformer.to_state_yaml_file() 儲存,MoleculeTransformer.from_state_yaml_file() 重新載入配置。

開發者詳情