技能 datamol
🧪

datamol

安全 ⚡ 包含腳本📁 檔案系統存取

使用 Datamol 分析分子结构

也可從以下取得: davila7

通过 Pythonic 接口高效处理化学数据。Datamol 简化了复杂的化学信息学操作,同时保持与 RDKit 生态系统的完全兼容性。

支援: Claude Codex Code(CC)
📊 70 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「datamol」。 Standardize these SMILES: OCCO, C(CO)O, ethanol

預期結果:

  • OCCO → CCO (ethanol 的规范 SMILES)
  • C(CO)O → CCO(相同分子,不同表示)
  • ethanol → None(无效 SMILES,返回 None)
  • 所有有效的乙醇表示标准化为相同的规范形式

正在使用「datamol」。 Compute descriptors for caffeine

預期結果:

  • 分子量:194.19 g/mol
  • LogP:0.61
  • 氢键供体:0
  • 氢键受体:6
  • TPSA:58.44 Ų
  • 芳香原子数:5

正在使用「datamol」。 Find similar molecules to aspirin

預期結果:

  • 为查询分子和库生成了 ECFP4 指纹
  • 计算了 Tanimoto 相似性矩阵
  • 识别出最相似的 5 个分子
  • 相似性评分范围从 0.72 到 0.85
  • 可视化了对齐的结构并标注了活性

安全審計

安全
v4 • 1/17/2026

All 593 static findings are false positives. This is a documentation-only skill containing markdown files with Python code examples. The analyzer misinterpreted markdown code formatting (backticks) as shell commands, chemistry terminology as cryptographic patterns, and RDKit method calls as system reconnaissance. No actual security vulnerabilities exist.

8
已掃描檔案
3,724
分析行數
2
發現項
4
審計總數

風險因素

⚡ 包含腳本 (1)
📁 檔案系統存取 (1)
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
87
內容
21
社群
100
安全
83
規範符合性

你能建構什麼

分析化合物库

处理和标准化分子数据集,计算类药性质,并识别有前景的候选化合物。

分子相似性分析

生成指纹,计算相似性矩阵,并对化合物进行聚类以进行虚拟筛选。

机器学习特征工程

提取分子描述符和指纹作为药物发现中预测建模的特征。

試試這些提示

基本分子处理
Use datamol to convert these SMILES strings to standardized molecules: CCO, c1ccccc1, CC(=O)O. Show the canonical SMILES for each.
计算分子性质
Calculate molecular weight, logP, H-bond donors and acceptors for these molecules: aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) and caffeine (CN1C=NC2=C1C(=O)N(C(=O)N2C)C).
聚类分子数据集
Generate ECFP fingerprints for these molecules and cluster them: benzene, toluene, phenol, benzoic acid, aniline. Use Tanimoto similarity with 0.3 cutoff.
3D 共构象分析
Generate 50 conformers for cyclohexane, cluster them by RMSD, and identify the most representative conformers. Calculate SASA for each.

最佳實務

  • 在使用外部来源的分子数据之前,始终对其进行标准化
  • 对于大型数据集使用并行处理(n_jobs=-1)以提高性能
  • 分子解析后检查 None 值以优雅地处理无效输入

避免

  • 处理外部分子数据时不要跳过标准化
  • 避免对超过 1000 个分子的数据集进行完整的 Butina 聚类
  • 不要不考虑特定相似性需求就使用默认指纹

常見問題

什么是 Datamol?
Datamol 是一个 Python 库,为 RDKit 提供简化的接口,用于分子化学信息学操作。
我需要单独安装 RDKit 吗?
是的,Datamol 是 RDKit 的包装器,因此需要同时安装两者:'uv pip install datamol rdkit'。
Datamol 能处理大型分子数据集吗?
是的,它支持大多数操作的并行处理,可以高效处理数千个分子。
Datamol 支持哪些文件格式?
SDF、SMILES、CSV、Excel、MOL、Mol2、PDB,以及通过 fsspec(S3、GCS、HTTP)远程文件。
如何可视化分子?
使用 dm.viz.to_image() 进行基本可视化,或使用 dm.viz.conformers() 进行 3D 共构象可视化。
Datamol 适合机器学习吗?
是的,它提供分子描述符和指纹,可用作机器学习模型的特征。