技能 datamol

🧪

datamol

Name: datamol
Author: K-Dense-AI

安全 ⚡ 包含脚本📁 文件系统访问

使用 Datamol 分析分子结构

也可从以下获取: davila7

通过 Pythonic 接口高效处理化学数据。Datamol 简化了复杂的化学信息学操作，同时保持与 RDKit 生态系统的完全兼容性。

支持: Claude Codex Code(CC)

📊 70 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“datamol”。 Standardize these SMILES: OCCO, C(CO)O, ethanol

预期结果:

OCCO → CCO (ethanol 的规范 SMILES)
C(CO)O → CCO（相同分子，不同表示）
ethanol → None（无效 SMILES，返回 None）
所有有效的乙醇表示标准化为相同的规范形式

正在使用“datamol”。 Compute descriptors for caffeine

预期结果:

分子量：194.19 g/mol
LogP：0.61
氢键供体：0
氢键受体：6
TPSA：58.44 Å²
芳香原子数：5

正在使用“datamol”。 Find similar molecules to aspirin

预期结果:

为查询分子和库生成了 ECFP4 指纹
计算了 Tanimoto 相似性矩阵
识别出最相似的 5 个分子
相似性评分范围从 0.72 到 0.85
可视化了对齐的结构并标注了活性

安全审计

安全

v4 • 1/17/2026

All 593 static findings are false positives. This is a documentation-only skill containing markdown files with Python code examples. The analyzer misinterpreted markdown code formatting (backticks) as shell commands, chemistry terminology as cryptographic patterns, and RDKit method calls as system reconnaissance. No actual security vulnerabilities exist.

已扫描文件

3,724

分析行数

发现项

审计总数

风险因素

⚡ 包含脚本 (1)

SKILL.md:1-704

📁 文件系统访问 (1)

references/core_api.md:1

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

分析化合物库

处理和标准化分子数据集，计算类药性质，并识别有前景的候选化合物。

分子相似性分析

生成指纹，计算相似性矩阵，并对化合物进行聚类以进行虚拟筛选。

机器学习特征工程

提取分子描述符和指纹作为药物发现中预测建模的特征。

试试这些提示

基本分子处理

Use datamol to convert these SMILES strings to standardized molecules: CCO, c1ccccc1, CC(=O)O. Show the canonical SMILES for each.

计算分子性质

Calculate molecular weight, logP, H-bond donors and acceptors for these molecules: aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) and caffeine (CN1C=NC2=C1C(=O)N(C(=O)N2C)C).

聚类分子数据集

Generate ECFP fingerprints for these molecules and cluster them: benzene, toluene, phenol, benzoic acid, aniline. Use Tanimoto similarity with 0.3 cutoff.

3D 共构象分析

Generate 50 conformers for cyclohexane, cluster them by RMSD, and identify the most representative conformers. Calculate SASA for each.

最佳实践

在使用外部来源的分子数据之前，始终对其进行标准化
对于大型数据集使用并行处理（n_jobs=-1）以提高性能
分子解析后检查 None 值以优雅地处理无效输入

避免

处理外部分子数据时不要跳过标准化
避免对超过 1000 个分子的数据集进行完整的 Butina 聚类
不要不考虑特定相似性需求就使用默认指纹

常见问题

什么是 Datamol？

Datamol 是一个 Python 库，为 RDKit 提供简化的接口，用于分子化学信息学操作。

我需要单独安装 RDKit 吗？

是的，Datamol 是 RDKit 的包装器，因此需要同时安装两者：'uv pip install datamol rdkit'。

Datamol 能处理大型分子数据集吗？

是的，它支持大多数操作的并行处理，可以高效处理数千个分子。

Datamol 支持哪些文件格式？

SDF、SMILES、CSV、Excel、MOL、Mol2、PDB，以及通过 fsspec（S3、GCS、HTTP）远程文件。

如何可视化分子？

使用 dm.viz.to_image() 进行基本可视化，或使用 dm.viz.conformers() 进行 3D 共构象可视化。

Datamol 适合机器学习吗？

是的，它提供分子描述符和指纹，可用作机器学习模型的特征。

开发者详情

作者

K-Dense-AI

许可证

Apache-2.0 license

仓库

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/datamol

引用

main

文件结构

📁 references/

📄 conformers_module.md

📄 core_api.md

📄 descriptors_viz.md

📄 fragments_scaffolds.md

📄 io_module.md

📄 reactions_data.md

📄 SKILL.md