Навыки datamol
🧪

datamol

Безопасно ⚡ Содержит скрипты📁 Доступ к файловой системе

Анализируйте молекулярные структуры с Datamol

Также доступно от: davila7

Эффективно обрабатывайте химические данные с Python-подобным интерфейсом к RDKit. Datamol упрощает сложные операции хемоинформатики, сохраняя полную совместимость с экосистемой RDKit.

Поддерживает: Claude Codex Code(CC)
📊 70 Адекватно
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «datamol». Standardize these SMILES: OCCO, C(CO)O, ethanol

Ожидаемый результат:

  • OCCO → CCO (канонический SMILES для этанола)
  • C(CO)O → CCO (та же молекула, иное представление)
  • ethanol → None (некорректный SMILES, возвращает None)
  • Все корректные представления этанола стандартизируются к одной канонической форме

Использование «datamol». Compute descriptors for caffeine

Ожидаемый результат:

  • Молекулярная масса: 194.19 g/mol
  • LogP: 0.61
  • Доноры H-связей: 0
  • Акцепторы H-связей: 6
  • TPSA: 58.44 Ų
  • Число ароматических атомов: 5

Использование «datamol». Find similar molecules to aspirin

Ожидаемый результат:

  • Сгенерированы отпечатки ECFP4 для запроса и библиотеки
  • Рассчитана матрица сходства Tanimoto
  • Определены топ-5 наиболее похожих молекул
  • Оценки сходства находятся в диапазоне от 0.72 до 0.85
  • Визуализированы выровненные структуры с метками активности

Аудит безопасности

Безопасно
v4 • 1/17/2026

All 593 static findings are false positives. This is a documentation-only skill containing markdown files with Python code examples. The analyzer misinterpreted markdown code formatting (backticks) as shell commands, chemistry terminology as cryptographic patterns, and RDKit method calls as system reconnaissance. No actual security vulnerabilities exist.

8
Просканировано файлов
3,724
Проанализировано строк
2
находки
4
Всего аудитов

Факторы риска

⚡ Содержит скрипты (1)
📁 Доступ к файловой системе (1)

Оценка качества

45
Архитектура
100
Сопровождаемость
87
Контент
21
Сообщество
100
Безопасность
83
Соответствие спецификации

Что вы можете построить

Анализ библиотек соединений

Обрабатывайте и стандартизируйте молекулярные наборы данных, вычисляйте свойства, связанные с лекарственностью, и выявляйте перспективные кандидаты.

Анализ молекулярного сходства

Генерируйте отпечатки, рассчитывайте матрицы сходства и кластеризуйте соединения для кампаний виртуального скрининга.

Фиче-инжиниринг для ML

Извлекайте молекулярные дескрипторы и отпечатки в качестве признаков для предиктивного моделирования в разработке лекарств.

Попробуйте эти промпты

Базовая обработка молекул
Use datamol to convert these SMILES strings to standardized molecules: CCO, c1ccccc1, CC(=O)O. Show the canonical SMILES for each.
Вычисление молекулярных свойств
Calculate molecular weight, logP, H-bond donors and acceptors for these molecules: aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) and caffeine (CN1C=NC2=C1C(=O)N(C(=O)N2C)C).
Кластеризация молекулярных наборов данных
Generate ECFP fingerprints for these molecules and cluster them: benzene, toluene, phenol, benzoic acid, aniline. Use Tanimoto similarity with 0.3 cutoff.
Анализ 3D-конформеров
Generate 50 conformers for cyclohexane, cluster them by RMSD, and identify the most representative conformers. Calculate SASA for each.

Лучшие практики

  • Всегда стандартизируйте молекулы из внешних источников перед анализом
  • Используйте параллельную обработку (n_jobs=-1) для больших наборов данных, чтобы повысить производительность
  • Проверяйте значения None после парсинга молекул, чтобы корректно обрабатывать некорректные входные данные

Избегать

  • Не пропускайте стандартизацию при работе с внешними молекулярными данными
  • Избегайте полной кластеризации Butina для наборов данных больше 1000 молекул
  • Не используйте отпечатки по умолчанию, не учитывая ваши конкретные потребности в сходстве

Часто задаваемые вопросы

Что такое Datamol?
Datamol — это библиотека Python, которая предоставляет упрощенный интерфейс к RDKit для операций молекулярной хемоинформатики.
Нужно ли отдельно устанавливать RDKit?
Да, Datamol — это обертка над RDKit, поэтому нужно установить оба пакета: 'uv pip install datamol rdkit'.
Может ли Datamol работать с большими молекулярными наборами данных?
Да, он поддерживает параллельную обработку для большинства операций и может эффективно обрабатывать тысячи молекул.
Какие форматы файлов поддерживает Datamol?
SDF, SMILES, CSV, Excel, MOL, Mol2, PDB и удаленные файлы через fsspec (S3, GCS, HTTP).
Как визуализировать молекулы?
Используйте dm.viz.to_image() для базовой визуализации или dm.viz.conformers() для визуализации 3D-конформеров.
Подходит ли Datamol для машинного обучения?
Да, он предоставляет молекулярные дескрипторы и отпечатки, которые можно использовать как признаки для ML-моделей.

Сведения для разработчиков

Автор

K-Dense-AI

Лицензия

Apache-2.0 license

Ссылка

main

Структура файлов