Навыки molfeat
🧪

molfeat

Безопасно ⚙️ Внешние команды📁 Доступ к файловой системе🌐 Доступ к сети

Преобразование молекул в признаки машинного обучения

Также доступно от: davila7

Молекулярное машинное обучение требует преобразования химических структур в числовые представления. Molfeat предоставляет более 100 инструментов для преобразования строк SMILES в готовые для машинного обучения признаки для моделирования QSAR и разработки лекарств.

Поддерживает: Claude Codex Code(CC)
📊 70 Адекватно
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «molfeat». Преобразуйте аспирин (CC(=O)OC1=CC=CC=C1C(=O)O) в ECFP фингерпринт

Ожидаемый результат:

  • Сгенерирован ECFP фингерпринт с радиусом 3 и 2048 битами
  • Ненулевые биты: 45 активированных признаков
  • Плотность битов: 2,2% (разреженное представление)
  • Форма: (2048,) массив numpy
  • Готово для моделей машинного обучения

Использование «molfeat». Сравните ECFP, MACCS и дескрипторы RDKit для кофеина

Ожидаемый результат:

  • ECFP4: 2048-битный вектор с 52 ненулевыми признаками
  • MACCS: 167-битные структурные ключи с 28 истинными битами
  • RDKit2D: более 200 значений дескрипторов, включая LogP=0,43, TPSA=61,1
  • Объединённые признаки: 2415-мерный вектор

Аудит безопасности

Безопасно
v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

5
Просканировано файлов
2,234
Проанализировано строк
3
находки
4
Всего аудитов

Факторы риска

⚙️ Внешние команды (1)
📁 Доступ к файловой системе (1)
🌐 Доступ к сети (1)

Оценка качества

45
Архитектура
100
Сопровождаемость
87
Контент
21
Сообщество
100
Безопасность
78
Соответствие спецификации

Что вы можете построить

Создание QSAR моделей для свойств лекарств

Использование молекулярных фингерпринтов и дескрипторов для обучения моделей машинного обучения, предсказывающих свойства ADME, токсичность или биоактивность

Виртуальный скрининг библиотек соединений

Преобразование миллионов молекул в признаки для поиска сходства и предсказания активности против биологических мишеней

Анализ и кластеризация химического пространства

Генерация молекулярных эмбеддингов для визуализации и кластеризации химических библиотек для анализа разнообразия

Попробуйте эти промпты

Базовая генерация фингерпринтов
Используйте molfeat для преобразования этих SMILES в ECFP фингерпринты: CCO, CC(=O)O, c1ccccc1. Покажите код и форму вывода.
Пакетная обработка дескрипторов
Загрузите набор данных из 100 молекул и извлеките 2D дескрипторы RDKit с использованием molfeat с параллельной обработкой.
Эмбеддинги предобученных моделей
Используйте ChemBERTa для генерации эмбеддингов молекул, подобных лекарствам, и визуализируйте их с помощью PCA.
Оптимизация QSAR конвейера
Сравните признаки ECFP, MACCS и ChemBERTa для предсказания молекулярных свойств с использованием регрессии случайного леса.

Лучшие практики

  • Используйте n_jobs=-1 для параллельной обработки в многопроцессорных системах
  • Кэшируйте эмбеддинги предобученных моделей, чтобы избежать повторных вычислений
  • Обрабатывайте некорректные молекулы с ignore_errors=True для больших наборов данных

Избегать

  • Обработка по одной молекуле в циклах вместо пакетной обработки
  • Использование моделей глубокого обучения для простого поиска сходства, где достаточно фингерпринтов
  • Игнорирование обработки ошибок при обработке больших библиотек соединений

Часто задаваемые вопросы

В чём разница между калькуляторами и трансформерами?
Калькуляторы обрабатывают отдельные молекулы, а трансформеры работают с пакетами с параллелизацией и совместимостью с scikit-learn.
Какой инструмент использовать для QSAR моделирования?
Начните с фингерпринтов ECFP (радиус 2-3, 1024-2048 битов), поскольку они захватывают паттерны молекулярной связности, релевантные для биоактивности.
Как обрабатывать некорректные строки SMILES?
Установите ignore_errors=True в MoleculeTransformer, чтобы пропускать некорректные молекулы и продолжать обработку.
Можно ли объединить несколько инструментов?
Да, используйте FeatConcat для объединения различных типов признаков, таких как фингерпринты и дескрипторы, в единый вектор.
Почему предобученные модели работают медленнее фингерпринтов?
Модели глубокого обучения требуют вывода нейронной сети, в то время как фингерпринты используют предопределённые алгоритмы, но предлагают лучшие возможности переноса обучения.
Как сохранить и повторно использовать конфигурации инструментов?
Используйте transformer.to_state_yaml_file() для сохранения и MoleculeTransformer.from_state_yaml_file() для повторной загрузки конфигураций.

Сведения для разработчиков

Автор

K-Dense-AI

Лицензия

Apache-2.0 license

Ссылка

main

Структура файлов