molfeat
Преобразование молекул в признаки машинного обучения
Также доступно от: davila7
Молекулярное машинное обучение требует преобразования химических структур в числовые представления. Molfeat предоставляет более 100 инструментов для преобразования строк SMILES в готовые для машинного обучения признаки для моделирования QSAR и разработки лекарств.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «molfeat». Преобразуйте аспирин (CC(=O)OC1=CC=CC=C1C(=O)O) в ECFP фингерпринт
Ожидаемый результат:
- Сгенерирован ECFP фингерпринт с радиусом 3 и 2048 битами
- Ненулевые биты: 45 активированных признаков
- Плотность битов: 2,2% (разреженное представление)
- Форма: (2048,) массив numpy
- Готово для моделей машинного обучения
Использование «molfeat». Сравните ECFP, MACCS и дескрипторы RDKit для кофеина
Ожидаемый результат:
- ECFP4: 2048-битный вектор с 52 ненулевыми признаками
- MACCS: 167-битные структурные ключи с 28 истинными битами
- RDKit2D: более 200 значений дескрипторов, включая LogP=0,43, TPSA=61,1
- Объединённые признаки: 2415-мерный вектор
Аудит безопасности
БезопасноThe molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.
Факторы риска
⚙️ Внешние команды (1)
📁 Доступ к файловой системе (1)
🌐 Доступ к сети (1)
Оценка качества
Что вы можете построить
Создание QSAR моделей для свойств лекарств
Использование молекулярных фингерпринтов и дескрипторов для обучения моделей машинного обучения, предсказывающих свойства ADME, токсичность или биоактивность
Виртуальный скрининг библиотек соединений
Преобразование миллионов молекул в признаки для поиска сходства и предсказания активности против биологических мишеней
Анализ и кластеризация химического пространства
Генерация молекулярных эмбеддингов для визуализации и кластеризации химических библиотек для анализа разнообразия
Попробуйте эти промпты
Используйте molfeat для преобразования этих SMILES в ECFP фингерпринты: CCO, CC(=O)O, c1ccccc1. Покажите код и форму вывода.
Загрузите набор данных из 100 молекул и извлеките 2D дескрипторы RDKit с использованием molfeat с параллельной обработкой.
Используйте ChemBERTa для генерации эмбеддингов молекул, подобных лекарствам, и визуализируйте их с помощью PCA.
Сравните признаки ECFP, MACCS и ChemBERTa для предсказания молекулярных свойств с использованием регрессии случайного леса.
Лучшие практики
- Используйте n_jobs=-1 для параллельной обработки в многопроцессорных системах
- Кэшируйте эмбеддинги предобученных моделей, чтобы избежать повторных вычислений
- Обрабатывайте некорректные молекулы с ignore_errors=True для больших наборов данных
Избегать
- Обработка по одной молекуле в циклах вместо пакетной обработки
- Использование моделей глубокого обучения для простого поиска сходства, где достаточно фингерпринтов
- Игнорирование обработки ошибок при обработке больших библиотек соединений
Часто задаваемые вопросы
В чём разница между калькуляторами и трансформерами?
Какой инструмент использовать для QSAR моделирования?
Как обрабатывать некорректные строки SMILES?
Можно ли объединить несколько инструментов?
Почему предобученные модели работают медленнее фингерпринтов?
Как сохранить и повторно использовать конфигурации инструментов?
Сведения для разработчиков
Автор
K-Dense-AIЛицензия
Apache-2.0 license
Репозиторий
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/molfeatСсылка
main
Структура файлов