🧪

molfeat

Name: molfeat
Author: K-Dense-AI

Sûr ⚙️ Commandes externes📁 Accès au système de fichiers🌐 Accès réseau

Convertir des molécules en caractéristiques ML

Également disponible depuis: davila7

L'apprentissage automatique moléculaire nécessite la conversion de structures chimiques en représentations numériques. Molfeat fournit plus de 100 featurizers pour transformer les chaînes SMILES en caractéristiques prêtes pour l'apprentissage automatique pour la modélisation QSAR et la découverte de médicaments.

Prend en charge: Claude Codex Code(CC)

📊 70 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "molfeat". Convertir l'aspirine (CC(=O)OC1=CC=CC=C1C(=O)O) en empreinte ECFP

Résultat attendu:

Empreinte ECFP générée avec un rayon de 3 et 2048 bits
Bits non nuls : 45 caractéristiques activées
Densité de bits : 2,2% (représentation creuse)
Forme : tableau numpy (2048,)
Prêt pour les modèles d'apprentissage automatique

Utilisation de "molfeat". Comparer ECFP, MACCS et descripteurs RDKit pour la caféine

Résultat attendu:

ECFP4 : vecteur de 2048 bits avec 52 caractéristiques non nulles
MACCS : clés structurelles de 167 bits avec 28 bits vrais
RDKit2D : plus de 200 valeurs de descripteurs incluant LogP=0,43, TPSA=61,1
Caractéristiques combinées : vecteur de 2415 dimensions

Audit de sécurité

Sûr

v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

Fichiers analysés

2,234

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚙️ Commandes externes (1)

SKILL.md:28-497

📁 Accès au système de fichiers (1)

SKILL.md:399-400

🌐 Accès réseau (1)

SKILL.md:505-508

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Construire des modèles QSAR pour les propriétés des médicaments

Utiliser les empreintes moléculaires et les descripteurs pour entraîner des modèles d'apprentissage automatique prédisant les propriétés ADME, la toxicité ou la bioactivité

Criblage virtuel de bibliothèques de composés

Convertir des millions de molécules en caractéristiques pour la recherche de similarité et la prédiction d'activité contre des cibles biologiques

Analyse et regroupement de l'espace chimique

Générer des embeddings moléculaires pour visualiser et regrouper des bibliothèques chimiques pour l'analyse de diversité

Essayez ces prompts

Génération d'empreintes de base

Utiliser molfeat pour convertir ces SMILES en empreintes ECFP : CCO, CC(=O)O, c1ccccc1. Montrer le code et la forme de sortie.

Traitement par lots des descripteurs

Charger un ensemble de données de 100 molécules et extraire les descripteurs 2D RDKit utilisant molfeat avec traitement parallèle.

Embeddings de modèles pré-entraînés

Utiliser ChemBERTa pour générer des embeddings pour des molécules de type médicament et les visualiser avec PCA.

Optimisation du pipeline QSAR

Comparer les caractéristiques ECFP, MACCS et ChemBERTa pour prédire les propriétés moléculaires utilisant la régression de forêt aléatoire.

Bonnes pratiques

Utiliser n_jobs=-1 pour le traitement parallèle sur les systèmes multi-cœur
Mettre en cache les embeddings de modèles pré-entraînés pour éviter les recalculs
Gérer les molécules invalides avec ignore_errors=True pour les grands ensembles de données

Éviter

Traiter une molécule à la fois en boucles au lieu du traitement par lots
Utiliser des modèles d'apprentissage profond pour des recherches de similarité simples où les empreintes suffisent
Ignorer la gestion des erreurs lors du traitement de grandes bibliothèques de composés

Foire aux questions

Quelle est la différence entre les calculateurs et les transformateurs ?

Les calculateurs traitent les molécules individuelles tandis que les transformateurs gèrent les lots avec parallélisation et compatibilité scikit-learn.

Quel featurizer dois-je utiliser pour la modélisation QSAR ?

Commencez par les empreintes ECFP (rayon 2-3, 1024-2048 bits) car elles capturent les modèles de connectivité moléculaire pertinents pour la bioactivité.

Comment gérer les chaînes SMILES invalides ?

Définissez ignore_errors=True dans MoleculeTransformer pour sauter les molécules invalides et continuer le traitement.

Puis-je combiner plusieurs featurizers ?

Oui, utilisez FeatConcat pour combiner différents types de caractéristiques comme les empreintes et les descripteurs en un seul vecteur.

Pourquoi les modèles pré-entraînés sont-ils plus lents que les empreintes ?

Les modèles d'apprentissage automatique profond nécessitent une inférence de réseau neuronal tandis que les empreintes utilisent des algorithmes prédéfinis, mais offrent de meilleures capacités d'apprentissage par transfert.

Comment sauvegarder et réutiliser les configurations de featurizer ?

Utilisez transformer.to_state_yaml_file() pour sauvegarder et MoleculeTransformer.from_state_yaml_file() pour recharger les configurations.

Détails du développeur

Auteur

K-Dense-AI

Licence

Apache-2.0 license

Dépôt

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/molfeat

Réf

main

Structure de fichiers

📁 references/

📄 api_reference.md

📄 available_featurizers.md

📄 examples.md

📄 SKILL.md