molfeat
Convertir des molécules en caractéristiques ML
Également disponible depuis: davila7
L'apprentissage automatique moléculaire nécessite la conversion de structures chimiques en représentations numériques. Molfeat fournit plus de 100 featurizers pour transformer les chaînes SMILES en caractéristiques prêtes pour l'apprentissage automatique pour la modélisation QSAR et la découverte de médicaments.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "molfeat". Convertir l'aspirine (CC(=O)OC1=CC=CC=C1C(=O)O) en empreinte ECFP
Résultat attendu:
- Empreinte ECFP générée avec un rayon de 3 et 2048 bits
- Bits non nuls : 45 caractéristiques activées
- Densité de bits : 2,2% (représentation creuse)
- Forme : tableau numpy (2048,)
- Prêt pour les modèles d'apprentissage automatique
Utilisation de "molfeat". Comparer ECFP, MACCS et descripteurs RDKit pour la caféine
Résultat attendu:
- ECFP4 : vecteur de 2048 bits avec 52 caractéristiques non nulles
- MACCS : clés structurelles de 167 bits avec 28 bits vrais
- RDKit2D : plus de 200 valeurs de descripteurs incluant LogP=0,43, TPSA=61,1
- Caractéristiques combinées : vecteur de 2415 dimensions
Audit de sécurité
SûrThe molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.
Facteurs de risque
⚙️ Commandes externes (1)
📁 Accès au système de fichiers (1)
🌐 Accès réseau (1)
Score de qualité
Ce que vous pouvez construire
Construire des modèles QSAR pour les propriétés des médicaments
Utiliser les empreintes moléculaires et les descripteurs pour entraîner des modèles d'apprentissage automatique prédisant les propriétés ADME, la toxicité ou la bioactivité
Criblage virtuel de bibliothèques de composés
Convertir des millions de molécules en caractéristiques pour la recherche de similarité et la prédiction d'activité contre des cibles biologiques
Analyse et regroupement de l'espace chimique
Générer des embeddings moléculaires pour visualiser et regrouper des bibliothèques chimiques pour l'analyse de diversité
Essayez ces prompts
Utiliser molfeat pour convertir ces SMILES en empreintes ECFP : CCO, CC(=O)O, c1ccccc1. Montrer le code et la forme de sortie.
Charger un ensemble de données de 100 molécules et extraire les descripteurs 2D RDKit utilisant molfeat avec traitement parallèle.
Utiliser ChemBERTa pour générer des embeddings pour des molécules de type médicament et les visualiser avec PCA.
Comparer les caractéristiques ECFP, MACCS et ChemBERTa pour prédire les propriétés moléculaires utilisant la régression de forêt aléatoire.
Bonnes pratiques
- Utiliser n_jobs=-1 pour le traitement parallèle sur les systèmes multi-cœur
- Mettre en cache les embeddings de modèles pré-entraînés pour éviter les recalculs
- Gérer les molécules invalides avec ignore_errors=True pour les grands ensembles de données
Éviter
- Traiter une molécule à la fois en boucles au lieu du traitement par lots
- Utiliser des modèles d'apprentissage profond pour des recherches de similarité simples où les empreintes suffisent
- Ignorer la gestion des erreurs lors du traitement de grandes bibliothèques de composés