Compétences molfeat
🧪

molfeat

Sûr ⚙️ Commandes externes📁 Accès au système de fichiers🌐 Accès réseau

Convertir des molécules en caractéristiques ML

Également disponible depuis: davila7

L'apprentissage automatique moléculaire nécessite la conversion de structures chimiques en représentations numériques. Molfeat fournit plus de 100 featurizers pour transformer les chaînes SMILES en caractéristiques prêtes pour l'apprentissage automatique pour la modélisation QSAR et la découverte de médicaments.

Prend en charge: Claude Codex Code(CC)
📊 70 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "molfeat". Convertir l'aspirine (CC(=O)OC1=CC=CC=C1C(=O)O) en empreinte ECFP

Résultat attendu:

  • Empreinte ECFP générée avec un rayon de 3 et 2048 bits
  • Bits non nuls : 45 caractéristiques activées
  • Densité de bits : 2,2% (représentation creuse)
  • Forme : tableau numpy (2048,)
  • Prêt pour les modèles d'apprentissage automatique

Utilisation de "molfeat". Comparer ECFP, MACCS et descripteurs RDKit pour la caféine

Résultat attendu:

  • ECFP4 : vecteur de 2048 bits avec 52 caractéristiques non nulles
  • MACCS : clés structurelles de 167 bits avec 28 bits vrais
  • RDKit2D : plus de 200 valeurs de descripteurs incluant LogP=0,43, TPSA=61,1
  • Caractéristiques combinées : vecteur de 2415 dimensions

Audit de sécurité

Sûr
v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

5
Fichiers analysés
2,234
Lignes analysées
3
résultats
4
Total des audits

Facteurs de risque

⚙️ Commandes externes (1)
📁 Accès au système de fichiers (1)
🌐 Accès réseau (1)

Score de qualité

45
Architecture
100
Maintenabilité
87
Contenu
21
Communauté
100
Sécurité
78
Conformité aux spécifications

Ce que vous pouvez construire

Construire des modèles QSAR pour les propriétés des médicaments

Utiliser les empreintes moléculaires et les descripteurs pour entraîner des modèles d'apprentissage automatique prédisant les propriétés ADME, la toxicité ou la bioactivité

Criblage virtuel de bibliothèques de composés

Convertir des millions de molécules en caractéristiques pour la recherche de similarité et la prédiction d'activité contre des cibles biologiques

Analyse et regroupement de l'espace chimique

Générer des embeddings moléculaires pour visualiser et regrouper des bibliothèques chimiques pour l'analyse de diversité

Essayez ces prompts

Génération d'empreintes de base
Utiliser molfeat pour convertir ces SMILES en empreintes ECFP : CCO, CC(=O)O, c1ccccc1. Montrer le code et la forme de sortie.
Traitement par lots des descripteurs
Charger un ensemble de données de 100 molécules et extraire les descripteurs 2D RDKit utilisant molfeat avec traitement parallèle.
Embeddings de modèles pré-entraînés
Utiliser ChemBERTa pour générer des embeddings pour des molécules de type médicament et les visualiser avec PCA.
Optimisation du pipeline QSAR
Comparer les caractéristiques ECFP, MACCS et ChemBERTa pour prédire les propriétés moléculaires utilisant la régression de forêt aléatoire.

Bonnes pratiques

  • Utiliser n_jobs=-1 pour le traitement parallèle sur les systèmes multi-cœur
  • Mettre en cache les embeddings de modèles pré-entraînés pour éviter les recalculs
  • Gérer les molécules invalides avec ignore_errors=True pour les grands ensembles de données

Éviter

  • Traiter une molécule à la fois en boucles au lieu du traitement par lots
  • Utiliser des modèles d'apprentissage profond pour des recherches de similarité simples où les empreintes suffisent
  • Ignorer la gestion des erreurs lors du traitement de grandes bibliothèques de composés

Foire aux questions

Quelle est la différence entre les calculateurs et les transformateurs ?
Les calculateurs traitent les molécules individuelles tandis que les transformateurs gèrent les lots avec parallélisation et compatibilité scikit-learn.
Quel featurizer dois-je utiliser pour la modélisation QSAR ?
Commencez par les empreintes ECFP (rayon 2-3, 1024-2048 bits) car elles capturent les modèles de connectivité moléculaire pertinents pour la bioactivité.
Comment gérer les chaînes SMILES invalides ?
Définissez ignore_errors=True dans MoleculeTransformer pour sauter les molécules invalides et continuer le traitement.
Puis-je combiner plusieurs featurizers ?
Oui, utilisez FeatConcat pour combiner différents types de caractéristiques comme les empreintes et les descripteurs en un seul vecteur.
Pourquoi les modèles pré-entraînés sont-ils plus lents que les empreintes ?
Les modèles d'apprentissage automatique profond nécessitent une inférence de réseau neuronal tandis que les empreintes utilisent des algorithmes prédéfinis, mais offrent de meilleures capacités d'apprentissage par transfert.
Comment sauvegarder et réutiliser les configurations de featurizer ?
Utilisez transformer.to_state_yaml_file() pour sauvegarder et MoleculeTransformer.from_state_yaml_file() pour recharger les configurations.

Détails du développeur

Structure de fichiers