deepchem
Apprentissage automatique appliqué à la chimie et à la découverte de médicaments
Également disponible depuis: davila7
Prédisez les propriétés moléculaires comme la solubilité, la toxicité et l'affinité de liaison à l'aide de DeepChem. Entraînez des réseaux de neurones graphiques ou utilisez des modèles pré-entraînés comme ChemBERTa pour la découverte de médicaments et les applications en science des matériaux.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "deepchem". Prédire la solubilité pour ces molécules : 'CCO', 'CC(=O)O', 'c1ccccc1'
Résultat attendu:
- Prédictions de solubilité (log mol/L) :
- • Éthanol (CCO) : -0.92
- • Acide acétique (CC(=O)O) : -0.45
- • Benzène (c1ccccc1) : -1.69
- Note : Des valeurs plus faibles indiquent une solubilité aqueuse plus faible.
Audit de sécurité
SûrThis is a legitimate scientific computing skill for DeepChem molecular machine learning. All 237 static findings are false positives. The findings originate from markdown documentation code examples being incorrectly flagged as executable Ruby/shell commands. Common English words in chemistry documentation are matching C2 security patterns. The Python scripts use argparse for safe argument handling with no hardcoded secrets or dangerous operations.
Facteurs de risque
⚡ Contient des scripts (3)
📁 Accès au système de fichiers (3)
🌐 Accès réseau (1)
Score de qualité
Ce que vous pouvez construire
Filtrer les bibliothèques de composés
Prédire la solubilité et la toxicité pour de grandes bibliothèques de composés afin de hiérarchiser les candidats pour la synthèse.
Construire des modèles de propriétés moléculaires
Entraîner des modèles personnalisés sur des ensembles de données propriétaires à l'aide de réseaux de neurones graphiques ou d'algorithmes d'apprentissage automatique traditionnels.
Appliquer l'apprentissage par transfert
Affiner les modèles de chimie pré-entraînés comme ChemBERTa sur de petits ensembles de données avec des exemples étiquetés limités.
Essayez ces prompts
Utiliser DeepChem pour charger un fichier CSV avec des chaînes SMILES dans 'molecules.csv' et prédire la solubilité à l'aide du featuriseur CircularFingerprint et d'un modèle entraîné.
Entraîner un réseau convolutif graphique sur l'ensemble de données Tox21 à l'aide de DeepChem pour prédire la toxicité sur les 12 tâches.
Utiliser le modèle pré-entraîné ChemBERTa de HuggingFace et l'affiner sur mon ensemble de données personnalisé dans 'activity.csv' pour prédire l'affinité de liaison.
Charger un modèle DeepChem entraîné et faire des prédictions sur une liste de nouvelles chaînes SMILES : 'CCO', 'CC(=O)O', 'c1ccccc1'. Retourner les scores de confiance.
Bonnes pratiques
- Utiliser ScaffoldSplitter au lieu d'une division aléatoire pour les ensembles de données moléculaires afin d'éviter la fuite de données provenant de molécules similaires
- Appliquer l'apprentissage par transfert avec des modèles pré-entraînés lorsque la taille de l'ensemble de données est inférieure à 10 000 échantillons
- Augmenter le dropout (0,3-0,5) et utiliser des modèles plus simples pour les petits ensembles de données afin d'éviter le surapprentissage
Éviter
- Utiliser des divisions train/test aléatoires sur des données moléculaires - conduit à une fuite de données provenant de structures similaires
- Entraîner des GNN profonds sur des ensembles de données de moins de 1 000 échantillons - risque élevé de surapprentissage
- Ignorer le déséquilibre des classes dans les ensembles de données de toxicité - toujours vérifier la distribution des tâches avant l'entraînement