Compétences deepchem
🧪

deepchem

Sûr ⚡ Contient des scripts📁 Accès au système de fichiers🌐 Accès réseau

Apprentissage automatique appliqué à la chimie et à la découverte de médicaments

Également disponible depuis: davila7

Prédisez les propriétés moléculaires comme la solubilité, la toxicité et l'affinité de liaison à l'aide de DeepChem. Entraînez des réseaux de neurones graphiques ou utilisez des modèles pré-entraînés comme ChemBERTa pour la découverte de médicaments et les applications en science des matériaux.

Prend en charge: Claude Codex Code(CC)
🥉 76 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "deepchem". Prédire la solubilité pour ces molécules : 'CCO', 'CC(=O)O', 'c1ccccc1'

Résultat attendu:

  • Prédictions de solubilité (log mol/L) :
  • • Éthanol (CCO) : -0.92
  • • Acide acétique (CC(=O)O) : -0.45
  • • Benzène (c1ccccc1) : -1.69
  • Note : Des valeurs plus faibles indiquent une solubilité aqueuse plus faible.

Audit de sécurité

Sûr
v4 • 1/17/2026

This is a legitimate scientific computing skill for DeepChem molecular machine learning. All 237 static findings are false positives. The findings originate from markdown documentation code examples being incorrectly flagged as executable Ruby/shell commands. Common English words in chemistry documentation are matching C2 security patterns. The Python scripts use argparse for safe argument handling with no hardcoded secrets or dangerous operations.

8
Fichiers analysés
2,764
Lignes analysées
3
résultats
4
Total des audits

Score de qualité

64
Architecture
100
Maintenabilité
83
Contenu
30
Communauté
100
Sécurité
87
Conformité aux spécifications

Ce que vous pouvez construire

Filtrer les bibliothèques de composés

Prédire la solubilité et la toxicité pour de grandes bibliothèques de composés afin de hiérarchiser les candidats pour la synthèse.

Construire des modèles de propriétés moléculaires

Entraîner des modèles personnalisés sur des ensembles de données propriétaires à l'aide de réseaux de neurones graphiques ou d'algorithmes d'apprentissage automatique traditionnels.

Appliquer l'apprentissage par transfert

Affiner les modèles de chimie pré-entraînés comme ChemBERTa sur de petits ensembles de données avec des exemples étiquetés limités.

Essayez ces prompts

Charger des données moléculaires
Utiliser DeepChem pour charger un fichier CSV avec des chaînes SMILES dans 'molecules.csv' et prédire la solubilité à l'aide du featuriseur CircularFingerprint et d'un modèle entraîné.
Entraîner un modèle GNN
Entraîner un réseau convolutif graphique sur l'ensemble de données Tox21 à l'aide de DeepChem pour prédire la toxicité sur les 12 tâches.
Apprentissage par transfert
Utiliser le modèle pré-entraîné ChemBERTa de HuggingFace et l'affiner sur mon ensemble de données personnalisé dans 'activity.csv' pour prédire l'affinité de liaison.
Prédictions par lots
Charger un modèle DeepChem entraîné et faire des prédictions sur une liste de nouvelles chaînes SMILES : 'CCO', 'CC(=O)O', 'c1ccccc1'. Retourner les scores de confiance.

Bonnes pratiques

  • Utiliser ScaffoldSplitter au lieu d'une division aléatoire pour les ensembles de données moléculaires afin d'éviter la fuite de données provenant de molécules similaires
  • Appliquer l'apprentissage par transfert avec des modèles pré-entraînés lorsque la taille de l'ensemble de données est inférieure à 10 000 échantillons
  • Augmenter le dropout (0,3-0,5) et utiliser des modèles plus simples pour les petits ensembles de données afin d'éviter le surapprentissage

Éviter

  • Utiliser des divisions train/test aléatoires sur des données moléculaires - conduit à une fuite de données provenant de structures similaires
  • Entraîner des GNN profonds sur des ensembles de données de moins de 1 000 échantillons - risque élevé de surapprentissage
  • Ignorer le déséquilibre des classes dans les ensembles de données de toxicité - toujours vérifier la distribution des tâches avant l'entraînement

Foire aux questions

Quel featuriseur dois-je utiliser ?
Utilisez MolGraphConvFeaturizer pour les GNN, CircularFingerprint pour l'apprentissage automatique traditionnel, et RDKitDescriptors pour des modèles interprétables.
Comment gérer les petits ensembles de données ?
Appliquez l'apprentissage par transfert avec des modèles pré-entraînés comme ChemBERTa ou GROVER. Utilisez l'augmentation de données et une régularisation plus forte.
Quel diviseur dois-je utiliser ?
Utilisez ScaffoldSplitter pour les ensembles de données moléculaires afin de garantir que les composés structurellement similaires restent dans la même division.
Puis-je utiliser mon propre ensemble de données ?
Oui, fournissez un CSV avec des chaînes SMILES dans une colonne et des valeurs cibles dans une autre. Utilisez CSVLoader avec des noms de colonnes personnalisés.
Quels modèles pré-entraînés sont disponibles ?
ChemBERTa, GROVER et MolFormer sont intégrés. Chargez depuis HuggingFace pour des représentations moléculaires spécifiques au domaine.
Comment améliorer les performances du modèle ?
Essayez différents featurizers, augmentez les époques d'entraînement, utilisez des modèles plus grands comme AttentiveFP, ou appliquez l'apprentissage par transfert à partir de modèles pré-entraînés.