molfeat
Moleküle in ML-Features umwandeln
Auch verfügbar von: davila7
Molekulares maschinelles Lernen erfordert die Umwandlung chemischer Strukturen in numerische Darstellungen. Molfeat bietet über 100 Featurisierer, um SMILES-Strings in maschinell lernbereite Features für QSAR-Modellierung und Wirkstoffforschung umzuwandeln.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "molfeat". Convert aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) to ECFP fingerprint
Erwartetes Ergebnis:
- Generierter ECFP-Fingerprint mit Radius 3 und 2048 Bits
- Nicht-Null-Bits: 45 Features aktiviert
- Bit-Dichte: 2,2% (dünnbesetzte Darstellung)
- Form: (2048,) numpy-Array
- Bereit für maschinelle Lernmodelle
Verwendung von "molfeat". Compare ECFP, MACCS, and RDKit descriptors for caffeine
Erwartetes Ergebnis:
- ECFP4: 2048-Bit-Vektor mit 52 nicht-Null-Features
- MACCS: 167-Bit-strukturelle Schlüssel mit 28 wahren Bits
- RDKit2D: 200+ Deskriptorwerte einschließlich LogP=0,43, TPSA=61,1
- Kombinierte Features: 2415-dimensionaler Vektor
Sicherheitsaudit
SicherThe molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.
Risikofaktoren
⚙️ Externe Befehle (1)
📁 Dateisystemzugriff (1)
🌐 Netzwerkzugriff (1)
Qualitätsbewertung
Was du bauen kannst
QSAR-Modelle für Wirkstoffeigenschaften erstellen
Molekulare Fingerabdrücke und Deskriptoren verwenden, um maschinelle Lernmodelle zu trainieren, die ADME-Eigenschaften, Toxizität oder Bioaktivität vorhersagen
Virtuelles Screening von Verbindungsbibliotheken
Millionen von Molekülen in Features für Ähnlichkeitssuche und Aktivitätsvorhersage gegen biologische Ziele umwandeln
Analyse und Clustering des chemischen Raums
Molekulare Einbettungen generieren, um chemische Bibliotheken für Diversitätsanalyse zu visualisieren und zu clustern
Probiere diese Prompts
Verwenden Sie molfeat, um diese SMILES in ECFP-Fingerprints umzuwandeln: CCO, CC(=O)O, c1ccccc1. Zeigen Sie den Code und die Ausgabeform.
Laden Sie einen Datensatz von 100 Molekülen und extrahieren Sie RDKit 2D-Deskriptoren mit molfeat und paralleler Verarbeitung.
Verwenden Sie ChemBERTa, um Einbettungen für wirkstoffähnliche Moleküle zu generieren und visualisieren Sie sie mit PCA.
Vergleichen Sie ECFP, MACCS und ChemBERTa-Features für die Vorhersage molekularer Eigenschaften mit Random-Forest-Regression.
Bewährte Verfahren
- Verwenden Sie n_jobs=-1 für parallele Verarbeitung auf Mehrkernsystemen
- Zwischenspeichern Sie Eingebettungen vortrainierter Modelle, um Neuberechnungen zu vermeiden
- Behandeln Sie ungültige Moleküle mit ignore_errors=True für große Datensätze
Vermeiden
- Ein Molekül gleichzeitig in Schleifen verarbeiten anstatt Batch-Verarbeitung zu verwenden
- Deep-Learning-Modelle für einfache Ähnlichkeitssuchen verwenden, wo Fingerprints ausreichen
- Fehlerbehandlung ignorieren, wenn große Verbindungsbibliotheken verarbeitet werden
Häufig gestellte Fragen
Was ist der Unterschied zwischen Kalkulatoren und Transformern?
Welchen Featurisierer sollte ich für die QSAR-Modellierung verwenden?
Wie gehe ich mit ungültigen SMILES-Strings um?
Kann ich mehrere Featurisierer kombinieren?
Warum sind vortrainierte Modelle langsamer als Fingerprints?
Wie speichere und wiederverwende ich Featurisierer-Konfigurationen?
Entwicklerdetails
Autor
K-Dense-AILizenz
Apache-2.0 license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/molfeatRef
main
Dateistruktur