Der Aufbau von maschinellen Lernmodellen für molekulare Daten erfordert die Umwandlung chemischer Strukturen in numerische Repräsentationen. Molfeat bietet über 100 Featurisierer, einschließlich ECFP, MACCS, Deskriptoren und vortrainierte Transformatoren wie ChemBERTa, um QSAR-Modellierung und virtuelles Screening zu optimieren.
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「molfeat」。 Featurize ['CCO', 'CC(=O)O', 'c1ccccc1'] using ECFP4 with radius 2
預期結果:
Features shape: (3, 2048)
First molecule (Ethanol, CCO):
- Non-zero bits: 156
- Bit density: 7.6%
Second molecule (Essigsäure, CC(=O)O):
- Non-zero bits: 189
- Bit density: 9.2%
Third molecule (Benzol, c1ccccc1):
- Non-zero bits: 248
- Bit density: 12.1%
正在使用「molfeat」。 Compare featurizer dimensions for MACCS, ECFP, and RDKit 2D
預期結果:
Featurizer Dimensions:
- MACCS keys: 167 dimensions (sehr schnell)
- ECFP4: 2048 dimensions (schnell, universell einsetzbar)
- RDKit 2D descriptors: 200+ dimensions (interpretierbar)
- Mordred: 1800+ dimensions (umfassend)
- ChemBERTa: 768 dimensions (Deep Learning)
安全審計
安全All 389 static findings are false positives. The skill is a legitimate cheminformatics library for molecular featurization. Scanner detections are triggered by documentation code blocks and chemical terminology (e.g., C2 as carbon count, desc2D as 2D descriptors). No malicious code patterns found.
風險因素
品質評分
你能建構什麼
QSAR-Vorhersagemodelle erstellen
Molekulare Datensätze mit ECFP oder Deskriptoren in numerische Merkmale umwandeln und dann Random Forest, SVM oder XGBoost-Modelle für die Eigenschaftsvorhersage trainieren.
Verbindungsbibliotheken durchsuchen
Große molekulare Datenbanken featurisieren und trainierte Klassifikatoren anwenden, um vielversprechende Wirkstoffkandidaten durch virtuelles Screening zu identifizieren.
Ähnliche Moleküle finden
Fingerabdrücke für Abfragemoleküle und Datenbankverbindungen generieren und dann Ähnlichkeitswerte für die strukturbasierte Suche berechnen.
試試這些提示
Verwenden Sie molfeat, um diese Liste von SMILES in ECFP-Fingerabdrücke mit Radius 3 und 2048 Bits umzuwandeln:
{smit_list}Vergleichen Sie ECFP, MACCS und RDKit 2D-Deskriptoren mit molfeat auf diesem Datensatz. Zeigen Sie die Form der Ausgabemerkmale für jeden:
{smiles_list}Erstellen Sie eine vollständige molfeat + scikit-learn-Pipeline mit ECFP-Fingerabdrücken, um logP-Werte für diesen Datensatz vorherzusagen. Einschließlich Kreuzvalidierung:
{smiles_and_values}Verwenden Sie den vortrainierten ChemBERTa-Transformator von molfeat, um molekulare Einbettungen für virtuelles Screening zu generieren. Wenden Sie das Modell mit paralleler Verarbeitung an:
{large_smiles_list}最佳實務
- Parallele Verarbeitung (n_jobs=-1) für Stapel-Featurisierung verwenden, um alle CPU-Kerne zu nutzen
- Vortrainierte Transformator-Modelle zwischenspeichern, um wiederholtes Herunterladen zu vermeiden
- Featurisierer-Konfigurationen mit to_state_yaml_file() für reproduzierbare Forschung speichern
避免
- Moleküle einzeln in einer Schleife verarbeiten statt Stapelverarbeitung zu verwenden
- Deep-Learning-Modelle für kleine Datensätze verwenden, wenn Fingerabdrücke ausreichen würden
- Ungültige SMILES ohne Protokollierung ignorieren, was Datenqualitätsprobleme verbirgt