技能 molfeat
⚗️

molfeat

安全 ⚙️ 外部命令📁 檔案系統存取🌐 網路存取

Molekulare Merkmale für ML generieren

也可從以下取得: K-Dense-AI

Der Aufbau von maschinellen Lernmodellen für molekulare Daten erfordert die Umwandlung chemischer Strukturen in numerische Repräsentationen. Molfeat bietet über 100 Featurisierer, einschließlich ECFP, MACCS, Deskriptoren und vortrainierte Transformatoren wie ChemBERTa, um QSAR-Modellierung und virtuelles Screening zu optimieren.

支援: Claude Codex Code(CC)
📊 70 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「molfeat」。 Featurize ['CCO', 'CC(=O)O', 'c1ccccc1'] using ECFP4 with radius 2

預期結果:

Features shape: (3, 2048)

First molecule (Ethanol, CCO):
- Non-zero bits: 156
- Bit density: 7.6%

Second molecule (Essigsäure, CC(=O)O):
- Non-zero bits: 189
- Bit density: 9.2%

Third molecule (Benzol, c1ccccc1):
- Non-zero bits: 248
- Bit density: 12.1%

正在使用「molfeat」。 Compare featurizer dimensions for MACCS, ECFP, and RDKit 2D

預期結果:

Featurizer Dimensions:
- MACCS keys: 167 dimensions (sehr schnell)
- ECFP4: 2048 dimensions (schnell, universell einsetzbar)
- RDKit 2D descriptors: 200+ dimensions (interpretierbar)
- Mordred: 1800+ dimensions (umfassend)
- ChemBERTa: 768 dimensions (Deep Learning)

安全審計

安全
v6 • 1/21/2026

All 389 static findings are false positives. The skill is a legitimate cheminformatics library for molecular featurization. Scanner detections are triggered by documentation code blocks and chemical terminology (e.g., C2 as carbon count, desc2D as 2D descriptors). No malicious code patterns found.

5
已掃描檔案
5,318
分析行數
3
發現項
6
審計總數
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
87
內容
21
社群
100
安全
78
規範符合性

你能建構什麼

QSAR-Vorhersagemodelle erstellen

Molekulare Datensätze mit ECFP oder Deskriptoren in numerische Merkmale umwandeln und dann Random Forest, SVM oder XGBoost-Modelle für die Eigenschaftsvorhersage trainieren.

Verbindungsbibliotheken durchsuchen

Große molekulare Datenbanken featurisieren und trainierte Klassifikatoren anwenden, um vielversprechende Wirkstoffkandidaten durch virtuelles Screening zu identifizieren.

Ähnliche Moleküle finden

Fingerabdrücke für Abfragemoleküle und Datenbankverbindungen generieren und dann Ähnlichkeitswerte für die strukturbasierte Suche berechnen.

試試這些提示

Grundlegende molekulare Featurisierung
Verwenden Sie molfeat, um diese Liste von SMILES in ECFP-Fingerabdrücke mit Radius 3 und 2048 Bits umzuwandeln:

{smit_list}
Vergleich mehrerer Featurisierer
Vergleichen Sie ECFP, MACCS und RDKit 2D-Deskriptoren mit molfeat auf diesem Datensatz. Zeigen Sie die Form der Ausgabemerkmale für jeden:

{smiles_list}
QSAR-Modell-Pipeline
Erstellen Sie eine vollständige molfeat + scikit-learn-Pipeline mit ECFP-Fingerabdrücken, um logP-Werte für diesen Datensatz vorherzusagen. Einschließlich Kreuzvalidierung:

{smiles_and_values}
Vortrainierte Transformator-Einbettungen
Verwenden Sie den vortrainierten ChemBERTa-Transformator von molfeat, um molekulare Einbettungen für virtuelles Screening zu generieren. Wenden Sie das Modell mit paralleler Verarbeitung an:

{large_smiles_list}

最佳實務

  • Parallele Verarbeitung (n_jobs=-1) für Stapel-Featurisierung verwenden, um alle CPU-Kerne zu nutzen
  • Vortrainierte Transformator-Modelle zwischenspeichern, um wiederholtes Herunterladen zu vermeiden
  • Featurisierer-Konfigurationen mit to_state_yaml_file() für reproduzierbare Forschung speichern

避免

  • Moleküle einzeln in einer Schleife verarbeiten statt Stapelverarbeitung zu verwenden
  • Deep-Learning-Modelle für kleine Datensätze verwenden, wenn Fingerabdrücke ausreichen würden
  • Ungültige SMILES ohne Protokollierung ignorieren, was Datenqualitätsprobleme verbirgt

常見問題

Was ist der Unterschied zwischen Berechnern und Transformatoren in molfeat?
Berechner (molfeat.calc) verarbeiten einzelne Moleküle und geben Merkmalsvektoren zurück. Transformatoren (molfeat.trans) umhüllen Berechner für die Stapelverarbeitung mit scikit-learn-Kompatibilität und Parallelisierung. Berechner für benutzerdefinierte Schleifen, Transformatoren für Pipelines verwenden.
Welchen Featurisierer sollte ich für die QSAR-Modellierung verwenden?
ECFP4 (Extended-Connectivity Fingerprint mit Radius 2) ist der beliebteste Ausgangspunkt. Es erfasst zirkuläre Substrukturen um jedes Atom und funktioniert gut mit den meisten ML-Algorithmen. Für interpretierbare Modelle RDKit 2D-Deskriptoren probieren.
Wie gehe ich mit großen Datensätzen in molfeat um?
MoleculeTransformer mit n_jobs=-1 für parallele Verarbeitung verwenden. Für sehr große Datensätze in Blöcken mit einem Generator-Muster verarbeiten. ignore_errors=True aktivieren, um ungültige Moleküle zu überspringen. Vortrainierte Modelle zwischenspeichern, um wiederholte Downloads zu vermeiden.
Kann molfeat mit scikit-learn-Pipelines verwendet werden?
Ja. MoleculeTransformer ist ein scikit-learn-kompatibler Transformator. Es kann direkt in Pipeline-Objekte zusammen mit Klassifikatoren oder Regressoren für End-to-End-Workflows von SMILES zu Vorhersagen eingefügt werden.
Welche vortrainierten Modelle sind in molfeat verfügbar?
Molfeat enthält ChemBERTa (77M Verbindungen), ChemGPT (autoregressiv), Graphormer (Quantenchemie) und GIN-Modelle. Verfügbare Modelle mit ModelStore().available_models anzeigen oder nach Namen suchen.
Wie speichere und lade ich eine Featurisierer-Konfiguration?
transformer.to_state_yaml_file('config.yml') zum Speichern verwenden. Neu laden mit MoleculeTransformer.from_state_yaml_file('config.yml'). Dies erhält alle Parameter für reproduzierbare Ergebnisse über Sitzungen hinweg.