pytdc
Zugang zu Arzneimittelentdeckungs-Datensätzen mit PyTDC
متاح أيضًا من: davila7
Forscher im Bereich Arzneimittelentdeckung benötigen standardisierte Datensätze für das Training von ML-Modellen. PyTDC bietet kuratierte ADME-, Toxizitäts- und Arzneimittel-Wirkstoff-Interaktionsdatensätze mit korrekten Train-Test-Splits und Evaluierungsorakeln.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "pytdc". Lade den AMES-Toxizitätsdatensatz und zeige mir das Datenformat
النتيجة المتوقعة:
- Datensatz mit 7.255 Verbindungen für Mutagenitätsvorhersage geladen
- Enthält Spalten Drug_ID, Drug (SMILES) und Y (binäres Toxizitätslabel)
- Scaffold-Split angewendet: 5.078 Trainings-, 725 Validierungs-, 1.452 Testmoleküle
استخدام "pytdc". Evaluiere dieses Molekül mit dem GSK3B-Orakel: CC(C)Cc1ccc(cc1)C(C)C(O)=O
النتيجة المتوقعة:
- GSK3B-Bindungswert: 0,0234 (niedrige vorhergesagte Affinität)
- Diese SMILES repräsentiert Ibuprofen, das GSK3B nicht hemmen sollte
- Werte reichen von 0 bis 1, wobei höhere Werte auf eine stärkere vorhergesagte Bindung hinweisen
التدقيق الأمني
آمنThis skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.
عوامل الخطر
⚙️ الأوامر الخارجية (339)
🌐 الوصول إلى الشبكة (15)
درجة الجودة
ماذا يمكنك بناءه
ADME-Vorhersagemodelle trainieren
Laden Sie Caco-2-Permeabilitätsdaten mit Scaffold-Splits, trainieren Sie Moleküleigenschaftsvorhersager und evaluieren Sie mit Standardmetriken.
Toxizitätsvorhersager evaluieren
Greifen Sie auf hERG-, AMES- und DILI-Toxizitätsdatensätze mit Benchmark-Protokollen zu, um Sicherheitsvorhersagemodelle zu validieren.
Neue Arzneimittelkandidaten generieren
Verwenden Sie Molekülorakele wie GSK3B und DRD2, um generative Modelle zu Verbindungen mit gewünschter biologischer Aktivität zu führen.
جرّب هذه الموجهات
Hilf mir, den Caco2_Wang-Datensatz von TDC mit Scaffold-Splitting zu laden, um einen intestinalen Permeabilitätsvorhersager zu trainieren.
Zeige mir, wie ich mein ADME-Modell mit der TDC-Benchmark-Gruppe und dem erforderlichen 5-Seed-Protokoll evaluieren kann.
Ich möchte generierte SMILES-Strings mit TDC-Orakelen für QED-, SA- und GSK3B-Eigenschaften auswerten. Zeige mir den Workflow.
Lade den BindingDB_Kd-Datensatz mit Cold-Drug-Splitting, um sicherzustellen, dass mein Modell auf unbekannte Arzneimittelverbindungen verallgemeinert.
أفضل الممارسات
- Verwenden Sie Scaffold-Splits anstelle von Random-Splits für eine realistische Modellauswertung bei neuen chemischen Scaffolds
- Führen Sie Benchmark-Evaluationen mit allen 5 erforderlichen Seeds durch, um Mittelwert und Standardabweichung der Leistung zu berichten
- Kombinieren Sie mehrere Orakele mit gewichteter Bewertung für die multiobjektive Molekülorimierung
تجنب
- Vermeiden Sie Random-Splits für Produktions-ADME-Modelle, da sie die Leistung bei ähnlichen Molekülen überschätzen
- Berichten Sie keine Einzelergebnisse von Benchmark-Seeds, da sie die wahre Modellvarianz möglicherweise nicht widerspiegeln
- Vermeiden Sie es, Orakel als Grundwahrheitslabels für das Training zu verwenden, da sie selbst Vorhersagemodelle sind