💊

pytdc

Name: pytdc
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle🌐 Netzwerkzugriff

Zugang zu Arzneimittelentdeckungs-Datensätzen mit PyTDC

Auch verfügbar von: davila7

Forscher im Bereich Arzneimittelentdeckung benötigen standardisierte Datensätze für das Training von ML-Modellen. PyTDC bietet kuratierte ADME-, Toxizitäts- und Arzneimittel-Wirkstoff-Interaktionsdatensätze mit korrekten Train-Test-Splits und Evaluierungsorakeln.

Unterstützt: Claude Codex Code(CC)

🥉 76 Bronze

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "pytdc". Lade den AMES-Toxizitätsdatensatz und zeige mir das Datenformat

Erwartetes Ergebnis:

Datensatz mit 7.255 Verbindungen für Mutagenitätsvorhersage geladen
Enthält Spalten Drug_ID, Drug (SMILES) und Y (binäres Toxizitätslabel)
Scaffold-Split angewendet: 5.078 Trainings-, 725 Validierungs-, 1.452 Testmoleküle

Verwendung von "pytdc". Evaluiere dieses Molekül mit dem GSK3B-Orakel: CC(C)Cc1ccc(cc1)C(C)C(O)=O

Erwartetes Ergebnis:

GSK3B-Bindungswert: 0,0234 (niedrige vorhergesagte Affinität)
Diese SMILES repräsentiert Ibuprofen, das GSK3B nicht hemmen sollte
Werte reichen von 0 bis 1, wobei höhere Werte auf eine stärkere vorhergesagte Bindung hinweisen

Sicherheitsaudit

Sicher

v4 • 1/17/2026

This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.

Gescannte Dateien

3,184

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (339)

🌐 Netzwerkzugriff (15)

EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 references/datasets.md:246 references/oracles.md:374 references/oracles.md:398 references/utilities.md:681 references/utilities.md:682 references/utilities.md:683 references/utilities.md:684 scripts/benchmark_evaluation.py:268 skill-report.json:6 SKILL.md:454 SKILL.md:455 SKILL.md:456

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

ADME-Vorhersagemodelle trainieren

Laden Sie Caco-2-Permeabilitätsdaten mit Scaffold-Splits, trainieren Sie Moleküleigenschaftsvorhersager und evaluieren Sie mit Standardmetriken.

Toxizitätsvorhersager evaluieren

Greifen Sie auf hERG-, AMES- und DILI-Toxizitätsdatensätze mit Benchmark-Protokollen zu, um Sicherheitsvorhersagemodelle zu validieren.

Neue Arzneimittelkandidaten generieren

Verwenden Sie Molekülorakele wie GSK3B und DRD2, um generative Modelle zu Verbindungen mit gewünschter biologischer Aktivität zu führen.

Probiere diese Prompts

ADME-Datensatz laden

Hilf mir, den Caco2_Wang-Datensatz von TDC mit Scaffold-Splitting zu laden, um einen intestinalen Permeabilitätsvorhersager zu trainieren.

Benchmark-Evaluation ausführen

Zeige mir, wie ich mein ADME-Modell mit der TDC-Benchmark-Gruppe und dem erforderlichen 5-Seed-Protokoll evaluieren kann.

Molekülorakele verwenden

Ich möchte generierte SMILES-Strings mit TDC-Orakelen für QED-, SA- und GSK3B-Eigenschaften auswerten. Zeige mir den Workflow.

Arzneimittel-Wirkstoff-Interaktionsmodellierung

Lade den BindingDB_Kd-Datensatz mit Cold-Drug-Splitting, um sicherzustellen, dass mein Modell auf unbekannte Arzneimittelverbindungen verallgemeinert.

Bewährte Verfahren

Verwenden Sie Scaffold-Splits anstelle von Random-Splits für eine realistische Modellauswertung bei neuen chemischen Scaffolds
Führen Sie Benchmark-Evaluationen mit allen 5 erforderlichen Seeds durch, um Mittelwert und Standardabweichung der Leistung zu berichten
Kombinieren Sie mehrere Orakele mit gewichteter Bewertung für die multiobjektive Molekülorimierung

Vermeiden

Vermeiden Sie Random-Splits für Produktions-ADME-Modelle, da sie die Leistung bei ähnlichen Molekülen überschätzen
Berichten Sie keine Einzelergebnisse von Benchmark-Seeds, da sie die wahre Modellvarianz möglicherweise nicht widerspiegeln
Vermeiden Sie es, Orakel als Grundwahrheitslabels für das Training zu verwenden, da sie selbst Vorhersagemodelle sind

Häufig gestellte Fragen

Welche Datensätze sind in PyTDC verfügbar?

PyTDC enthält über 60 Datensätze, die ADME, Toxizität, Arzneimittel-Wirkstoff-Interaktionen, Arzneimittel-Arzneimittel-Interaktionen und Molekülgenerierungsaufgaben für therapeutisches ML abdecken.

Was ist ein Scaffold-Split und warum sollte man ihn verwenden?

Scaffold-Splits gruppieren Moleküle nach chemischem Scaffold, sodass Testmoleküle andere Kernstrukturen haben als Trainingsmoleküle, was eine reale Verallgemeinerung simuliert.

Wie funktionieren Molekülorakele?

Orakele sind vortrainierte Modelle, die SMILES-Strings für Eigenschaften wie Drug-Likeness (QED), synthetische Zugänglichkeit (SA) oder Zielbindung (GSK3B, DRD2) bewerten.

Was ist das 5-Seed-Protokoll für Benchmarks?

TDC-Benchmarks erfordern die Evaluation mit 5 verschiedenen zufälligen Seeds, um Mittelwert und Standardabweichung zu berechnen, was robuste Leistungsvergleiche gewährleistet.

Kann ich PyTDC mit PyTorch Geometric oder DGL verwenden?

Ja, TDC bietet MolConvert-Hilfsprogramme, um SMILES in PyG-Graphen, DGL-Graphen oder andere Molekülrepräsentationen wie ECFP-Fingerabdrücke zu transformieren.

Was ist ein Cold-Drug-Split für die DTI-Vorhersage?

Cold-Drug-Splits stellen sicher, dass Test-Arzneimittel niemals im Training erscheinen, und messen, wie gut Modelle die Bindung für völlig neue Arzneimittelverbindungen vorhersagen.