💊

pytdc

Name: pytdc
Author: K-Dense-AI

Seguro ⚙️ Comandos externos🌐 Acceso a red

Acceder a conjuntos de datos de descubrimiento de fármacos con PyTDC

También disponible en: davila7

Los investigadores de descubrimiento de fármacos necesitan conjuntos de datos estandarizados para entrenar modelos de ML. PyTDC proporciona conjuntos de datos curados de ADME, toxicidad e interacciones objetivo-fármaco con divisiones adecuadas de entrenamiento-prueba y oráculos de evaluación.

Soporta: Claude Codex Code(CC)

🥉 76 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "pytdc". Load the AMES toxicity dataset and show me the data format

Resultado esperado:

Dataset loaded with 7,255 compounds for mutagenicity prediction
Columns include Drug_ID, Drug (SMILES), and Y (binary toxicity label)
Scaffold split applied: 5,078 train, 725 validation, 1,452 test molecules

Usando "pytdc". Evaluate this molecule with the GSK3B oracle: CC(C)Cc1ccc(cc1)C(C)C(O)=O

Resultado esperado:

GSK3B binding score: 0.0234 (low predicted affinity)
This SMILES represents ibuprofen, not expected to inhibit GSK3B
Scores range from 0 to 1, with higher values indicating stronger predicted binding

Auditoría de seguridad

Seguro

v4 • 1/17/2026

This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.

Archivos escaneados

3,184

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (339)

🌐 Acceso a red (15)

EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 references/datasets.md:246 references/oracles.md:374 references/oracles.md:398 references/utilities.md:681 references/utilities.md:682 references/utilities.md:683 references/utilities.md:684 scripts/benchmark_evaluation.py:268 skill-report.json:6 SKILL.md:454 SKILL.md:455 SKILL.md:456

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Entrenar modelos de predicción de ADME

Cargar datos de permeabilidad Caco-2 con splits por scaffold, entrenar predictores de propiedades moleculares y evaluar con métricas estándar.

Evaluar predictores de toxicidad

Acceder a conjuntos de datos de toxicidad hERG, AMES y DILI con protocolos de benchmark para validar modelos de predicción de seguridad.

Generar candidatos a fármacos novedosos

Usar oráculos moleculares como GSK3B y DRD2 para guiar modelos generativos hacia compuestos con la actividad biológica deseada.

Prueba estos prompts

Cargar conjunto de datos de ADME

Ayúdame a cargar el conjunto de datos Caco2_Wang de TDC con split por scaffold para entrenar un predictor de permeabilidad intestinal.

Ejecutar evaluación de benchmark

Muéstrame cómo evaluar mi modelo de ADME usando el grupo de benchmark de TDC con el protocolo requerido de 5 semillas.

Usar oráculos moleculares

Quiero evaluar cadenas SMILES generadas usando oráculos de TDC para las propiedades QED, SA y GSK3B. Muéstrame el flujo de trabajo.

Modelado de interacción objetivo-fármaco

Cargar el conjunto de datos BindingDB_Kd con split cold-drug para asegurar que mi modelo se generalice a compuestos farmacológicos no vistos.

Mejores prácticas

Usa splits por scaffold en lugar de splits aleatorios para una evaluación realista de modelos sobre estructuras químicas novedosas
Ejecuta evaluaciones de benchmark con las 5 semillas requeridas para informar el rendimiento medio y la desviación estándar
Combina múltiples oráculos con puntuación ponderada para optimización molecular multi-objetivo

Evitar

Evita splits aleatorios para modelos de ADME en producción ya que sobreestiman el rendimiento en moléculas similares
No informes resultados de benchmark de una sola semilla ya que pueden no reflejar la verdadera varianza del modelo
Evita usar oráculos como etiquetas de verdad terrestre para entrenamiento ya que son modelos predictivos ellos mismos

Preguntas frecuentes

¿Qué conjuntos de datos están disponibles en PyTDC?

PyTDC incluye más de 60 conjuntos de datos cubriendo ADME, toxicidad, interacciones objetivo-fármaco, interacciones fármaco-fármaco y tareas de generación molecular para ML terapéutico.

¿Qué es un split por scaffold y por qué usarlo?

Los splits por scaffold agrupan moléculas por andamiaje químico para que las moléculas de prueba tengan estructuras centrales diferentes a las moléculas de entrenamiento, simulando generalización en el mundo real.

¿Cómo funcionan los oráculos moleculares?

Los oráculos son modelos pre-entrenados que puntúan cadenas SMILES para propiedades como similitud a fármacos (QED), accesibilidad sintética (SA) o unión a objetivo (GSK3B, DRD2).

¿Qué es el protocolo de 5 semillas para benchmarks?

Los benchmarks de TDC requieren evaluación con 5 semillas aleatorias diferentes para calcular la media y la desviación estándar, asegurando comparaciones robustas de rendimiento.

¿Puedo usar PyTDC con PyTorch Geometric o DGL?

Sí, TDC proporciona utilidades MolConvert para transformar SMILES en grafos de PyG, grafos de DGL u otras representaciones moleculares como huellas digitales ECFP.

¿Qué es un split cold-drug para predicción de DTI?

Los splits cold-drug aseguran que los fármacos del conjunto de prueba nunca aparezcan en el entrenamiento, midiendo qué tan bien los modelos predicen la unión para compuestos farmacológicos completamente novedosos.