pytdc
Acceder a conjuntos de datos de descubrimiento de fármacos con PyTDC
También disponible en: davila7
Los investigadores de descubrimiento de fármacos necesitan conjuntos de datos estandarizados para entrenar modelos de ML. PyTDC proporciona conjuntos de datos curados de ADME, toxicidad e interacciones objetivo-fármaco con divisiones adecuadas de entrenamiento-prueba y oráculos de evaluación.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "pytdc". Load the AMES toxicity dataset and show me the data format
Resultado esperado:
- Dataset loaded with 7,255 compounds for mutagenicity prediction
- Columns include Drug_ID, Drug (SMILES), and Y (binary toxicity label)
- Scaffold split applied: 5,078 train, 725 validation, 1,452 test molecules
Usando "pytdc". Evaluate this molecule with the GSK3B oracle: CC(C)Cc1ccc(cc1)C(C)C(O)=O
Resultado esperado:
- GSK3B binding score: 0.0234 (low predicted affinity)
- This SMILES represents ibuprofen, not expected to inhibit GSK3B
- Scores range from 0 to 1, with higher values indicating stronger predicted binding
Auditoría de seguridad
SeguroThis skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.
Factores de riesgo
⚙️ Comandos externos (339)
🌐 Acceso a red (15)
Puntuación de calidad
Lo que puedes crear
Entrenar modelos de predicción de ADME
Cargar datos de permeabilidad Caco-2 con splits por scaffold, entrenar predictores de propiedades moleculares y evaluar con métricas estándar.
Evaluar predictores de toxicidad
Acceder a conjuntos de datos de toxicidad hERG, AMES y DILI con protocolos de benchmark para validar modelos de predicción de seguridad.
Generar candidatos a fármacos novedosos
Usar oráculos moleculares como GSK3B y DRD2 para guiar modelos generativos hacia compuestos con la actividad biológica deseada.
Prueba estos prompts
Ayúdame a cargar el conjunto de datos Caco2_Wang de TDC con split por scaffold para entrenar un predictor de permeabilidad intestinal.
Muéstrame cómo evaluar mi modelo de ADME usando el grupo de benchmark de TDC con el protocolo requerido de 5 semillas.
Quiero evaluar cadenas SMILES generadas usando oráculos de TDC para las propiedades QED, SA y GSK3B. Muéstrame el flujo de trabajo.
Cargar el conjunto de datos BindingDB_Kd con split cold-drug para asegurar que mi modelo se generalice a compuestos farmacológicos no vistos.
Mejores prácticas
- Usa splits por scaffold en lugar de splits aleatorios para una evaluación realista de modelos sobre estructuras químicas novedosas
- Ejecuta evaluaciones de benchmark con las 5 semillas requeridas para informar el rendimiento medio y la desviación estándar
- Combina múltiples oráculos con puntuación ponderada para optimización molecular multi-objetivo
Evitar
- Evita splits aleatorios para modelos de ADME en producción ya que sobreestiman el rendimiento en moléculas similares
- No informes resultados de benchmark de una sola semilla ya que pueden no reflejar la verdadera varianza del modelo
- Evita usar oráculos como etiquetas de verdad terrestre para entrenamiento ya que son modelos predictivos ellos mismos
Preguntas frecuentes
¿Qué conjuntos de datos están disponibles en PyTDC?
¿Qué es un split por scaffold y por qué usarlo?
¿Cómo funcionan los oráculos moleculares?
¿Qué es el protocolo de 5 semillas para benchmarks?
¿Puedo usar PyTDC con PyTorch Geometric o DGL?
¿Qué es un split cold-drug para predicción de DTI?
Detalles del desarrollador
Autor
K-Dense-AILicencia
MIT license
Repositorio
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pytdcRef.
main
Estructura de archivos