💊

pytdc

Name: pytdc
Author: K-Dense-AI

안전 ⚙️ 외부 명령어🌐 네트워크 접근

PyTDC로 약물 발견 데이터셋 접근하기

또한 다음에서 사용할 수 있습니다: davila7

약물 발견 연구자들은 ML 모델 학습을 위한 표준화된 데이터셋이 필요합니다. PyTDC는 적절한 train-test 분할과 평가 oracle과 함께 정리된 ADME, 독성, 약물-표적 상호작용 데이터셋을 제공합니다.

지원: Claude Codex Code(CC)

🥉 76 브론즈

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"pytdc" 사용 중입니다. AMES 독성 데이터셋을 로드하고 데이터 형식을 보여주세요

예상 결과:

돌연변이원성 예측을 위해 7,255개 화합물이 포함된 데이터셋이 로드됨
Drug_ID, Drug (SMILES), Y (이진 독성 레이블) 열이 포함됨
Scaffold 분할 적용됨: 5,078개 학습, 725개 검증, 1,452개 테스트 분자

"pytdc" 사용 중입니다. 이 분자를 GSK3B oracle로 평가하세요: CC(C)Cc1ccc(cc1)C(C)C(O)=O

예상 결과:

GSK3B 결합 점수: 0.0234 (낮은 예측 친화도)
이 SMILES는 이부프로펜을 나타내며, GSK3B를 억제할 것으로 예상되지 않음
점수는 0에서 1 사이이며, 높은 값일수록 더 강한 예측 결합을 나타냄

보안 감사

안전

v4 • 1/17/2026

This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.

스캔된 파일

3,184

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (339)

🌐 네트워크 접근 (15)

EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 references/datasets.md:246 references/oracles.md:374 references/oracles.md:398 references/utilities.md:681 references/utilities.md:682 references/utilities.md:683 references/utilities.md:684 scripts/benchmark_evaluation.py:268 skill-report.json:6 SKILL.md:454 SKILL.md:455 SKILL.md:456

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

ADME 예측 모델 학습

Caco-2 투과성 데이터를 scaffold 분할과 함께 로드하고, 분자 속성 예측기를 학습하며, 표준 지표로 평가하세요.

독성 예측기 평가

hERG, AMES, DILI 독성 데이터셋에 벤치마크 프로토콜로 접근하여 안전성 예측 모델을 검증하세요.

새로운 약물 후보 생성

GSK3B, DRD2 같은 분자 oracle을 사용하여 생성 모델을 원하는 생물학적 활성을 가진 화합물로 안내하세요.

이 프롬프트를 사용해 보세요

ADME 데이터셋 로드

장관 투과성 예측기를 학습하기 위해 scaffold 분할과 함께 TDC에서 Caco2_Wang 데이터셋을 로드하는 방법을 알려주세요.

벤치마크 평가 실행

TDC 벤치마크 그룹과 필수 5-seed 프로토콜을 사용하여 내 ADME 모델을 평가하는 방법을 보여주세요.

분자 Oracle 사용

생성된 SMILES 문자열을 QED, SA, GSK3B 속성에 대해 TDC oracle으로 평가하고 싶습니다. 워크플로우를 보여주세요.

약물-표적 상호작용 모델링

cold-drug 분할과 함께 BindingDB_Kd 데이터셋을 로드하여 모델이 보이지 않는 약물 화합물에 일반화되도록 하겠습니다.

모범 사례

새로운 화학적 구조에 대한 현실적인 모델 평가를 위해 무작위 분할 대신 scaffold 분할을 사용하세요
평균 및 표준 편차 성능을 보고하기 위해 필수 5개 시드 모두로 벤치마크 평가를 실행하세요
다목적 분자 최적화를 위해 가중 점수가 적용된 여러 oracle을 결합하세요

피하기

유사한 분자에 대한 성능을 과대평가하므로 프로덕션 ADME 모델에 대해 무작위 분할을 피하세요
단일 시드 벤치마크 결과는 실제 모델 분산을 반영하지 않을 수 있으므로 보고하지 마세요
Oracle 자체가 예측 모델이므로 학습의ground truth 레이블로 oracle을 사용하지 마세요

자주 묻는 질문

PyTDC에서 사용할 수 있는 데이터셋은 무엇인가요?

PyTDC는 ADME, 독성, 약물-표적 상호작용, 약물-약물 상호작용, 분자 생성을 위한 60개 이상의 데이터셋을 포함하여 치료적 ML 작업을 지원합니다.

Scaffold 분할이란 무엇이며 왜 사용하나요?

Scaffold 분할은 분자를 화학적 구조별로 그룹화하여 테스트 분자가 학습 분자와 다른 핵심 구조를 가지도록 하여, 실제 세계 일반화를 시뮬레이션합니다.

분자 Oracle은 어떻게 작동하나요?

Oracle는 SMILES 문자열에 대해 약물 유사성(QED), 합성 접근성(SA), 표적 결합(GSK3B, DRD2) 같은 속성을 점수로 제공하는 사전 학습된 모델입니다.

벤치마크를 위한 5-seed 프로토콜이란 무엇인가요?

TDC 벤치마크는 평균과 표준 편차를 계산하기 위해 5개의 다른 무작위 시드로 평가를 요구하여 강력한 성능 비교를 보장합니다.

PyTDC를 PyTorch Geometric이나 DGL과 함께 사용할 수 있나요?

네, TDC는 SMILES를 PyG 그래프, DGL 그래프 또는 ECFP 지문 같은 다른 분자 표현으로 변환하는 MolConvert 유틸리티를 제공합니다.

DTI 예측을 위한 cold-drug 분할이란 무엇인가요?

Cold-drug 분할은 테스트 세트 약물이 학습에 나타나지 않도록 하여 모델이 완전히 새로운 약물化合물의 결합을 얼마나 잘 예측하는지 측정합니다.

개발자 세부 정보

작성자

K-Dense-AI

라이선스

MIT license

리포지토리

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pytdc

참조

main

파일 구조

📁 references/

📄 datasets.md

📄 oracles.md

📄 utilities.md

📁 scripts/

📄 benchmark_evaluation.py

📄 load_and_split_data.py

📄 molecular_generation.py

📄 EVALUATION_OUTPUT.json

📄 SKILL.md