약물 발견 연구자들은 ML 모델 학습을 위한 표준화된 데이터셋이 필요합니다. PyTDC는 적절한 train-test 분할과 평가 oracle과 함께 정리된 ADME, 독성, 약물-표적 상호작용 데이터셋을 제공합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"pytdc" 사용 중입니다. AMES 독성 데이터셋을 로드하고 데이터 형식을 보여주세요
예상 결과:
- 돌연변이원성 예측을 위해 7,255개 화합물이 포함된 데이터셋이 로드됨
- Drug_ID, Drug (SMILES), Y (이진 독성 레이블) 열이 포함됨
- Scaffold 분할 적용됨: 5,078개 학습, 725개 검증, 1,452개 테스트 분자
"pytdc" 사용 중입니다. 이 분자를 GSK3B oracle로 평가하세요: CC(C)Cc1ccc(cc1)C(C)C(O)=O
예상 결과:
- GSK3B 결합 점수: 0.0234 (낮은 예측 친화도)
- 이 SMILES는 이부프로펜을 나타내며, GSK3B를 억제할 것으로 예상되지 않음
- 점수는 0에서 1 사이이며, 높은 값일수록 더 강한 예측 결합을 나타냄
보안 감사
안전This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.
위험 요인
⚙️ 외부 명령어 (339)
🌐 네트워크 접근 (15)
품질 점수
만들 수 있는 것
ADME 예측 모델 학습
Caco-2 투과성 데이터를 scaffold 분할과 함께 로드하고, 분자 속성 예측기를 학습하며, 표준 지표로 평가하세요.
독성 예측기 평가
hERG, AMES, DILI 독성 데이터셋에 벤치마크 프로토콜로 접근하여 안전성 예측 모델을 검증하세요.
새로운 약물 후보 생성
GSK3B, DRD2 같은 분자 oracle을 사용하여 생성 모델을 원하는 생물학적 활성을 가진 화합물로 안내하세요.
이 프롬프트를 사용해 보세요
장관 투과성 예측기를 학습하기 위해 scaffold 분할과 함께 TDC에서 Caco2_Wang 데이터셋을 로드하는 방법을 알려주세요.
TDC 벤치마크 그룹과 필수 5-seed 프로토콜을 사용하여 내 ADME 모델을 평가하는 방법을 보여주세요.
생성된 SMILES 문자열을 QED, SA, GSK3B 속성에 대해 TDC oracle으로 평가하고 싶습니다. 워크플로우를 보여주세요.
cold-drug 분할과 함께 BindingDB_Kd 데이터셋을 로드하여 모델이 보이지 않는 약물 화합물에 일반화되도록 하겠습니다.
모범 사례
- 새로운 화학적 구조에 대한 현실적인 모델 평가를 위해 무작위 분할 대신 scaffold 분할을 사용하세요
- 평균 및 표준 편차 성능을 보고하기 위해 필수 5개 시드 모두로 벤치마크 평가를 실행하세요
- 다목적 분자 최적화를 위해 가중 점수가 적용된 여러 oracle을 결합하세요
피하기
- 유사한 분자에 대한 성능을 과대평가하므로 프로덕션 ADME 모델에 대해 무작위 분할을 피하세요
- 단일 시드 벤치마크 결과는 실제 모델 분산을 반영하지 않을 수 있으므로 보고하지 마세요
- Oracle 자체가 예측 모델이므로 학습의ground truth 레이블로 oracle을 사용하지 마세요