藥物發現研究人員需要標準化的資料集來訓練機器學習模型。PyTDC 提供經過策展的 ADME、毒性和藥物-標靶互動資料集,並附有適當的訓練-測試分割和評估預言機。
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「pytdc」。 Load the AMES toxicity dataset and show me the data format
預期結果:
- Dataset loaded with 7,255 compounds for mutagenicity prediction
- Columns include Drug_ID, Drug (SMILES), and Y (binary toxicity label)
- Scaffold split applied: 5,078 train, 725 validation, 1,452 test molecules
正在使用「pytdc」。 Evaluate this molecule with the GSK3B oracle: CC(C)Cc1ccc(cc1)C(C)C(O)=O
預期結果:
- GSK3B binding score: 0.0234 (low predicted affinity)
- This SMILES represents ibuprofen, not expected to inhibit GSK3B
- Scores range from 0 to 1, with higher values indicating stronger predicted binding
安全審計
安全This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.
風險因素
⚙️ 外部命令 (339)
🌐 網路存取 (15)
品質評分
你能建構什麼
訓練 ADME 預測模型
使用支架分割載入 Caco-2 滲透性資料集,訓練分子屬性預測器,並使用標準指標進行評估。
評估毒性預測模型
存取 hERG、AMES 和 DILI 毒性資料集,配合基準協議來驗證安全性預測模型。
生成新型藥物候選物
使用分子預言機如 GSK3B 和 DRD2 來引導生成模型,產生具有所需生物活性的化合物。
試試這些提示
幫助我從 TDC 載入 Caco2_Wang 資料集,並使用支架分割來訓練腸道滲透性預測模型。
展示如何使用 TDC 基準群組和所需的 5 種子協議來評估我的 ADME 模型。
我想使用 TDC 預言機來評估生成的 SMILES 字串,針對 QED、SA 和 GSK3B 屬性。展示我工作流程。
載入 BindingDB_Kd 資料集,使用冷藥物分割來確保我的模型能推廣到未見過的藥物化合物。
最佳實務
- 使用支架分割而非隨機分割,以在新型化學支架上實現更真實的模型評估
- 使用所有 5 個必要種子執行基準評估,以報告平均和標準差效能
- 結合多個預言機與加權評分以實現多目標分子優化
避免
- 避免對生產環境 ADME 模型使用隨機分割,因為它們會高估相似分子的效能
- 不要報告單一種子基準結果,因為它們可能無法反映真正的模型變異數
- 避免使用預言機作為訓練的真實標籤,因為它們本身是預測模型