技能 pytdc

💊

pytdc

Name: pytdc
Author: K-Dense-AI

安全 ⚙️ 外部命令🌐 網路存取

使用 PyTDC 存取藥物發現資料集

也可從以下取得: davila7

藥物發現研究人員需要標準化的資料集來訓練機器學習模型。PyTDC 提供經過策展的 ADME、毒性和藥物-標靶互動資料集，並附有適當的訓練-測試分割和評估預言機。

支援: Claude Codex Code(CC)

🥉 76 青銅

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「pytdc」。 Load the AMES toxicity dataset and show me the data format

預期結果:

Dataset loaded with 7,255 compounds for mutagenicity prediction
Columns include Drug_ID, Drug (SMILES), and Y (binary toxicity label)
Scaffold split applied: 5,078 train, 725 validation, 1,452 test molecules

正在使用「pytdc」。 Evaluate this molecule with the GSK3B oracle: CC(C)Cc1ccc(cc1)C(C)C(O)=O

預期結果:

GSK3B binding score: 0.0234 (low predicted affinity)
This SMILES represents ibuprofen, not expected to inhibit GSK3B
Scores range from 0 to 1, with higher values indicating stronger predicted binding

安全審計

安全

v4 • 1/17/2026

This skill provides documentation and templates for PyTDC, a legitimate drug discovery dataset library. All 427 static findings are false positives caused by markdown code blocks containing Python examples (detected as shell backticks), scientific terminology (DRD2, GSK3B detected as C2 keywords), and molecular/cryptographic naming overlaps. No actual security risks present.

已掃描檔案

3,184

分析行數

發現項

審計總數

風險因素

⚙️ 外部命令 (339)

🌐 網路存取 (15)

EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 EVALUATION_OUTPUT.json:42 references/datasets.md:246 references/oracles.md:374 references/oracles.md:398 references/utilities.md:681 references/utilities.md:682 references/utilities.md:683 references/utilities.md:684 scripts/benchmark_evaluation.py:268 skill-report.json:6 SKILL.md:454 SKILL.md:455 SKILL.md:456

審計者: claude 查看審計歷史 →

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

訓練 ADME 預測模型

使用支架分割載入 Caco-2 滲透性資料集，訓練分子屬性預測器，並使用標準指標進行評估。

評估毒性預測模型

存取 hERG、AMES 和 DILI 毒性資料集，配合基準協議來驗證安全性預測模型。

生成新型藥物候選物

使用分子預言機如 GSK3B 和 DRD2 來引導生成模型，產生具有所需生物活性的化合物。

試試這些提示

載入 ADME 資料集

幫助我從 TDC 載入 Caco2_Wang 資料集，並使用支架分割來訓練腸道滲透性預測模型。

執行基準評估

展示如何使用 TDC 基準群組和所需的 5 種子協議來評估我的 ADME 模型。

使用分子預言機

我想使用 TDC 預言機來評估生成的 SMILES 字串，針對 QED、SA 和 GSK3B 屬性。展示我工作流程。

藥物-標靶互動建模

載入 BindingDB_Kd 資料集，使用冷藥物分割來確保我的模型能推廣到未見過的藥物化合物。

最佳實務

使用支架分割而非隨機分割，以在新型化學支架上實現更真實的模型評估
使用所有 5 個必要種子執行基準評估，以報告平均和標準差效能
結合多個預言機與加權評分以實現多目標分子優化

避免

避免對生產環境 ADME 模型使用隨機分割，因為它們會高估相似分子的效能
不要報告單一種子基準結果，因為它們可能無法反映真正的模型變異數
避免使用預言機作為訓練的真實標籤，因為它們本身是預測模型

常見問題

PyTDC 中有哪些可用的資料集？

PyTDC 包含 60 多個涵蓋 ADME、毒性、藥物-標靶互動、藥物-藥物互動和分子生成任務的資料集，專為治療性機器學習設計。

什麼是支架分割，為什麼要使用它？

支架分割根據化學支架對分子進行分組，使測試分子具有與訓練分子不同的核心結構，模擬真實世界的推廣能力。

分子預言機如何運作？

預言機是預訓練模型，可對 SMILES 字串進行評分，針對藥物相似性 (QED)、合成可及性 (SA) 或標靶結合 (GSK3B、DRD2) 等屬性。

什麼是基準評估的 5 種子協議？

TDC 基準評估需要使用 5 個不同的隨機種子來計算平均值和標準差，確保穩健的效能比較。

我可以使用 PyTDC 搭配 PyTorch Geometric 或 DGL 嗎？

是的，TDC 提供 MolConvert 工具，可以將 SMILES 轉換為 PyG 圖形、DGL 圖形或其他分子表示，如 ECFP 指紋。

什麼是 DTI 預測的冷藥物分割？

冷藥物分割確保測試集中的藥物永遠不會出現在訓練集中，測量模型對全新藥物化合物預測結合的能力。

開發者詳情

作者

K-Dense-AI

授權

MIT license

儲存庫

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pytdc

引用

main

檔案結構

📁 references/

📄 datasets.md

📄 oracles.md

📄 utilities.md

📁 scripts/

📄 benchmark_evaluation.py

📄 load_and_split_data.py

📄 molecular_generation.py

📄 EVALUATION_OUTPUT.json

📄 SKILL.md