技能 geo-database
🧬
研究人員需要有效率地存取基因表現資料集以進行分析。此技能可查詢、下載及分析來自 NCBI GEO 資料庫的資料,該資料庫包含數百萬筆基因體學樣本。
支援: Claude Codex Code(CC)
1
下載技能 ZIP
2
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
3
開啟並開始使用
測試它
正在使用「geo-database」。 搜尋人類糖尿病基因表現資料集
預期結果:
- 找到 1,247 個符合 'diabetes AND Homo sapiens' 的資料集
- 熱門結果:
- - GSE12345:第二型糖尿病基因表現(47 個樣本)
- - GSE67890:糖尿病腎病變研究(32 個樣本)
- - GSE11111:胰島素反應時間序列(24 個樣本)
正在使用「geo-database」。 下載 GSE12345 並擷取中繼資料
預期結果:
- 已下載 GSE12345_series_matrix.txt.gz(145 MB)
- 資料集摘要:
- - 標題:糖尿病與正常腎臟的轉錄體分析
- - 樣本數:20(10 個糖尿病,10 個對照)
- - 平台:GPL570(Affymetrix Human Genome U133 Plus 2.0)
- - 生物體:Homo sapiens
- - 提交日期:2023-06-15
安全審計
低風險v4 • 1/17/2026
Documentation-only skill for accessing NCBI GEO database. Static analysis flagged 256 pattern-based issues but all are false positives. The 'backtick execution' findings are markdown code block syntax, not actual shell commands. Network operations are legitimate NCBI API access. FTP downloads target public GEO data repositories. Optional API key usage follows NCBI best practices. No executable code present - only documentation.
3
已掃描檔案
1,878
分析行數
3
發現項
4
審計總數
風險因素
⚙️ 外部命令 (3)
📁 檔案系統存取 (1)
審計者: claude 查看審計歷史 →
品質評分
41
架構
100
可維護性
87
內容
29
社群
90
安全
74
規範符合性
你能建構什麼
分析疾病中的基因表現
下載並比較健康與疾病組織樣本之間的基因表現資料,以識別生物標記。
跨研究的整合分析
結合多個 GEO 研究的資料,以提高偵測基因表現變化的統計效力。
建立預測模型
使用 GEO 表現資料來訓練機器學習模型,以預測藥物反應或患者分層。
試試這些提示
搜尋 GEO 資料集
搜尋過去 5 年的人類乳癌基因表現 GEO 資料集。顯示前 5 個結果,包含樣本數和使用的平台。
下載表現資料
下載 GSE12345 的表現矩陣和中繼資料。將檔案儲存到 ./data/ 並顯示資料集摘要,包含樣本數和基因數。
差異表現分析
對 GSE12345 執行差異表現分析,比較處理組與對照組樣本。使用 limma 或 t 檢定,顯示前 10 個最顯著的基因。
批次處理
下載並處理這 3 個 GEO 系列:GSE100001、GSE100002、GSE100003。擷取表現資料並建立包含研究資訊的摘要表格。
最佳實務
- 使用 NCBI E-utilities 時務必設定您的電子郵件(NCBI 政策要求)
- 向 NCBI 取得免費 API 金鑰以提高速率限制(每秒 10 個請求對比每秒 3 個請求)
- 將下載的 GEO 檔案快取在本地端以避免重複下載
避免
- 不要下載整個 GEO 資料庫 - 對存取權限要有選擇性
- 不要在共用或版本控制���程式碼中硬編碼 API 金鑰
- 解釋表現資料時不要忽略樣本中繼資料
常見問題
存取 GEO 需要 API 金鑰嗎?
API 金鑰是可選的,但建議使用。沒有金鑰:每秒 3 個請求。有金鑰:每秒 10 個請求。在 ncbi.nlm.nih.gov/account/ 取得免費金鑰。
GSE、GSM 和 GPL 之間有什麼區別?
GSE 是完整的研究(系列),GSM 是個別樣本,GPL 是微陣列或定序平台。請使用 GSE 取得完整資料集。
為什麼某些系列的表現資料缺失?
較舊的提交可能缺少矩陣檔案。請下載家族 SOFT 檔案或解析個別樣本表格以取得完整資料。
如何處理非常大的 GEO 資料集?
對大量資料使用 FTP 下載、分塊處理,並對稀疏表現資料使用稀疏矩陣以提高記憶體效率。
我可以將 GEO 資料用於臨床研究嗎?
可以,GEO 資料屬於公有領域。請務必引用原始研究,並在臨床應用前驗證資料品質。
我應該使用什麼檔案格式來處理表現資料?
系列矩陣檔案對表現值來說是最快的。SOFT 適用於完整中繼資料。MINiML 適用於基於 XML 的處理需求。