技能 geniml
🧬

geniml

安全 ⚙️ 外部命令

使用機器學習分析基因組區間

也可從以下取得: davila7

Geniml 將 BED 文件轉換為機器學習嵌入,用於基因組區域分析。訓練模型以尋找染色質可及性模式,建立共識峰值集,並分析單細胞 ATAC-seq 數據。

支援: Claude Codex Code(CC)
📊 71 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「geniml」。 在我的 ATAC-seq 峰值上訓練 region2vec 並評估嵌入

預期結果:

  • 使用宇宙文件對 15,234 個峰值進行了分詞
  • 為 8,567 個唯一區域訓練了 100 維嵌入
  • 輪廓分數:0.72(良好的聚類質量)
  • Davies-Bouldin 指數:0.85(低聚類間相似性)
  • 生成了 2D UMAP 用於可視化

正在使用「geniml」。 從 10 個 ATAC-seq 實驗中構建共識峰值宇宙

預期結果:

  • 合併了所有實驗中的 245,000 個峰值
  • 應用了 5x 閾值的覆蓋率截止方法
  • 生成了包含 32,450 個區域的共識宇宙
  • 輸入峰值的覆蓋率:87.3%
  • 平均區域大小:425bp(適用於 ATAC-seq)

正在使用「geniml」。 分析單細胞 ATAC-seq 數據以進行細胞類型註釋

預期結果:

  • 對來自 PBMB 數據集的 8,500 個細胞進行了預分詞
  • 訓練了 100 維的 scEmbed 模型
  • 為所有細胞生成了細胞嵌入
  • Leiden 聚類識別出 12 個不同的細胞群體
  • 標註了主要類型:T 細胞、B 細胞、單核細胞、NK 細胞

安全審計

安全
v4 • 1/17/2026

Static analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.

8
已掃描檔案
2,570
分析行數
1
發現項
4
審計總數
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
87
內容
21
社群
100
安全
91
規範符合性

你能建構什麼

比較 ChIP-seq 實驗

訓練區域嵌入以在不同轉錄因子結合實驗中找到相似的峰值

按染色質對細胞進行聚類

使用 scEmbed 分析 scATAC-seq 數據,根據染色質可及性模式識別細胞類型

建立參考峰值集

從多個 ATAC-seq 實驗創建共識宇宙,用於標準化分析

試試這些提示

訓練區域嵌入
幫助我在 BED 文件上訓練 region2vec 嵌入。首先使用宇宙文件對它們進行分詞,然後訓練一個 100 維的嵌入模型。
分析 scATAC-seq
使用 scEmbed 在 scanpy 中分析我的 scATAC-seq 數據。對細胞進行分詞,訓練嵌入模型,並生成 UMAP 可視化。
建立共識峰值
使用覆蓋率截止方法以 5x 閾值從我的 BED 文件集合中構建共識宇宙。
聯合區域-標籤嵌入
在具有細胞類型標籤的區域上訓練 BEDspace 嵌入,以實現區域和元數據之間的跨模態查詢。

最佳實務

  • 在訓練嵌入之前,始終使用良好峰值覆蓋率構建高質量宇宙
  • 驗證分詞覆蓋率(大於 80%),並根據需要調整 p 值閾值
  • 使用多個評估指標來評估嵌入質量和生物學相關性

避免

  • 在沒有正確構建宇宙的情況下,在低質量或對齊不佳的峰值集上訓練
  • 不對特定數據類型和規模調整參數而使用默認值
  • 跳過評估步驟——在下游分析之前始終驗證嵌入

常見問題

geniml 支持什麼文件格式?
Geniml 處理基因組區域的標準 BED 文件(3 列以上)和元數據的 CSV 文件。
如何選擇嵌入維度?
大多數分析從 100 維開始。對於小型數據集使用 50,對於複雜的多標籤場景使用 200 以上。
我可以將 geniml 與其他單細胞工具一起使用嗎?
可以,scEmbed 輸出可以無縫集成到 scanpy 中作為 adata.obsm 嵌入用於聚類和可視化。
Region2Vec 和 BEDspace 有什麼區別?
Region2Vec 僅在區域上訓練。BEDspace 聯合嵌入區域和元數據標籤以實現跨模態查詢。
訓練需要多長時間?
小型數據集需要數分鐘,大型集合需要數小時。在大型單細胞數據上使用 GPU 運行 scEmbed。
我需要宇宙文件嗎?
需要,用於分詞。使用共識峰值構建一個,或使用像 ENCODE SCREEN 這樣的參考。

開發者詳情