スキル geniml
🧬

geniml

安全 ⚙️ 外部コマンド

機械学習によるゲノム間隔の解析

こちらからも入手できます: davila7

GenimlはBEDファイルを機械学習エンベディングに変換し、ゲノム領域の解析を可能にします。クロマチンアクセシビリティのパターンを発見するためのモデルのトレーニング、コンセンサスピークセットの構築、単細胞ATAC-seqデータの解析を行います。

対応: Claude Codex Code(CC)
📊 71 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「geniml」を使用しています。 私のATAC-seqピークでregion2vecをトレーニングし、エンベディングを評価してください

期待される結果:

  • ユニバースファイルを使用して15,234ピークをトークン化
  • 8,567の一意の領域に対して100次元のエンベディングをトレーニング
  • シルエットスコア: 0.72(良好なクラスタリング品質)
  • Davies-Bouldin指数: 0.85(低いクラスター間類似性)
  • 可視化用の2D UMAPを生成

「geniml」を使用しています。 10のATAC-seq実験からコンセンサスピークユニバースを構築

期待される結果:

  • すべての実験から245,000ピークを組み合わせ
  • 5倍の閾値でカバレッジカットオフ法を適用
  • 32,450領域のコンセンサスユニバースを生成
  • 入力ピークのカバレッジ: 87.3%
  • 平均領域サイズ: 425bp(ATAC-seqに適正)

「geniml」を使用しています。 細胞タイプアノテーションのための単細胞ATAC-seqデータを解析

期待される結果:

  • PBMCデータセットから8,500セルを前トークン化
  • 100次元でscEmbedモデルをトレーニング
  • すべてのセルのセルエンベディングを生成
  • Leidenクラスタリングにより12の異なる細胞集団を特定
  • 主要タイプの注釈: T細胞、B細胞、単球、NK細胞

セキュリティ監査

安全
v4 • 1/17/2026

Static analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.

8
スキャンされたファイル
2,570
解析された行数
1
検出結果
4
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

45
アーキテクチャ
100
保守性
87
コンテンツ
21
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

ChIP-seq実験の比較

領域エンベディングをトレーニングして、異なる転写因子結合実験間で類似したピークを見つける

クロマチンによる細胞のクラスタリング

scEmbedを使用してscATAC-seqデータを解析し、クロマチンアクセシビリティパターンに基づいて細胞タイプを特定する

リファレンスピークセットの構築

標準化された解析のため、複数のATAC-seq実験からコンセンサスユニバースを作成する

これらのプロンプトを試す

領域エンベディングのトレーニング
私のBEDファイルでregion2vecエンベディングをトレーニングする手助けをします。まず、ユニバースファイルを使用してトークン化してから、100次元のエンベディングモデルをトレーニングしてください。
scATAC-seqの解析
scanpyで私のscATAC-seqデータをscEmbedを使用して解析します。セルをトークン化し、エンベディングモデルをトレーニングし、UMAP可視化を生成してください。
コンセンサスピークの構築
私のBEDファイルコレクションから、カバレッジカットオフ法(5倍の閾値)を使用してコンセンサスユニバースを構築してください。
領域とラベルの結合エンベディング
細胞タイプラベルを持つ領域でBEDspaceエンベディングをトレーニングし、領域とメタデータ間のクロスモーダルクエリを可能にします。

ベストプラクティス

  • エンベディングのトレーニング前に、良好なピークカバレッジを持つ高品質なユニバースを必ず構築してください
  • トークン化カバレッジ(80%以上)を検証し、必要に応じてp値閾値を調整してください
  • 複数の評価指標を使用して、エンベディング品質と生物学的関連性を評価してください

回避

  • 適切なユニバース構築を行わずに、低品質または不一致のピークセットでトレーニングする
  • 特定のデータタイプとスケールに合わせて調整せずにデフォルトパラメータを使用する
  • 評価ステップをスキップする - ダウンストリーム解析の前にエンベディングを必ず検証してください

よくある質問

Genimlはどのようなファイル形式をサポートしていますか?
Genimlはゲノム領域の標準BEDファイル(3列以上)とメタデータのCSVファイルをサポートしています。
エンベディングの次元数はどのように選択すればよいですか?
ほとんどの解析では100次元から始めてください。小規模なデータセットには50次元、複雑なマルチラベルシナリオには200次元以上を使用してください。
Genimlは他の単細胞ツールと一緒に使用できますか?
はい、scEmbed出力はscanpyのadata.obsmエンベディングとしてシームレスに統合され、クラスタリングと可視化に使用できます。
Region2VecとBEDspaceの違いは何ですか?
Region2Vecは領域のみをトレーニングします。BEDspaceは領域とメタデータラベルを jointly エンベディングし、クロスモーダルクエリを可能にします。
トレーニングにはどのくらいの時間がかかりますか?
小規模なデータセット(数千の領域)では数分、大規模なコレクションでは数時間かかります。大規模な単細胞データではGPUを使用してください。
ユニバースファイルは必要ですか?
はい、トークン化には必要です。コンセンサスピークで構築するか、ENCODE SCREENなどのリファレンスを使用してください。

開発者の詳細

作成者

K-Dense-AI

ライセンス

BSD-2-Clause license

参照

main

ファイル構成