🧬

geniml

Name: geniml
Author: K-Dense-AI

安全 ⚙️ 外部コマンド

機械学習によるゲノム間隔の解析

こちらからも入手できます: davila7

GenimlはBEDファイルを機械学習エンベディングに変換し、ゲノム領域の解析を可能にします。クロマチンアクセシビリティのパターンを発見するためのモデルのトレーニング、コンセンサスピークセットの構築、単細胞ATAC-seqデータの解析を行います。

対応: Claude Codex Code(CC)

📊 71 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「geniml」を使用しています。私のATAC-seqピークでregion2vecをトレーニングし、エンベディングを評価してください

期待される結果:

ユニバースファイルを使用して15,234ピークをトークン化
8,567の一意の領域に対して100次元のエンベディングをトレーニング
シルエットスコア: 0.72（良好なクラスタリング品質）
Davies-Bouldin指数: 0.85（低いクラスター間類似性）
可視化用の2D UMAPを生成

「geniml」を使用しています。 10のATAC-seq実験からコンセンサスピークユニバースを構築

期待される結果:

すべての実験から245,000ピークを組み合わせ
5倍の閾値でカバレッジカットオフ法を適用
32,450領域のコンセンサスユニバースを生成
入力ピークのカバレッジ: 87.3%
平均領域サイズ: 425bp（ATAC-seqに適正）

「geniml」を使用しています。細胞タイプアノテーションのための単細胞ATAC-seqデータを解析

期待される結果:

PBMCデータセットから8,500セルを前トークン化
100次元でscEmbedモデルをトレーニング
すべてのセルのセルエンベディングを生成
Leidenクラスタリングにより12の異なる細胞集団を特定
主要タイプの注釈: T細胞、B細胞、単球、NK細胞

セキュリティ監査

安全

v4 • 1/17/2026

Static analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.

スキャンされたファイル

2,570

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (6)

references/bedspace.md:23-30 references/consensus_peaks.md:21-23 references/utilities.md:19-30 references/scembed.md:23-38 references/region2vec.md:25-33 SKILL.md:19-33

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

ChIP-seq実験の比較

領域エンベディングをトレーニングして、異なる転写因子結合実験間で類似したピークを見つける

クロマチンによる細胞のクラスタリング

scEmbedを使用してscATAC-seqデータを解析し、クロマチンアクセシビリティパターンに基づいて細胞タイプを特定する

リファレンスピークセットの構築

標準化された解析のため、複数のATAC-seq実験からコンセンサスユニバースを作成する

これらのプロンプトを試す

領域エンベディングのトレーニング

私のBEDファイルでregion2vecエンベディングをトレーニングする手助けをします。まず、ユニバースファイルを使用してトークン化してから、100次元のエンベディングモデルをトレーニングしてください。

scATAC-seqの解析

scanpyで私のscATAC-seqデータをscEmbedを使用して解析します。セルをトークン化し、エンベディングモデルをトレーニングし、UMAP可視化を生成してください。

コンセンサスピークの構築

私のBEDファイルコレクションから、カバレッジカットオフ法（5倍の閾値）を使用してコンセンサスユニバースを構築してください。

領域とラベルの結合エンベディング

細胞タイプラベルを持つ領域でBEDspaceエンベディングをトレーニングし、領域とメタデータ間のクロスモーダルクエリを可能にします。

ベストプラクティス

エンベディングのトレーニング前に、良好なピークカバレッジを持つ高品質なユニバースを必ず構築してください
トークン化カバレッジ（80%以上）を検証し、必要に応じてp値閾値を調整してください
複数の評価指標を使用して、エンベディング品質と生物学的関連性を評価してください

回避

適切なユニバース構築を行わずに、低品質または不一致のピークセットでトレーニングする
特定のデータタイプとスケールに合わせて調整せずにデフォルトパラメータを使用する
評価ステップをスキップする - ダウンストリーム解析の前にエンベディングを必ず検証してください

よくある質問

Genimlはどのようなファイル形式をサポートしていますか？

Genimlはゲノム領域の標準BEDファイル（3列以上）とメタデータのCSVファイルをサポートしています。

エンベディングの次元数はどのように選択すればよいですか？

ほとんどの解析では100次元から始めてください。小規模なデータセットには50次元、複雑なマルチラベルシナリオには200次元以上を使用してください。

Genimlは他の単細胞ツールと一緒に使用できますか？

はい、scEmbed出力はscanpyのadata.obsmエンベディングとしてシームレスに統合され、クラスタリングと可視化に使用できます。

Region2VecとBEDspaceの違いは何ですか？

Region2Vecは領域のみをトレーニングします。BEDspaceは領域とメタデータラベルを jointly エンベディングし、クロスモーダルクエリを可能にします。

トレーニングにはどのくらいの時間がかかりますか？

小規模なデータセット（数千の領域）では数分、大規模なコレクションでは数時間かかります。大規模な単細胞データではGPUを使用してください。

ユニバースファイルは必要ですか？

はい、トークン化には必要です。コンセンサスピークで構築するか、ENCODE SCREENなどのリファレンスを使用してください。

開発者の詳細

作成者

K-Dense-AI

ライセンス

BSD-2-Clause license

リポジトリ

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/geniml

参照

main

ファイル構成

📁 references/

📄 bedspace.md

📄 consensus_peaks.md

📄 region2vec.md

📄 scembed.md

📄 utilities.md

📄 evaluation.json

📄 SKILL.md