スキル arboreto
🧬

arboreto

安全 ⚙️ 外部コマンド🌐 ネットワークアクセス

発現データから遺伝子制御ネットワークを推論

こちらからも入手できます: davila7

遺伝子制御ネットワーク推論は、トランスクリプトミクスデータから転写因子-標的遺伝子関係を特定します。Arboretoは、GRNBoost2およびGENIE3アルゴリズムのスケーラブルな実装を提供し、ローカルマシンまたは分散クラスターでバルクおよびシングルセルRNA-seqデータを処理できます。

対応: Claude Codex Code(CC)
🥈 78 シルバー
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「arboreto」を使用しています。 発現データexpression_data.tsvから遺伝子制御ネットワークを推論する

期待される結果:

  • ネットワークには1500の制御リンクが含まれる
  • 上位制御因子: TF1(45標的)、TF2(38標的)、TF3(32標的)
  • 最高重要度: TF1 -> gene5(重要度スコア0.92)

「arboreto」を使用しています。 シングルセルデータでTFフィルタリングを使用してGRNBoost2を実行

期待される結果:

  • 8000細胞 x 20000遺伝子を処理
  • 250の既知の転写因子にフィルタリング
  • ローカルクラスターで4.2分でネットワークを推論
  • 上位細胞種制御因子: MYC(87標的、平均重要度0.78)

セキュリティ監査

安全
v4 • 1/17/2026

All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.

6
スキャンされたファイル
1,589
解析された行数
2
検出結果
4
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

68
アーキテクチャ
100
保守性
87
コンテンツ
30
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

シングルセルGRN分析

細胞種特異的制御ネットワークをscRNA-seqデータから推論し、細胞の不均一性を理解する。

バルクRNA-seqネットワーク推論

TFフィルタリングを使用して、バルク発現データセット内の転写因子標的を特定し、焦点を絞った分析を行う。

分散大規模GRN

数千のサンプルを持つデータセットをDaskクラスターで処理し、高性能計算環境を実現する。

これらのプロンプトを試す

基本GRN推論
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
TFフィルタリング付き
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
クラスターコンピューティング
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
複数条件
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.

ベストプラクティス

  • Daskが新しいプロセスを生成するため、スクリプトでは常に'if __name__ == __main__:'ガードを使用する
  • ネットワークを比較する際に再現可能な結果のためにランダムシードを設定する
  • 計算時間を削減するためにTFリストを既知の転写因子にフィルタリングする

回避

  • TFフィルタリングなしで大規模なデータセットでarboretoを実行すると、計算時間が過剰になる
  • 'if __name__ == __main__:'ガードを忘れると、Daskプロセス生成エラーが発生する
  • 数千の観測値を持つデータセットでGENIE3を使用すると低速になる; 大規模データにはGRNBoost2を優先

よくある質問

GRNBoost2とGENIE3の違いは何ですか?
GRNBoost2は勾配ブースティングを使用し、大規模データセットでは高速です。GENIE3はランダムフォレストを使用し、小規模データセットや検証に適しています。
arboretoはどのような入力形式を期待しますか?
遺伝子を行、観測値列として持つ遺伝子発現マトリックス。遺伝子名を持つPandas DataFrameまたはNumPy配列を使用します。
分散コンピューティングはどのように機能しますか?
ArboretoはDaskを使用して遺伝子ごとの回帰を並列化します。マルチノード計算にはLocalClusterまたはリモートスケジューラに接続します。
出力の意味は何ですか?
出力はTF-標的-重要度の триアッドで、重要性スコアが高いほどより強い予測制御関係を示します。
結果をフィルタリングするにはどうすればよいですか?
重要性しきい値(例: > 0.5)でフィルタリングするか、標的遺伝子ごとに上位Nリンクを選択します。pandas DataFrame操作を使用します。
これをpySCENICと一緒に使用できますか?
はい、arboretoはシングルセル制御ネットワーク分析用のSCENICパイプラインの最初のステップとしてGRN推論を提供します。

開発者の詳細

作成者

K-Dense-AI

ライセンス

BSD-3-Clause license

参照

main