arboreto
Inferir redes regulatorias génicas a partir de datos de expresión
متاح أيضًا من: davila7
La inferencia de redes regulatorias génicas identifica relaciones factor de transcripción-gen diana a partir de datos de transcriptómica. Arboreto proporciona implementaciones escalables de los algoritmos GRNBoost2 y GENIE3 que procesan datos de RNA-seq masivos y de célula única en máquinas locales o clústeres distribuidos.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "arboreto". Infer a gene regulatory network from expression_data.tsv using arboreto
النتيجة المتوقعة:
- Network contains 1500 regulatory links
- Top regulators: TF1 (45 targets), TF2 (38 targets), TF3 (32 targets)
- Highest importance: TF1 -> gene5 (0.92 importance score)
استخدام "arboreto". Run GRNBoost2 with TF filtering on my single-cell data
النتيجة المتوقعة:
- Processed 8000 cells x 20000 genes
- Filtered to 250 known transcription factors
- Inferred network in 4.2 minutes on local cluster
- Top cell-type regulator: MYC (87 targets, avg importance 0.78)
التدقيق الأمني
آمنAll 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.
عوامل الخطر
⚙️ الأوامر الخارجية (2)
🌐 الوصول إلى الشبكة (2)
درجة الجودة
ماذا يمكنك بناءه
Análisis de GRN de célula única
Inferir redes regulatorias específicas de tipo celular a partir de datos de scRNA-seq para comprender la heterogeneidad celular.
Inferencia de red con RNA-seq masivo
Identificar dianas de factores de transcripción en conjuntos de datos de expresión masiva con filtrado de TF para un análisis centrado.
GRN distribuido a gran escala
Procesar conjuntos de datos con miles de muestras usando clústeres Dask para entornos de computación de alto rendimiento.
جرّب هذه الموجهات
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.
أفضل الممارسات
- Siempre usar la guarda 'if __name__ == __main__:' en scripts ya que Dask genera nuevos procesos
- Establecer una semilla aleatoria para resultados reproducibles al comparar redes
- Filtrar la lista de TF a factores de transcripción conocidos para reducir el tiempo de computación
تجنب
- Ejecutar arboreto sin filtrado de TF en grandes conjuntos de datos causa tiempo de computación excesivo
- Olvidar la guarda 'if __name__ == __main__:' causa errores de generación de procesos Dask
- Usar GENIE3 en conjuntos de datos con miles de observaciones es lento; preferir GRNBoost2 para datos grandes
الأسئلة المتكررة
¿Cuál es la diferencia entre GRNBoost2 y GENIE3?
¿Qué formato de entrada espera arboreto?
¿Cómo funciona la computación distribuida?
¿Qué significa la salida?
¿Cómo filtro los resultados?
¿Puedo usar esto con pySCENIC?
تفاصيل المطور
المؤلف
K-Dense-AIالترخيص
BSD-3-Clause license
المستودع
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboretoمرجع
main
بنية الملفات