🧬

arboreto

Name: arboreto
Author: K-Dense-AI

Seguro ⚙️ Comandos externos🌐 Acceso a red

Inferir redes regulatorias génicas a partir de datos de expresión

También disponible en: davila7

La inferencia de redes regulatorias génicas identifica relaciones factor de transcripción-gen diana a partir de datos de transcriptómica. Arboreto proporciona implementaciones escalables de los algoritmos GRNBoost2 y GENIE3 que procesan datos de RNA-seq masivos y de célula única en máquinas locales o clústeres distribuidos.

Soporta: Claude Codex Code(CC)

🥈 77 Plata

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "arboreto". Infer a gene regulatory network from expression_data.tsv using arboreto

Resultado esperado:

Network contains 1500 regulatory links
Top regulators: TF1 (45 targets), TF2 (38 targets), TF3 (32 targets)
Highest importance: TF1 -> gene5 (0.92 importance score)

Usando "arboreto". Run GRNBoost2 with TF filtering on my single-cell data

Resultado esperado:

Processed 8000 cells x 20000 genes
Filtered to 250 known transcription factors
Inferred network in 4.2 minutes on local cluster
Top cell-type regulator: MYC (87 targets, avg importance 0.78)

Auditoría de seguridad

Seguro

v4 • 1/17/2026

All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.

Archivos escaneados

1,589

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (2)

references/algorithms.md:29-37 SKILL.md:20-22

🌐 Acceso a red (2)

references/distributed_computing.md:109 references/distributed_computing.md:124

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Análisis de GRN de célula única

Inferir redes regulatorias específicas de tipo celular a partir de datos de scRNA-seq para comprender la heterogeneidad celular.

Inferencia de red con RNA-seq masivo

Identificar dianas de factores de transcripción en conjuntos de datos de expresión masiva con filtrado de TF para un análisis centrado.

GRN distribuido a gran escala

Procesar conjuntos de datos con miles de muestras usando clústeres Dask para entornos de computación de alto rendimiento.

Prueba estos prompts

Inferencia básica de GRN

Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.

Con filtrado de TF

Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.

Computación en clúster

Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.

Múltiples condiciones

Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.

Mejores prácticas

Siempre usar la guarda 'if __name__ == __main__:' en scripts ya que Dask genera nuevos procesos
Establecer una semilla aleatoria para resultados reproducibles al comparar redes
Filtrar la lista de TF a factores de transcripción conocidos para reducir el tiempo de computación

Evitar

Ejecutar arboreto sin filtrado de TF en grandes conjuntos de datos causa tiempo de computación excesivo
Olvidar la guarda 'if __name__ == __main__:' causa errores de generación de procesos Dask
Usar GENIE3 en conjuntos de datos con miles de observaciones es lento; preferir GRNBoost2 para datos grandes

Preguntas frecuentes

¿Cuál es la diferencia entre GRNBoost2 y GENIE3?

GRNBoost2 usa gradient boosting y es más rápido para grandes conjuntos de datos. GENIE3 usa Random Forest y es mejor para conjuntos de datos pequeños o validación.

¿Qué formato de entrada espera arboreto?

Matriz de expresión génica con genes como columnas y observaciones como filas. Usar DataFrame de pandas o array de NumPy con nombres de genes.

¿Cómo funciona la computación distribuida?

Arboreto usa Dask para paralelizar la regresión gene a gene. Conectarse a un LocalCluster o programador remoto para computación multinodo.

¿Qué significa la salida?

La salida son tripletes TF-diana-importancia donde puntuaciones de importancia más altas indican relaciones regulatorias predichas más fuertes.

¿Cómo filtro los resultados?

Filtrar por umbral de importancia (ej. > 0.5) o seleccionar los N enlaces principales por gen diana. Usar operaciones de DataFrame de pandas.

¿Puedo usar esto con pySCENIC?

Sí, arboreto proporciona inferencia de GRN como el primer paso del pipeline SCENIC para análisis de redes regulatorias de célula única.

Detalles del desarrollador

Autor

K-Dense-AI

Licencia

BSD-3-Clause license

Repositorio

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboreto

Ref.

main

Estructura de archivos

📁 references/

📄 algorithms.md

📄 basic_inference.md

📄 distributed_computing.md

📁 scripts/

📄 basic_grn_inference.py

📄 SKILL.md