Habilidades arboreto
🧬

arboreto

Seguro ⚙️ Comandos externos🌐 Acceso a red

Inferir redes regulatorias génicas a partir de datos de expresión

También disponible en: davila7

La inferencia de redes regulatorias génicas identifica relaciones factor de transcripción-gen diana a partir de datos de transcriptómica. Arboreto proporciona implementaciones escalables de los algoritmos GRNBoost2 y GENIE3 que procesan datos de RNA-seq masivos y de célula única en máquinas locales o clústeres distribuidos.

Soporta: Claude Codex Code(CC)
🥈 78 Plata
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "arboreto". Infer a gene regulatory network from expression_data.tsv using arboreto

Resultado esperado:

  • Network contains 1500 regulatory links
  • Top regulators: TF1 (45 targets), TF2 (38 targets), TF3 (32 targets)
  • Highest importance: TF1 -> gene5 (0.92 importance score)

Usando "arboreto". Run GRNBoost2 with TF filtering on my single-cell data

Resultado esperado:

  • Processed 8000 cells x 20000 genes
  • Filtered to 250 known transcription factors
  • Inferred network in 4.2 minutes on local cluster
  • Top cell-type regulator: MYC (87 targets, avg importance 0.78)

Auditoría de seguridad

Seguro
v4 • 1/17/2026

All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.

6
Archivos escaneados
1,589
Líneas analizadas
2
hallazgos
4
Auditorías totales

Puntuación de calidad

68
Arquitectura
100
Mantenibilidad
87
Contenido
30
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Análisis de GRN de célula única

Inferir redes regulatorias específicas de tipo celular a partir de datos de scRNA-seq para comprender la heterogeneidad celular.

Inferencia de red con RNA-seq masivo

Identificar dianas de factores de transcripción en conjuntos de datos de expresión masiva con filtrado de TF para un análisis centrado.

GRN distribuido a gran escala

Procesar conjuntos de datos con miles de muestras usando clústeres Dask para entornos de computación de alto rendimiento.

Prueba estos prompts

Inferencia básica de GRN
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
Con filtrado de TF
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
Computación en clúster
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
Múltiples condiciones
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.

Mejores prácticas

  • Siempre usar la guarda 'if __name__ == __main__:' en scripts ya que Dask genera nuevos procesos
  • Establecer una semilla aleatoria para resultados reproducibles al comparar redes
  • Filtrar la lista de TF a factores de transcripción conocidos para reducir el tiempo de computación

Evitar

  • Ejecutar arboreto sin filtrado de TF en grandes conjuntos de datos causa tiempo de computación excesivo
  • Olvidar la guarda 'if __name__ == __main__:' causa errores de generación de procesos Dask
  • Usar GENIE3 en conjuntos de datos con miles de observaciones es lento; preferir GRNBoost2 para datos grandes

Preguntas frecuentes

¿Cuál es la diferencia entre GRNBoost2 y GENIE3?
GRNBoost2 usa gradient boosting y es más rápido para grandes conjuntos de datos. GENIE3 usa Random Forest y es mejor para conjuntos de datos pequeños o validación.
¿Qué formato de entrada espera arboreto?
Matriz de expresión génica con genes como columnas y observaciones como filas. Usar DataFrame de pandas o array de NumPy con nombres de genes.
¿Cómo funciona la computación distribuida?
Arboreto usa Dask para paralelizar la regresión gene a gene. Conectarse a un LocalCluster o programador remoto para computación multinodo.
¿Qué significa la salida?
La salida son tripletes TF-diana-importancia donde puntuaciones de importancia más altas indican relaciones regulatorias predichas más fuertes.
¿Cómo filtro los resultados?
Filtrar por umbral de importancia (ej. > 0.5) o seleccionar los N enlaces principales por gen diana. Usar operaciones de DataFrame de pandas.
¿Puedo usar esto con pySCENIC?
Sí, arboreto proporciona inferencia de GRN como el primer paso del pipeline SCENIC para análisis de redes regulatorias de célula única.

Detalles del desarrollador