arboreto
Inferir redes regulatorias génicas a partir de datos de expresión
También disponible en: davila7
La inferencia de redes regulatorias génicas identifica relaciones factor de transcripción-gen diana a partir de datos de transcriptómica. Arboreto proporciona implementaciones escalables de los algoritmos GRNBoost2 y GENIE3 que procesan datos de RNA-seq masivos y de célula única en máquinas locales o clústeres distribuidos.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "arboreto". Infer a gene regulatory network from expression_data.tsv using arboreto
Resultado esperado:
- Network contains 1500 regulatory links
- Top regulators: TF1 (45 targets), TF2 (38 targets), TF3 (32 targets)
- Highest importance: TF1 -> gene5 (0.92 importance score)
Usando "arboreto". Run GRNBoost2 with TF filtering on my single-cell data
Resultado esperado:
- Processed 8000 cells x 20000 genes
- Filtered to 250 known transcription factors
- Inferred network in 4.2 minutes on local cluster
- Top cell-type regulator: MYC (87 targets, avg importance 0.78)
Auditoría de seguridad
SeguroAll 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.
Factores de riesgo
⚙️ Comandos externos (2)
🌐 Acceso a red (2)
Puntuación de calidad
Lo que puedes crear
Análisis de GRN de célula única
Inferir redes regulatorias específicas de tipo celular a partir de datos de scRNA-seq para comprender la heterogeneidad celular.
Inferencia de red con RNA-seq masivo
Identificar dianas de factores de transcripción en conjuntos de datos de expresión masiva con filtrado de TF para un análisis centrado.
GRN distribuido a gran escala
Procesar conjuntos de datos con miles de muestras usando clústeres Dask para entornos de computación de alto rendimiento.
Prueba estos prompts
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.
Mejores prácticas
- Siempre usar la guarda 'if __name__ == __main__:' en scripts ya que Dask genera nuevos procesos
- Establecer una semilla aleatoria para resultados reproducibles al comparar redes
- Filtrar la lista de TF a factores de transcripción conocidos para reducir el tiempo de computación
Evitar
- Ejecutar arboreto sin filtrado de TF en grandes conjuntos de datos causa tiempo de computación excesivo
- Olvidar la guarda 'if __name__ == __main__:' causa errores de generación de procesos Dask
- Usar GENIE3 en conjuntos de datos con miles de observaciones es lento; preferir GRNBoost2 para datos grandes
Preguntas frecuentes
¿Cuál es la diferencia entre GRNBoost2 y GENIE3?
¿Qué formato de entrada espera arboreto?
¿Cómo funciona la computación distribuida?
¿Qué significa la salida?
¿Cómo filtro los resultados?
¿Puedo usar esto con pySCENIC?
Detalles del desarrollador
Autor
K-Dense-AILicencia
BSD-3-Clause license
Repositorio
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboretoRef.
main
Estructura de archivos