🧬

arboreto

Name: arboreto
Author: K-Dense-AI

Seguro ⚙️ Comandos externos🌐 Acesso à rede

Inferir Redes Regulatórias Gênicas a Partir de Dados de Expressão

Também disponível em: davila7

A inferência de rede regulatória gênica identifica relações fator de transcrição-gene alvo a partir de dados de transcriptômica. O Arboreto fornece implementações escaláveis dos algoritmos GRNBoost2 e GENIE3 que processam dados de RNA-seq de bulk e de célula única em máquinas locais ou clusters distribuídos.

Suporta: Claude Codex Code(CC)

🥈 77 Prata

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "arboreto". Inferir uma rede regulatória gênica de expression_data.tsv usando arboreto

Resultado esperado:

Rede contém 1500 links regulatórios
Principais reguladores: TF1 (45 alvos), TF2 (38 alvos), TF3 (32 alvos)
Maior importância: TF1 -> gene5 (0.92 de importância)

A utilizar "arboreto". Executar GRNBoost2 com filtragem de TF nos meus dados de célula única

Resultado esperado:

Processado 8000 células x 20000 genes
Filtrado para 250 fatores de transcrição conhecidos
Rede inferida em 4.2 minutos no cluster local
Principal regulador de tipo celular: MYC (87 alvos, importância média 0.78)

Auditoria de Segurança

Seguro

v4 • 1/17/2026

All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.

Arquivos analisados

1,589

Linhas analisadas

achados

Total de auditorias

Fatores de risco

⚙️ Comandos externos (2)

references/algorithms.md:29-37 SKILL.md:20-22

🌐 Acesso à rede (2)

references/distributed_computing.md:109 references/distributed_computing.md:124

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Análise de GRN de Célula Única

Inferir redes regulatórias específicas de tipo celular a partir de dados de scRNA-seq para compreender a heterogeneidade celular.

Inferência de Rede com RNA-seq de Bulk

Identificar alvos de fatores de transcrição em conjuntos de dados de expressão de bulk com filtragem de TF para análise focada.

GRN em Larga Escala Distribuído

Processar conjuntos de dados com milhares de amostras usando clusters Dask para ambientes de computação de alto desempenho.

Tente Estes Prompts

Inferência Básica de GRN

Use arboreto para inferir uma rede regulatória gênica a partir da minha matriz de expressão em expression_data.tsv. Salve os resultados em network.tsv.

Com Filtragem de TF

Execute grnboost2 em expression_data.tsv usando apenas os fatores de transcrição listados em tfs.txt. Defina seed como 42 para reprodutibilidade.

Computação em Cluster

Conecte-se ao meu cluster Dask em tcp://scheduler:8786 e execute grnboost2 no meu grande conjunto de dados com saída detalhada ativada.

Múltiplas Condições

Inferir redes GRN separadas para os conjuntos de dados de expressão control, treatment_24h, e treatment_48h usando grnboost2. Salve cada uma com o nome da condição correspondente.

Melhores Práticas

Sempre use a proteção 'if __name__ == __main__:' em scripts, pois o Dask gera novos processos
Defina uma seed aleatória para resultados reprodutíveis ao comparar redes
Filtre a lista de TFs para fatores de transcrição conhecidos para reduzir o tempo de computação

Evitar

Executar arboreto sem filtragem de TF em grandes conjuntos de dados causa tempo de computação excessivo
Esquecer a proteção 'if __name__ == __main__:' causa erros de geração de processos do Dask
Usar GENIE3 em conjuntos de dados com milhares de observações é lento; prefira GRNBoost2 para dados grandes

Perguntas Frequentes

Qual é a diferença entre GRNBoost2 e GENIE3?

GRNBoost2 usa gradient boosting e é mais rápido para grandes conjuntos de dados. GENIE3 usa Random Forest e é melhor para pequenos conjuntos de dados ou validação.

Qual formato de entrada o arboreto espera?

Matriz de expressão gênica com genes como colunas e observações como linhas. Use DataFrame do Pandas ou array do NumPy com nomes de genes.

Como funciona a computação distribuída?

O arboreto usa Dask para paralelizar a regressão gene a gene. Conecte-se a um LocalCluster ou agendador remoto para computação multinó.

O que significa a saída?

A saída são triplas TF-alvo-importância, onde pontuações de importância mais altas indicam relações regulatórias previstas mais fortes.

Como filtro os resultados?

Filtre por limite de importância (ex: > 0.5) ou selecione os N principais links por gene alvo. Use operações de DataFrame do pandas.

Posso usar isso com o pySCENIC?

Sim, o arboreto fornece inferência de GRN como a primeira etapa do pipeline SCENIC para análise de redes regulatórias em célula única.

Detalhes do Desenvolvedor

Autor

K-Dense-AI

Licença

BSD-3-Clause license

Repositório

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboreto

Referência

main

Estrutura de arquivos

📁 references/

📄 algorithms.md

📄 basic_inference.md

📄 distributed_computing.md

📁 scripts/

📄 basic_grn_inference.py

📄 SKILL.md