arboreto
Inferir Redes Regulatórias Gênicas a Partir de Dados de Expressão
Também disponível em: davila7
A inferência de rede regulatória gênica identifica relações fator de transcrição-gene alvo a partir de dados de transcriptômica. O Arboreto fornece implementações escaláveis dos algoritmos GRNBoost2 e GENIE3 que processam dados de RNA-seq de bulk e de célula única em máquinas locais ou clusters distribuídos.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "arboreto". Inferir uma rede regulatória gênica de expression_data.tsv usando arboreto
Resultado esperado:
- Rede contém 1500 links regulatórios
- Principais reguladores: TF1 (45 alvos), TF2 (38 alvos), TF3 (32 alvos)
- Maior importância: TF1 -> gene5 (0.92 de importância)
A utilizar "arboreto". Executar GRNBoost2 com filtragem de TF nos meus dados de célula única
Resultado esperado:
- Processado 8000 células x 20000 genes
- Filtrado para 250 fatores de transcrição conhecidos
- Rede inferida em 4.2 minutos no cluster local
- Principal regulador de tipo celular: MYC (87 alvos, importância média 0.78)
Auditoria de Segurança
SeguroAll 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.
Fatores de risco
⚙️ Comandos externos (2)
🌐 Acesso à rede (2)
Pontuação de qualidade
O Que Você Pode Construir
Análise de GRN de Célula Única
Inferir redes regulatórias específicas de tipo celular a partir de dados de scRNA-seq para compreender a heterogeneidade celular.
Inferência de Rede com RNA-seq de Bulk
Identificar alvos de fatores de transcrição em conjuntos de dados de expressão de bulk com filtragem de TF para análise focada.
GRN em Larga Escala Distribuído
Processar conjuntos de dados com milhares de amostras usando clusters Dask para ambientes de computação de alto desempenho.
Tente Estes Prompts
Use arboreto para inferir uma rede regulatória gênica a partir da minha matriz de expressão em expression_data.tsv. Salve os resultados em network.tsv.
Execute grnboost2 em expression_data.tsv usando apenas os fatores de transcrição listados em tfs.txt. Defina seed como 42 para reprodutibilidade.
Conecte-se ao meu cluster Dask em tcp://scheduler:8786 e execute grnboost2 no meu grande conjunto de dados com saída detalhada ativada.
Inferir redes GRN separadas para os conjuntos de dados de expressão control, treatment_24h, e treatment_48h usando grnboost2. Salve cada uma com o nome da condição correspondente.
Melhores Práticas
- Sempre use a proteção 'if __name__ == __main__:' em scripts, pois o Dask gera novos processos
- Defina uma seed aleatória para resultados reprodutíveis ao comparar redes
- Filtre a lista de TFs para fatores de transcrição conhecidos para reduzir o tempo de computação
Evitar
- Executar arboreto sem filtragem de TF em grandes conjuntos de dados causa tempo de computação excessivo
- Esquecer a proteção 'if __name__ == __main__:' causa erros de geração de processos do Dask
- Usar GENIE3 em conjuntos de dados com milhares de observações é lento; prefira GRNBoost2 para dados grandes
Perguntas Frequentes
Qual é a diferença entre GRNBoost2 e GENIE3?
Qual formato de entrada o arboreto espera?
Como funciona a computação distribuída?
O que significa a saída?
Como filtro os resultados?
Posso usar isso com o pySCENIC?
Detalhes do Desenvolvedor
Autor
K-Dense-AILicença
BSD-3-Clause license
Repositório
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboretoReferência
main
Estrutura de arquivos