geniml
Analisar intervalos genômicos com aprendizado de máquina
Também disponível em: davila7
O Geniml transforma arquivos BED em embeddings de aprendizado de máquina para análise de regiões genômicas. Treine modelos para encontrar padrões em acessibilidade de cromatina, construa conjuntos de picos de consenso e analise dados de ATAC-seq de célula única.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "geniml". Treine region2vec em meus picos de ATAC-seq e avalie os embeddings
Resultado esperado:
- Tokenizou 15.234 picos usando arquivo de universo
- Treinou embeddings de 100 dimensões para 8.567 regiões únicas
- Pontuação silhouette: 0,72 (boa qualidade de agrupamento)
- Índice Davies-Bouldin: 0,85 (baixa相似idade entre grupos)
- Gerou UMAP 2D para visualização
A utilizar "geniml". Construa um universo de picos de consenso de 10 experimentos de ATAC-seq
Resultado esperado:
- Combinou 245.000 picos de todos os experimentos
- Aplicou método de corte de cobertura com limiar de 5x
- Gerou universo de consenso com 32.450 regiões
- Cobertura de picos de entrada: 87,3%
- Tamanho médio de região: 425bp (apropriado para ATAC-seq)
A utilizar "geniml". Analise dados de ATAC-seq de célula única para anotação de tipo celular
Resultado esperado:
- Pré-tokenizou 8.500 células do conjunto de dados PBMC
- Treinou modelo scEmbed com 100 dimensões
- Gerou embeddings de células para todas as células
- Agrupamento de Leiden identificou 12 populações celulares distintas
- Anotou tipos principais: células T, células B, monócitos, células NK
Auditoria de Segurança
SeguroStatic analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.
Fatores de risco
Pontuação de qualidade
O Que Você Pode Construir
Comparar experimentos de ChIP-seq
Treine embeddings de região para encontrar picos similares em diferentes experimentos de ligação de fator de transcrição
Agrupar células por cromatina
Use scEmbed para analisar dados de scATAC-seq e identificar tipos celulares com base em padrões de acessibilidade de cromatina
Construir conjuntos de picos de referência
Crie universos de consenso a partir de múltiplos experimentos de ATAC-seq para análises padronizadas
Tente Estes Prompts
Ajude-me a treinar embeddings region2vec em meus arquivos BED. Primeiro tokenize-os usando um arquivo de universo, depois treine um modelo de embedding de 100 dimensões.
Use scEmbed para analisar meus dados de scATAC-seq no scanpy. Tokenize as células, treine um modelo de embedding e gere visualização UMAP.
Construa um universo de consenso da minha coleção de arquivos BED usando o método de corte de cobertura com limiar de 5x.
Treine embeddings BEDspace em regiões com rótulos de tipo celular para habilitar consultas entre modalidades entre regiões e metadados.
Melhores Práticas
- Sempre construa universos de alta qualidade com boa cobertura de picos antes de treinar embeddings
- Valide a cobertura de tokenização (maior que 80 por cento) e ajuste os limiares de valor-p se necessário
- Use múltiplas métricas de avaliação para verificar qualidade de embeddings e relevância biológica
Evitar
- Treinar em conjuntos de picos de baixa qualidade ou desalinhados sem construção adequada de universo
- Usar parâmetros padrão sem ajustar para seu tipo e escala específicos de dados
- Pular etapas de avaliação - sempre valide embeddings antes de análises subsequentes
Perguntas Frequentes
Quais formatos de arquivo o geniml suporta?
Como escolher a dimensão do embedding?
Posso usar geniml com outras ferramentas de célula única?
Qual é a diferença entre Region2Vec e BEDspace?
Quanto tempo leva o treinamento?
Preciso de um arquivo de universo?
Detalhes do Desenvolvedor
Autor
K-Dense-AILicença
BSD-2-Clause license
Repositório
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/genimlReferência
main
Estrutura de arquivos