🧬

geniml

Seguro ⚙️ Comandos externos

Analisar intervalos genômicos com aprendizado de máquina

Também disponível em: davila7

O Geniml transforma arquivos BED em embeddings de aprendizado de máquina para análise de regiões genômicas. Treine modelos para encontrar padrões em acessibilidade de cromatina, construa conjuntos de picos de consenso e analise dados de ATAC-seq de célula única.

Suporta: Claude Codex Code(CC)
📊 71 Adequado
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "geniml". Treine region2vec em meus picos de ATAC-seq e avalie os embeddings

Resultado esperado:

  • Tokenizou 15.234 picos usando arquivo de universo
  • Treinou embeddings de 100 dimensões para 8.567 regiões únicas
  • Pontuação silhouette: 0,72 (boa qualidade de agrupamento)
  • Índice Davies-Bouldin: 0,85 (baixa相似idade entre grupos)
  • Gerou UMAP 2D para visualização

A utilizar "geniml". Construa um universo de picos de consenso de 10 experimentos de ATAC-seq

Resultado esperado:

  • Combinou 245.000 picos de todos os experimentos
  • Aplicou método de corte de cobertura com limiar de 5x
  • Gerou universo de consenso com 32.450 regiões
  • Cobertura de picos de entrada: 87,3%
  • Tamanho médio de região: 425bp (apropriado para ATAC-seq)

A utilizar "geniml". Analise dados de ATAC-seq de célula única para anotação de tipo celular

Resultado esperado:

  • Pré-tokenizou 8.500 células do conjunto de dados PBMC
  • Treinou modelo scEmbed com 100 dimensões
  • Gerou embeddings de células para todas as células
  • Agrupamento de Leiden identificou 12 populações celulares distintas
  • Anotou tipos principais: células T, células B, monócitos, células NK

Auditoria de Segurança

Seguro
v4 • 1/17/2026

Static analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.

8
Arquivos analisados
2,570
Linhas analisadas
1
achados
4
Total de auditorias
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

45
Arquitetura
100
Manutenibilidade
87
Conteúdo
21
Comunidade
100
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

Comparar experimentos de ChIP-seq

Treine embeddings de região para encontrar picos similares em diferentes experimentos de ligação de fator de transcrição

Agrupar células por cromatina

Use scEmbed para analisar dados de scATAC-seq e identificar tipos celulares com base em padrões de acessibilidade de cromatina

Construir conjuntos de picos de referência

Crie universos de consenso a partir de múltiplos experimentos de ATAC-seq para análises padronizadas

Tente Estes Prompts

Treinar embeddings de região
Ajude-me a treinar embeddings region2vec em meus arquivos BED. Primeiro tokenize-os usando um arquivo de universo, depois treine um modelo de embedding de 100 dimensões.
Analisar scATAC-seq
Use scEmbed para analisar meus dados de scATAC-seq no scanpy. Tokenize as células, treine um modelo de embedding e gere visualização UMAP.
Construir picos de consenso
Construa um universo de consenso da minha coleção de arquivos BED usando o método de corte de cobertura com limiar de 5x.
Embeddings conjuntos de região-rótulo
Treine embeddings BEDspace em regiões com rótulos de tipo celular para habilitar consultas entre modalidades entre regiões e metadados.

Melhores Práticas

  • Sempre construa universos de alta qualidade com boa cobertura de picos antes de treinar embeddings
  • Valide a cobertura de tokenização (maior que 80 por cento) e ajuste os limiares de valor-p se necessário
  • Use múltiplas métricas de avaliação para verificar qualidade de embeddings e relevância biológica

Evitar

  • Treinar em conjuntos de picos de baixa qualidade ou desalinhados sem construção adequada de universo
  • Usar parâmetros padrão sem ajustar para seu tipo e escala específicos de dados
  • Pular etapas de avaliação - sempre valide embeddings antes de análises subsequentes

Perguntas Frequentes

Quais formatos de arquivo o geniml suporta?
O Geniml funciona com arquivos BED padrão (3+ colunas) para regiões genômicas e arquivos CSV para metadados.
Como escolher a dimensão do embedding?
Comece com 100 dimensões para a maioria das análises. Use 50 para conjuntos de dados pequenos, 200+ para cenários complexos de múltiplos rótulos.
Posso usar geniml com outras ferramentas de célula única?
Sim, as saídas do scEmbed integram perfeitamente com o scanpy como embeddings adata.obsm para agrupamento e visualização.
Qual é a diferença entre Region2Vec e BEDspace?
O Region2Vec treina apenas em regiões. O BEDspace incorpora conjuntamente regiões e rótulos de metadados para consultas entre modalidades.
Quanto tempo leva o treinamento?
Minutos para conjuntos de dados pequenos (milhares de regiões), horas para grandes coleções. Use GPU para scEmbed em grandes dados de célula única.
Preciso de um arquivo de universo?
Sim, para tokenização. Construa um com picos de consenso ou use uma referência como o ENCODE SCREEN.

Detalhes do Desenvolvedor

Licença

BSD-2-Clause license

Referência

main

Estrutura de arquivos