pysam
Trabalhar com arquivos de sequenciamento genômico
Também disponível em: davila7
Processar e analisar dados de sequenciamento de DNA com ferramentas para leitura de arquivos BAM, VCF e FASTQ. Extrair regiões genômicas, calcular estatísticas de cobertura e integrar múltiplos tipos de arquivo para análise abrangente de variantes.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "pysam". Abrir um arquivo BAM e mostrar estatísticas de cobertura para o cromossomo 1
Resultado esperado:
- Estatísticas do cromossomo 1:
- Total de leituras: 1.245.678
- Leituras mapeadas: 1.198.432 (96,2%)
- Cobertura média: 32,4x
- Regiões abaixo de 10x de cobertura: 5.234 posições
A utilizar "pysam". Filtrar variantes por qualidade e profundidade
Resultado esperado:
- Filtradas 12.456 variantes para 3.892 variantes de alta qualidade
- Filtros aplicados: QUAL > 30, DP > 10, MQ > 40
- Variantes escritas em filtered.vcf
A utilizar "pysam". Extrair sequências em torno de posições de variantes
Resultado esperado:
- Extraídas sequências de 100bp para 847 variantes
- Sequências escritas em variant_contexts.fasta
- Região vizinha: +/- 50bp de cada posição de variante
Auditoria de Segurança
SeguroAll 447 static findings are FALSE POSITIVES caused by bioinformatics terminology being misinterpreted as security-relevant patterns. The scanner flags 'SAM' as Windows Security Account Manager when it means Sequence Alignment/Map format, and samtools/bcftools as network scanning tools when they are legitimate bioinformatics command-line utilities. The skill contains only documentation and code examples for legitimate genomic data processing. No actual malicious code, command injection, credential access, or network exfiltration patterns exist.
Fatores de risco
⚙️ Comandos externos (3)
📁 Acesso ao sistema de arquivos (2)
Pontuação de qualidade
O Que Você Pode Construir
Fluxo de trabalho de análise de variantes
Extrair e filtrar variantes genéticas de arquivos VCF, anotar com cobertura de leitura de arquivos BAM
Análise de cobertura
Calcular cobertura por base, identificar regiões de baixa cobertura, gerar trilhas de cobertura para visualização
Pipeline de controle de qualidade
Validar dados de sequenciamento, verificar consistência de referência, filtrar leituras por limiares de qualidade
Tente Estes Prompts
Use pysam para abrir example.bam e imprimir todas as leituras sobrepostas às posições chr1 1000-2000
Abra variants.vcf e imprima todas as variantes no chr2 com pontuação de qualidade acima de 30
Calcular cobertura por base para as posições 100000-200000 do cromossomo 1 usando análise de pileup
Abra reference.fasta e extraia a sequência do gene ABC no chr5 da posição 10000 a 11000
Melhores Práticas
- Sempre use arquivos BAM indexados para operações de acesso aleatório para melhorar o desempenho
- Lembre-se que pysam usa coordenadas baseadas em 0 enquanto arquivos VCF usam coordenadas baseadas em 1
- Use pileup() para análise de cobertura por coluna em vez de chamadas fetch() repetidas
Evitar
- Carregar arquivos BAM inteiros na memória em vez de usar processamento baseado em iterador
- Ignorar diferenças de sistema de coordenadas entre pysam e formatos de arquivo VCF
- Processar arquivos grandes sem criar arquivos de índice para acesso aleatório
Perguntas Frequentes
Qual é a diferença entre arquivos SAM e BAM?
Preciso instalar o samtools separadamente?
Como crio um índice para meu arquivo BAM?
O pysam pode filtrar leituras por qualidade de mapeamento?
Qual sistema de coordenadas o pysam usa?
Como extraio variantes sobrepostas a um gene específico?
Detalhes do Desenvolvedor
Autor
K-Dense-AILicença
MIT license
Repositório
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/pysamReferência
main
Estrutura de arquivos