pysam
Traiter les données de séquençage génomique
También disponible en: K-Dense-AI
Traiter les données de séquençage de nouvelle génération en lisant et écrivant des fichiers d'alignement SAM/BAM/CRAM, des fichiers de variants VCF/BCF, et des séquences FASTA/FASTQ pour les pipelines d'analyse bioinformatique.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "pysam". Ouvrir un fichier BAM et lister les 5 premières lectures
Resultado esperado:
- Read1: chr1:1005-1150 (length=146, MAPQ=60)
- Read2: chr1:1102-1248 (length=147, MAPQ=60)
- Read3: chr1:1250-1398 (length=149, MAPQ=60)
- Read4: chr1:1350-1499 (length=150, MAPQ=60)
- Read5: chr1:1450-1598 (length=149, MAPQ=60)
Usando "pysam". Compter les variants sur le chromosome 1
Resultado esperado:
Trouvé 1254 variants sur le chromosome 1 dans le fichier VCF.
Usando "pysam". Calculer la couverture moyenne pour une région
Resultado esperado:
Couverture moyenne pour chr1:1000-5000: 42.3x sur 4001 bases
Auditoría de seguridad
SeguroAll static findings are false positives. The skill is a legitimate bioinformatics library for genomic data analysis. Patterns detected (SAM files, samtools commands, genome database URLs) relate to standard genomics file formats and tools, not security threats. The scanner confused SAM (Sequence Alignment/Map format) with Windows SAM database.
Factores de riesgo
📁 Acceso al sistema de archivos (1)
⚙️ Comandos externos (1)
Puntuación de calidad
Lo que puedes crear
Extraire les lectures d'une région génomique
Récupérer et analyser les lectures de séquençage chevauchant une région génomique spécifique pour la validation de variants ou l'analyse de couverture.
Filtrer et sous-ensembler les fichiers de variants
Charger des fichiers VCF, appliquer des filtres de qualité et de fréquence allélique, et exporter un sous-ensemble de variants pour l'analyse en aval.
Calculer les statistiques de couverture
Effectuer une analyse pileup pour calculer la profondeur de couverture par base et identifier les régions de faible couverture dans les données de séquençage.
Prueba estos prompts
Utiliser pysam pour ouvrir un fichier BAM et récupérer toutes les lectures chevauchant le chromosome 1 de la position 1000 à 2000. Imprimer les noms des lectures et leurs positions de départ.
Ouvrir un fichier VCF et itérer sur tous les variants du chromosome 20. Pour chaque variant, imprimer la position, l'allèle de référence, les allèles alternatifs, et le génotype pour l'échantillon NA12878.
Utiliser pysam pileup pour calculer la profondeur de couverture moyenne sur le chromosome 1 pour un fichier BAM. Signaler les positions où la couverture est inférieure à 10x.
Ouvrir à la fois un fichier BAM et un fichier VCF. Pour chaque variant dans le VCF, compter le nombre de lectures dans le BAM qui supportent l'allèle alternatif (ayant la position du variant dans leur alignement et correspondant à la base alternative).
Mejores prácticas
- Toujours créer des fichiers d'index (.bai pour BAM, .fai pour FASTA, .tbi pour VCF compressé) pour les opérations d'accès aléatoire
- Utiliser des gestionnaires de contexte ou fermer explicitement les fichiers pour libérer les ressources système lors du traitement de grands ensembles de données
- Utiliser la méthode pileup() pour l'analyse column-wise plutôt que des appels fetch() répétés pour de meilleures performances
- être conscient des différences de système de coordonnées entre pysam (0-based) et les conventions samtools (1-based)
Evitar
- Utiliser fetch() dans une boucle pour l'analyse column-wise au lieu de pileup()
- Oublier de créer des fichiers d'index avant de tenter un accès aléatoire à des régions génomiques spécifiques
- Ne pas gérer les exceptions SamtoolsError lors de l'appel de commandes samtools ou bcftools
- Supposer que les coordonnées de VariantFile sont dans le même format que les coordonnées d'AlignmentFile
Preguntas frecuentes
Quels formats de fichiers pysam prend-il en charge ?
Dois-je installer samtools séparément ?
Comment créer des fichiers d'index ?
Quelle est la différence entre fetch et pileup ?
Comment filtrer les lectures par qualité de mapping ?
Pysam peut-il gérer des fichiers VCF multi-échantillons ?
Detalles del desarrollador
Autor
davila7Licencia
MIT
Repositorio
https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/scientific/pysamRef.
main
Estructura de archivos