🧬

pysam

Seguro 📁 Acceso al sistema de archivos⚙️ Comandos externos

Traiter les données de séquençage génomique

También disponible en: K-Dense-AI

Traiter les données de séquençage de nouvelle génération en lisant et écrivant des fichiers d'alignement SAM/BAM/CRAM, des fichiers de variants VCF/BCF, et des séquences FASTA/FASTQ pour les pipelines d'analyse bioinformatique.

Soporta: Claude Codex Code(CC)
📊 70 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "pysam". Ouvrir un fichier BAM et lister les 5 premières lectures

Resultado esperado:

  • Read1: chr1:1005-1150 (length=146, MAPQ=60)
  • Read2: chr1:1102-1248 (length=147, MAPQ=60)
  • Read3: chr1:1250-1398 (length=149, MAPQ=60)
  • Read4: chr1:1350-1499 (length=150, MAPQ=60)
  • Read5: chr1:1450-1598 (length=149, MAPQ=60)

Usando "pysam". Compter les variants sur le chromosome 1

Resultado esperado:

Trouvé 1254 variants sur le chromosome 1 dans le fichier VCF.

Usando "pysam". Calculer la couverture moyenne pour une région

Resultado esperado:

Couverture moyenne pour chr1:1000-5000: 42.3x sur 4001 bases

Auditoría de seguridad

Seguro
v6 • 1/21/2026

All static findings are false positives. The skill is a legitimate bioinformatics library for genomic data analysis. Patterns detected (SAM files, samtools commands, genome database URLs) relate to standard genomics file formats and tools, not security threats. The scanner confused SAM (Sequence Alignment/Map format) with Windows SAM database.

6
Archivos escaneados
5,859
Líneas analizadas
2
hallazgos
6
Auditorías totales

Factores de riesgo

📁 Acceso al sistema de archivos (1)
⚙️ Comandos externos (1)

Puntuación de calidad

45
Arquitectura
100
Mantenibilidad
87
Contenido
20
Comunidad
100
Seguridad
83
Cumplimiento de la especificación

Lo que puedes crear

Extraire les lectures d'une région génomique

Récupérer et analyser les lectures de séquençage chevauchant une région génomique spécifique pour la validation de variants ou l'analyse de couverture.

Filtrer et sous-ensembler les fichiers de variants

Charger des fichiers VCF, appliquer des filtres de qualité et de fréquence allélique, et exporter un sous-ensemble de variants pour l'analyse en aval.

Calculer les statistiques de couverture

Effectuer une analyse pileup pour calculer la profondeur de couverture par base et identifier les régions de faible couverture dans les données de séquençage.

Prueba estos prompts

Lire une région d'un fichier BAM
Utiliser pysam pour ouvrir un fichier BAM et récupérer toutes les lectures chevauchant le chromosome 1 de la position 1000 à 2000. Imprimer les noms des lectures et leurs positions de départ.
Extraire les informations de variants
Ouvrir un fichier VCF et itérer sur tous les variants du chromosome 20. Pour chaque variant, imprimer la position, l'allèle de référence, les allèles alternatifs, et le génotype pour l'échantillon NA12878.
Calculer la profondeur de couverture
Utiliser pysam pileup pour calculer la profondeur de couverture moyenne sur le chromosome 1 pour un fichier BAM. Signaler les positions où la couverture est inférieure à 10x.
Intégrer les données d'alignement et de variants
Ouvrir à la fois un fichier BAM et un fichier VCF. Pour chaque variant dans le VCF, compter le nombre de lectures dans le BAM qui supportent l'allèle alternatif (ayant la position du variant dans leur alignement et correspondant à la base alternative).

Mejores prácticas

  • Toujours créer des fichiers d'index (.bai pour BAM, .fai pour FASTA, .tbi pour VCF compressé) pour les opérations d'accès aléatoire
  • Utiliser des gestionnaires de contexte ou fermer explicitement les fichiers pour libérer les ressources système lors du traitement de grands ensembles de données
  • Utiliser la méthode pileup() pour l'analyse column-wise plutôt que des appels fetch() répétés pour de meilleures performances
  • être conscient des différences de système de coordonnées entre pysam (0-based) et les conventions samtools (1-based)

Evitar

  • Utiliser fetch() dans une boucle pour l'analyse column-wise au lieu de pileup()
  • Oublier de créer des fichiers d'index avant de tenter un accès aléatoire à des régions génomiques spécifiques
  • Ne pas gérer les exceptions SamtoolsError lors de l'appel de commandes samtools ou bcftools
  • Supposer que les coordonnées de VariantFile sont dans le même format que les coordonnées d'AlignmentFile

Preguntas frecuentes

Quels formats de fichiers pysam prend-il en charge ?
Pysam prend en charge SAM (texte), BAM (compressé binaire) et CRAM (compressé) pour les fichiers d'alignement. Pour les variants, il prend en charge VCF (texte) et BCF (binaire). Pour les séquences, il prend en charge les formats FASTA et FASTQ.
Dois-je installer samtools séparément ?
Pysam inclut des liaisons Python pour les commandes samtools et bcftools, mais vous devez avoir samtools installé sur votre système pour que les fonctions de ligne de commande fonctionnent.
Comment créer des fichiers d'index ?
Utilisez pysam.index() pour les fichiers BAM, pysam.faidx() pour les fichiers FASTA, et pysam.tabix_index() pour les fichiers VCF compressés. Les fichiers d'index permettent l'accès aléatoire à des régions génomiques spécifiques.
Quelle est la différence entre fetch et pileup ?
fetch() renvoie des objets de lecture chevauchant une région. pileup() fournit une itération column-wise où vous pouvez accéder à toutes les bases à chaque position génomique, ce qui est plus efficace pour l'analyse de couverture.
Comment filtrer les lectures par qualité de mapping ?
Lors de l'itération avec fetch() ou pileup(), vérifiez l'attribut mapq de la lecture et sautez les lectures en dessous de votre seuil. Pour pileup, vous pouvez accéder aux lectures via la méthode read() de chaque colonne pileup.
Pysam peut-il gérer des fichiers VCF multi-échantillons ?
Oui, pysam peut lire des fichiers VCF avec plusieurs échantillons. Accédez aux informations de génotype via le nom de l'échantillon dans la liste ou le dictionnaire samples de l'enregistrement VCF.