🧬

pysam

Name: pysam
Author: davila7

Sûr 📁 Accès au système de fichiers⚙️ Commandes externes

Traiter les données de séquençage génomique

Également disponible depuis: K-Dense-AI

Traiter les données de séquençage de nouvelle génération en lisant et écrivant des fichiers d'alignement SAM/BAM/CRAM, des fichiers de variants VCF/BCF, et des séquences FASTA/FASTQ pour les pipelines d'analyse bioinformatique.

Prend en charge: Claude Codex Code(CC)

📊 70 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "pysam". Ouvrir un fichier BAM et lister les 5 premières lectures

Résultat attendu:

Read1: chr1:1005-1150 (length=146, MAPQ=60)
Read2: chr1:1102-1248 (length=147, MAPQ=60)
Read3: chr1:1250-1398 (length=149, MAPQ=60)
Read4: chr1:1350-1499 (length=150, MAPQ=60)
Read5: chr1:1450-1598 (length=149, MAPQ=60)

Utilisation de "pysam". Compter les variants sur le chromosome 1

Résultat attendu:

Trouvé 1254 variants sur le chromosome 1 dans le fichier VCF.

Utilisation de "pysam". Calculer la couverture moyenne pour une région

Résultat attendu:

Couverture moyenne pour chr1:1000-5000: 42.3x sur 4001 bases

Audit de sécurité

Sûr

v6 • 1/21/2026

All static findings are false positives. The skill is a legitimate bioinformatics library for genomic data analysis. Patterns detected (SAM files, samtools commands, genome database URLs) relate to standard genomics file formats and tools, not security threats. The scanner confused SAM (Sequence Alignment/Map format) with Windows SAM database.

Fichiers analysés

5,859

Lignes analysées

résultats

Total des audits

Facteurs de risque

📁 Accès au système de fichiers (1)

SKILL.md:34-42

⚙️ Commandes externes (1)

SKILL.md:27-29

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Extraire les lectures d'une région génomique

Récupérer et analyser les lectures de séquençage chevauchant une région génomique spécifique pour la validation de variants ou l'analyse de couverture.

Filtrer et sous-ensembler les fichiers de variants

Charger des fichiers VCF, appliquer des filtres de qualité et de fréquence allélique, et exporter un sous-ensemble de variants pour l'analyse en aval.

Calculer les statistiques de couverture

Effectuer une analyse pileup pour calculer la profondeur de couverture par base et identifier les régions de faible couverture dans les données de séquençage.

Essayez ces prompts

Lire une région d'un fichier BAM

Utiliser pysam pour ouvrir un fichier BAM et récupérer toutes les lectures chevauchant le chromosome 1 de la position 1000 à 2000. Imprimer les noms des lectures et leurs positions de départ.

Extraire les informations de variants

Ouvrir un fichier VCF et itérer sur tous les variants du chromosome 20. Pour chaque variant, imprimer la position, l'allèle de référence, les allèles alternatifs, et le génotype pour l'échantillon NA12878.

Calculer la profondeur de couverture

Utiliser pysam pileup pour calculer la profondeur de couverture moyenne sur le chromosome 1 pour un fichier BAM. Signaler les positions où la couverture est inférieure à 10x.

Intégrer les données d'alignement et de variants

Ouvrir à la fois un fichier BAM et un fichier VCF. Pour chaque variant dans le VCF, compter le nombre de lectures dans le BAM qui supportent l'allèle alternatif (ayant la position du variant dans leur alignement et correspondant à la base alternative).

Bonnes pratiques

Toujours créer des fichiers d'index (.bai pour BAM, .fai pour FASTA, .tbi pour VCF compressé) pour les opérations d'accès aléatoire
Utiliser des gestionnaires de contexte ou fermer explicitement les fichiers pour libérer les ressources système lors du traitement de grands ensembles de données
Utiliser la méthode pileup() pour l'analyse column-wise plutôt que des appels fetch() répétés pour de meilleures performances
être conscient des différences de système de coordonnées entre pysam (0-based) et les conventions samtools (1-based)

Éviter

Utiliser fetch() dans une boucle pour l'analyse column-wise au lieu de pileup()
Oublier de créer des fichiers d'index avant de tenter un accès aléatoire à des régions génomiques spécifiques
Ne pas gérer les exceptions SamtoolsError lors de l'appel de commandes samtools ou bcftools
Supposer que les coordonnées de VariantFile sont dans le même format que les coordonnées d'AlignmentFile

Foire aux questions

Quels formats de fichiers pysam prend-il en charge ?

Pysam prend en charge SAM (texte), BAM (compressé binaire) et CRAM (compressé) pour les fichiers d'alignement. Pour les variants, il prend en charge VCF (texte) et BCF (binaire). Pour les séquences, il prend en charge les formats FASTA et FASTQ.

Dois-je installer samtools séparément ?

Pysam inclut des liaisons Python pour les commandes samtools et bcftools, mais vous devez avoir samtools installé sur votre système pour que les fonctions de ligne de commande fonctionnent.

Comment créer des fichiers d'index ?

Utilisez pysam.index() pour les fichiers BAM, pysam.faidx() pour les fichiers FASTA, et pysam.tabix_index() pour les fichiers VCF compressés. Les fichiers d'index permettent l'accès aléatoire à des régions génomiques spécifiques.

Quelle est la différence entre fetch et pileup ?

fetch() renvoie des objets de lecture chevauchant une région. pileup() fournit une itération column-wise où vous pouvez accéder à toutes les bases à chaque position génomique, ce qui est plus efficace pour l'analyse de couverture.

Comment filtrer les lectures par qualité de mapping ?

Lors de l'itération avec fetch() ou pileup(), vérifiez l'attribut mapq de la lecture et sautez les lectures en dessous de votre seuil. Pour pileup, vous pouvez accéder aux lectures via la méthode read() de chaque colonne pileup.

Pysam peut-il gérer des fichiers VCF multi-échantillons ?

Oui, pysam peut lire des fichiers VCF avec plusieurs échantillons. Accédez aux informations de génotype via le nom de l'échantillon dans la liste ou le dictionnaire samples de l'enregistrement VCF.

Détails du développeur

Auteur

davila7

Licence

MIT

Dépôt

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/scientific/pysam

Réf

main

Structure de fichiers

📁 references/

📄 alignment_files.md

📄 common_workflows.md

📄 sequence_files.md

📄 variant_files.md

📄 SKILL.md