📦

pdf

Name: pdf
Author: ZhanlinCui

Risque faible 📁 Accès au système de fichiers⚙️ Commandes externes

Manipuler les documents PDF et remplir des formulaires par programmation

Également disponible depuis: ArtemisAI,sickn33,Azeem-2,92Bilal26,92Bilal26,anthropics,AutumnsGrove,DYAI2025,K-Dense-AI,davila7,Cam10001110101,ComposioHQ

Les tâches de traitement PDF nécessitent des outils spécialisés pour l'extraction, la manipulation et le remplissage de formulaires. Cette compétence offre des capacités complètes de manipulation de PDF en utilisant des bibliothèques Python et des outils en ligne de commande.

Prend en charge: Claude Codex Code(CC)

🥉 75 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "pdf". Extract text from document.pdf

Résultat attendu:

Successfully extracted 2,450 characters from 5 pages. Key sections identified: Executive Summary, Financial Data, Conclusions.

Utilisation de "pdf". Merge file1.pdf, file2.pdf, file3.pdf

Résultat attendu:

Created merged.pdf (15 pages total) combining: file1.pdf (3 pages), file2.pdf (7 pages), file3.pdf (5 pages)

Utilisation de "pdf". Fill form.pdf with field_values.json

Résultat attendu:

Filled 12 form fields across 2 pages. Output saved to form_filled.pdf with validated field values.

Audit de sécurité

Risque faible

v1 • 2/24/2026

Static analysis flagged 217 potential issues, but most are false positives from markdown documentation files. External command detections are code examples in backticks (markdown formatting), not actual shell execution. Filesystem operations in Python scripts are legitimate PDF/JSON processing with user-provided paths. No confirmed malicious patterns detected.

Fichiers analysés

1,878

Lignes analysées

résultats

Total des audits

Problèmes à risque moyen (1)

forms.md:4 reference.md:11 SKILL.md:15

External Command Execution Patterns

Static analysis detected shell command patterns in documentation files. These are markdown code examples demonstrating command-line tool usage (qpdf, pdftotext, pdfimages), not actual executable code. All commands are intended for user reference only.

Problèmes à risque faible (2)

scripts/extract_form_field_info.py:143 scripts/fill_fillable_fields.py:55 scripts/fill_pdf_form_with_annotations.py:93

Filesystem Write Operations

Python scripts perform file write operations for PDF output and JSON data. All file paths are provided as command-line arguments by the user, with no hardcoded paths or unauthorized file access.

scripts/extract_form_field_info.py:32 scripts/extract_form_field_info.py:81

Hardcoded Documentation URLs

Scripts contain hardcoded URLs pointing to PDF specification documentation (Adobe, WestHealth). These are reference links for developers, not network exfiltration endpoints.

Facteurs de risque

📁 Accès au système de fichiers (4)

reference.md:59 scripts/extract_form_field_info.py:143 scripts/fill_fillable_fields.py:55 scripts/fill_pdf_form_with_annotations.py:93

⚙️ Commandes externes (5)

forms.md:4 reference.md:11 SKILL.md:15 scripts/check_bounding_boxes.py:6 scripts/extract_form_field_info.py:11

Audité par: claude

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Extraire des données des rapports PDF

Extraire automatiquement le contenu textuel et les tableaux des rapports PDF financiers ou scientifiques pour l'analyse de données

Remplir les formulaires de demande PDF

Compléter programmatiquement les formulaires PDF remplissables avec les données fournies par l'utilisateur et la validation

Traitement par lots de documents PDF

Fusionner, diviser, faire pivoter et filigraner plusieurs documents PDF dans des flux de travail automatisés

Essayez ces prompts

Extraire le texte d'un PDF

Extraire tout le contenu textuel du document PDF joint et résumer les informations clés.

Fusionner plusieurs PDF

Combiner ces fichiers PDF en un seul document dans l'ordre : cover.pdf, chapter1.pdf, chapter2.pdf, appendix.pdf

Remplir un formulaire PDF avec des données utilisateur

Je dois remplir ce formulaire de demande. Extrayez d'abord les informations des champs, puis je vous fournirai les valeurs pour chaque champ.

Extraire les tableaux et convertir en Excel

Extraire tous les tableaux de ce rapport financier PDF et les enregistrer dans un tableur Excel avec des feuilles séparées pour chaque tableau

Bonnes pratiques

Val toujours les valeurs des champs de formulaire PDF avant de les remplir pour éviter les erreurs
Utilisez des paramètres haute résolution (300+ DPI) lors de la conversion des PDF en images pour l'OCR
Vérifiez les intersections des boîtes englobantes lors de l'ajout d'annotations aux PDF non remplissables

Éviter

Ne sautez pas la validation visuelle des boîtes englobantes lors du remplissage de formulaires non remplissables
Évitez de traiter les PDF protégés par mot de passe sans les déchiffrer d'abord
Ne supposez pas que tous les PDF ont du texte extractible - les PDF numérisés nécessitent l'OCR

Foire aux questions

Quelles bibliothèques Python dois-je installer ?

Bibliothèques principales : pypdf, pdfplumber, reportlab. Optionnel : pytesseract pour l'OCR, pdf2image pour la conversion PDF-en-image. Installer avec : pip install pypdf pdfplumber reportlab

Comment gérer les PDF numérisés sans texte ?

Les PDF numérisés nécessitent un traitement OCR. Utilisez le flux de travail pytesseract : convertissez les pages PDF en images avec pdf2image, puis appliquez pytesseract.image_to_string() pour extraire le texte.

Cette compétence peut-elle remplir des formulaires PDF qui ne sont pas remplissables ?

Oui, en ajoutant des annotations textuelles aux positions calculées. Le processus consiste à convertir le PDF en images, à identifier visuellement les emplacements des champs, à créer des boîtes englobantes et à ajouter des annotations.

Quels outils en ligne de commande sont disponibles ?

poppler-utils (pdftotext, pdfimages, pdftoppm), qpdf pour la fusion/division, et pdftk pour les opérations avancées. Installez poppler-utils et qpdf via votre gestionnaire de paquets système.

Comment extraire les tableaux des PDF ?

Utilisez la méthode extract_tables() de pdfplumber. Pour les tableaux complexes, configurez table_settings avec les paramètres vertical_strategy et horizontal_strategy pour une meilleure détection.

Puis-je traiter les PDF chiffrés ?

Oui, si vous avez le mot de passe. Utilisez la méthode decrypt() de pypdf ou l'option qpdf --password. Sans le mot de passe, les PDF chiffrés ne peuvent pas être traités.