📄

pdf

Name: pdf
Author: Cam10001110101

Risque faible ⚡ Contient des scripts📁 Accès au système de fichiers⚙️ Commandes externes

Extraire du texte et des tableaux des PDF

Également disponible depuis: ArtemisAI,sickn33,Azeem-2,92Bilal26,92Bilal26,anthropics,ZhanlinCui,AutumnsGrove,DYAI2025,K-Dense-AI,davila7,ComposioHQ

Le traitement manuel des documents PDF prend trop de temps. Cette boîte à outils offre des opérations PDF complètes incluant l'extraction de texte, la détection de formulaires, le remplissage de formulaires et la création de documents avec Python et les outils en ligne de commande.

Prend en charge: Claude Codex Code(CC)

🥉 73 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "pdf". Extract all text from quarterly_report.pdf

Résultat attendu:

Successfully extracted text from quarterly_report.pdf
Document has 24 pages
Output saved to quarterly_report.txt

Utilisation de "pdf". Extract tables from financial_report.pdf to Excel

Résultat attendu:

Found 5 tables in the document
Table 1: Revenue by Region
Table 2: Quarterly Expenses
Exported to financial_report_tables.xlsx with 5 sheets

Utilisation de "pdf". Merge all chapter PDFs into one book

Résultat attendu:

Successfully merged 12 PDF files
Output: book.pdf (156 pages)
All chapters in correct order

Audit de sécurité

Risque faible

v5 • 1/16/2026

Legitimate PDF processing toolkit with standard Python libraries. All static findings are false positives. External command detections are documentation examples, not executed code. Weak crypto flags are from documentation examples about PDF password features, not actual crypto usage. Scripts perform documented PDF operations safely.

Fichiers analysés

2,226

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚡ Contient des scripts (6)

scripts/check_bounding_boxes.py:1-71 scripts/fill_fillable_fields.py:1-115 scripts/fill_pdf_form_with_annotations.py:1-107 scripts/convert_pdf_to_images.py:1-36 scripts/extract_form_field_info.py:1-153 scripts/check_fillable_fields.py:1-13

📁 Accès au système de fichiers (4)

scripts/fill_fillable_fields.py:12-14 scripts/fill_pdf_form_with_annotations.py:32-33 scripts/convert_pdf_to_images.py:22-24 scripts/extract_form_field_info.py:141-144

⚙️ Commandes externes (3)

SKILL.md:15-26 SKILL.md:169-209 REFERENCE.md:265-341

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Extraire des données tabulaires

Extraire des tableaux structurés des rapports et documents financiers vers des tableurs ou des bases de données

Automatiser le remplissage de formulaires

Remplir des formulaires PDF standardisés avec des données cohérentes sur plusieurs documents

Créer des flux de travail PDF

Créer des pipelines de traitement de documents qui fusionnent, divisent et transforment les PDF programmatiquement

Essayez ces prompts

Extraction de texte basique

Extract all text from example.pdf and save it to example.txt

Extraction de tableaux

Extract all tables from report.pdf and save them to an Excel file with one sheet per table

Fusionner des documents

Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into a single document called book.pdf

Remplir des formulaires PDF

Fill the fields in application.pdf using the data from form_values.json and save the result as completed.pdf

Bonnes pratiques

Utilisez pdfplumber pour le texte avec coordonnées lorsque vous devez conserver les informations de mise en page
Validez les coordonnées des champs de formulaire à l'aide du vérificateur de zones de délimitation avant de remplir
Traitez les PDF volumineux par lots pour gérer efficacement l'utilisation de la mémoire

Éviter

N'utilisez pas l'OCR pour les PDF créés numériquement lorsque l'extraction de texte est disponible
Ne sautez pas la validation des zones de délimitation lors du remplissage de formulaires non remplissables
N'essayez pas de remplir des PDF cryptés sans le mot de passe correct

Foire aux questions

Quelle bibliothèque dois-je utiliser pour l'extraction de texte ?

Utilisez pdfplumber pour le texte avec conservation de la mise en page et l'extraction de tableaux. Utilisez pypdf pour les opérations de base comme la fusion et la division.

Comment gérer les PDF scannés sans texte ?

Convertissez le PDF en images avec pdf2image, puis utilisez pytesseract pour l'extraction de texte par OCR.

Puis-je utiliser ceci avec JavaScript ou Node.js ?

Oui, utilisez pdf-lib pour les environnements navigateur et Node.js. Voir REFERENCE.md pour les exemples.

Mes données sont-elles en sécurité lors du traitement des PDF ?

Tout le traitement se fait localement. Aucune donnée n'est envoyée à des serveurs externes. Les PDF sont uniquement lus et écrits aux chemins que vous spécifiez.

Pourquoi mes annotations de formulaire ne sont-elles pas visibles ?

Certains lecteurs PDF n'affichent pas les annotations FreeText de manière cohérente. Essayez d'ouvrir le résultat dans un autre lecteur comme Adobe Acrobat.

En quoi est-ce différent de pdf-lib ?

Cette boîte à outils se concentre sur le traitement basé sur Python avec pypdf et pdfplumber. pdf-lib est une bibliothèque JavaScript pour une utilisation dans le navigateur et Node.js.