Compétences pdf-processing-pro

📄

pdf-processing-pro

Name: pdf-processing-pro
Author: davila7

Risque faible ⚡ Contient des scripts📁 Accès au système de fichiers

Extraire et traiter des documents PDF

Le traitement manuel des documents PDF prend trop de temps. Cette boîte à outils fournit des scripts prêts pour la production pour extraire du texte, gérer des formulaires, extraire des tableaux et effectuer de l'OCR sur des documents numérisés avec support du traitement par lots.

Prend en charge: Claude Codex Code(CC)

🥉 73 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "pdf-processing-pro". Extract all text from monthly_report.pdf and save to output.txt

Résultat attendu:

Processing: monthly_report.pdf
Extracted 45 pages of text
Saved to output.txt (125KB)
Found 8 tables during extraction

Utilisation de "pdf-processing-pro". Analyze form.pdf for all form fields

Résultat attendu:

Found 12 form fields:
- full_name: text, required, max_length: 100
- date_of_birth: text, required, format: MM/DD/YYYY
- email_newsletter: checkbox, not required
- preferred_contact: radio, required, options: [email, phone, mail]

Utilisation de "pdf-processing-pro". Extract tables from quarterly_report.pdf to Excel

Résultat attendu:

Processing: quarterly_report.pdf
Found 5 tables across 12 pages
Exported Table_1 to Excel sheet (Revenue Data)
Exported Table_2 to Excel sheet (Expenses)
Exported Table_3 to Excel sheet (Headcount)

Audit de sécurité

Risque faible

v5 • 1/17/2026

Legitimate PDF processing toolkit using standard Python libraries (pdfplumber, pypdf, pytesseract). All functionality is local file I/O for document processing. The 201 static findings are false positives caused by the scanner misinterpreting markdown code examples as executable code. The skill performs no network operations, reads no environment variables, and executes no unauthorized commands.

Fichiers analysés

2,209

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚡ Contient des scripts (1)

scripts/analyze_form.py:1-308

📁 Accès au système de fichiers (1)

scripts/analyze_form.py:280-284

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Extraire des données de rapports

Extraire des tableaux et du texte de rapports financiers et documents de recherche pour analyse dans des tableurs.

Traiter des soumissions de formulaires

Remplir et valider automatiquement des formulaires PDF à partir de données d'application ou d'entrées de tableur.

Numériser des contrats scannés

Convertir des contrats et accords PDF numérisés en documents texte consultables.

Essayez ces prompts

Extraire le texte d'un PDF

Use PDF Processing Pro to extract all text from [document.pdf] and save it to [output.txt] with formatting preserved.

Analyser les champs de formulaire

Use PDF Processing Pro to analyze [form.pdf] and output a JSON schema showing all form fields, their types, positions, and whether they are required.

Extraire des tableaux

Use PDF Processing Pro to extract all tables from [report.pdf] and export them to [data.csv] with proper headers.

Traiter des PDF par lots

Use PDF Processing Pro to batch process all PDFs in [invoices/] directory. Extract text from each and save to [processed/] with the same filename but .txt extension.

Bonnes pratiques

Toujours valider les fichiers PDF avant traitement pour détecter les erreurs tôt et échouer rapidement
Utiliser le traitement par lots pour plusieurs documents afin d'améliorer l'efficacité et réduire la surcharge
Installer le package système Tesseract OCR avant de traiter des documents numérisés
Tester d'abord avec des PDF d'exemple pour vérifier que le format de sortie répond aux exigences

Éviter

Traiter des PDF protégés par mot de passe sans les déchiffrer au préalable
Ignorer les scores de confiance OCR lors du traitement de documents numérisés
Traiter des PDF très volumineux de plus de 100 Mo sans streaming ou découpage
Ignorer la validation des champs de formulaire avant de remplir les formulaires avec des données

Foire aux questions

Quels formats PDF sont pris en charge ?

Les PDF texte standard, les formulaires (AcroForms) et les documents numérisés via OCR. Les formulaires dynamiques XFA ne sont pas pris en charge.

Quelles sont les limites de taille de fichier ?

Les PDF petits et moyens de moins de 50 Mo se traitent efficacement. Pour les fichiers plus volumineux, traitez page par page ou utilisez le streaming.

Comment intégrer avec les outils existants ?

Utilisez les scripts Python directement dans votre code. Importez pdfplumber ou pypdf en suivant les exemples de documentation.

Mes données sont-elles sécurisées ?

Tout le traitement s'effectue localement sur votre machine. Aucune donnée n'est envoyée à des serveurs ou services externes.

L'OCR ne fonctionne pas. Que faire ?

Installez le package système Tesseract OCR pour votre plateforme (macOS: brew install tesseract, Ubuntu: apt-get install tesseract-ocr).

Comment cela se compare-t-il aux outils PDF en ligne ?

Cet outil fonctionne entièrement en local sans limite de taille de fichier ni restriction de téléchargement. Les données ne quittent jamais votre machine.

Détails du développeur

Auteur

davila7

Licence

MIT

Dépôt

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/document-processing/pdf-processing-pro

Réf

main

Structure de fichiers

📁 scripts/

📄 analyze_form.py

📄 FORMS.md

📄 OCR.md

📄 SKILL.md

📄 TABLES.md