pdf-processing-pro
Extraire et traiter des documents PDF
Le traitement manuel des documents PDF prend trop de temps. Cette boîte à outils fournit des scripts prêts pour la production pour extraire du texte, gérer des formulaires, extraire des tableaux et effectuer de l'OCR sur des documents numérisés avec support du traitement par lots.
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「pdf-processing-pro」。 Extract all text from monthly_report.pdf and save to output.txt
預期結果:
- Processing: monthly_report.pdf
- Extracted 45 pages of text
- Saved to output.txt (125KB)
- Found 8 tables during extraction
正在使用「pdf-processing-pro」。 Analyze form.pdf for all form fields
預期結果:
- Found 12 form fields:
- - full_name: text, required, max_length: 100
- - date_of_birth: text, required, format: MM/DD/YYYY
- - email_newsletter: checkbox, not required
- - preferred_contact: radio, required, options: [email, phone, mail]
正在使用「pdf-processing-pro」。 Extract tables from quarterly_report.pdf to Excel
預期結果:
- Processing: quarterly_report.pdf
- Found 5 tables across 12 pages
- Exported Table_1 to Excel sheet (Revenue Data)
- Exported Table_2 to Excel sheet (Expenses)
- Exported Table_3 to Excel sheet (Headcount)
安全審計
低風險Legitimate PDF processing toolkit using standard Python libraries (pdfplumber, pypdf, pytesseract). All functionality is local file I/O for document processing. The 201 static findings are false positives caused by the scanner misinterpreting markdown code examples as executable code. The skill performs no network operations, reads no environment variables, and executes no unauthorized commands.
風險因素
⚡ 包含腳本 (1)
📁 檔案系統存取 (1)
品質評分
你能建構什麼
Extraire des données de rapports
Extraire des tableaux et du texte de rapports financiers et documents de recherche pour analyse dans des tableurs.
Traiter des soumissions de formulaires
Remplir et valider automatiquement des formulaires PDF à partir de données d'application ou d'entrées de tableur.
Numériser des contrats scannés
Convertir des contrats et accords PDF numérisés en documents texte consultables.
試試這些提示
Use PDF Processing Pro to extract all text from [document.pdf] and save it to [output.txt] with formatting preserved.
Use PDF Processing Pro to analyze [form.pdf] and output a JSON schema showing all form fields, their types, positions, and whether they are required.
Use PDF Processing Pro to extract all tables from [report.pdf] and export them to [data.csv] with proper headers.
Use PDF Processing Pro to batch process all PDFs in [invoices/] directory. Extract text from each and save to [processed/] with the same filename but .txt extension.
最佳實務
- Toujours valider les fichiers PDF avant traitement pour détecter les erreurs tôt et échouer rapidement
- Utiliser le traitement par lots pour plusieurs documents afin d'améliorer l'efficacité et réduire la surcharge
- Installer le package système Tesseract OCR avant de traiter des documents numérisés
- Tester d'abord avec des PDF d'exemple pour vérifier que le format de sortie répond aux exigences
避免
- Traiter des PDF protégés par mot de passe sans les déchiffrer au préalable
- Ignorer les scores de confiance OCR lors du traitement de documents numérisés
- Traiter des PDF très volumineux de plus de 100 Mo sans streaming ou découpage
- Ignorer la validation des champs de formulaire avant de remplir les formulaires avec des données