スキル pdf-processing
📄

pdf-processing

安全

Extraire et traiter des documents PDF

こちらからも入手できます: Joseph OBrien,davila7,0xkynz

Les documents PDF contiennent des données précieuses qui sont difficiles à accéder par programmation. Cette compétence fournit aux agents IA les capacités d'extraire du texte, des tableaux et des données de formulaires à partir de PDF, ainsi que de manipuler des documents par des opérations de fusion, de分割 et de mise en forme.

対応: Claude Codex Code(CC)
⚠️ 67 貧弱
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「pdf-processing」を使用しています。 Extract all text and tables from the quarterly report PDF

期待される結果:

  • Extracted 24 pages of text content
  • Found 8 tables in the document
  • Saved tables as CSV files: table_1.csv through table_8.csv
  • Text saved to quarterly_report.txt (preserved headings and structure)

セキュリティ監査

安全
v3 • 1/10/2026

Pure prompt-based skill with no executable code. The SKILL.md provides AI instructions for PDF processing using standard libraries like pdfplumber and PyPDF2. No scripts, network calls, or concerning capabilities detected.

1
スキャンされたファイル
50
解析された行数
0
検出結果
3
総監査数
セキュリティ問題は見つかりませんでした
監査者: claude 監査履歴を表示 →

品質スコア

38
アーキテクチャ
100
保守性
81
コンテンツ
22
コミュニティ
100
セキュリティ
78
仕様準拠

作れるもの

Extraire des données structurées

Extraire des tableaux et des données de rapports PDF pour analyse dans des tableurs ou des bases de données

Automatiser les flux de travail de formulaires

Remplir des formulaires PDF par programmation et traiter les données de soumission de formulaires

Construire une automatisation PDF

Intégrer le traitement PDF dans des pipelines de gestion de documents plus larges

これらのプロンプトを試す

Tout extraire
Extract all text content from the PDF file at [file_path]. Preserve paragraph structure and headings.
Extraire les tableaux vers CSV
Find all tables in [file_path] and convert them to CSV format. Save each table as a separate file.
Remplir un formulaire PDF
Fill the PDF form at [form_path] with the following data: [key-value pairs]. Save the completed form to [output_path].
Fusionner et traiter
Merge all PDF files in [source_directory] into a single document. Add a header page and page numbers to each page. Save to [output_path].

ベストプラクティス

  • Vérifier si les PDF sont chiffrés avant de tenter de les traiter
  • Utiliser l'OCR (pytesseract) pour les documents scannés afin de permettre l'extraction de texte
  • Valider les données de tableau extraites après extraction pour vérifier leur exactitude

回避

  • Tenter d'extraire du texte de PDF scannés sans prétraitement OCR
  • Traiter de grands PDF sans pagination ni découpage
  • Ignorer les types de champs de formulaires PDF lors du remplissage de formulaires

よくある質問

Quelles bibliothèques PDF cette compétence utilise-t-elle ?
La compétence utilise pdfplumber pour l'extraction de texte et de tableaux, et PyPDF2 ou pypdf pour la manipulation de documents comme la fusion et la分割.
Cette compétence peut-elle traiter des PDF scannés ?
Les PDF scannés contiennent des images plutôt que du texte. Vous devrez utiliser l'OCR (pytesseract) pour extraire le texte de documents scannés.
Quelles tailles de fichiers sont prises en charge ?
Le traitement PDF dépend de la mémoire. Les fichiers de moins de 100 Mo fonctionnent de manière fiable. Les très grands fichiers peuvent nécessiter un traitement en flux ou par blocs.
Comment puis-je intégrer ceci dans mon codebase ?
Importez les bibliothèques requises dans votre code Python. La compétence fournit des exemples de motifs pour les opérations courantes comme l'extraction et le remplissage de formulaires.
Mes données sont-elles en sécurité lors du traitement de PDF ?
Tout le traitement se fait localement lorsque vous exécutez le code. Aucune donnée n'est envoyée à des serveurs externes. Assurez-vous que les fichiers PDF proviennent de sources fiables.
En quoi est-ce différent des outils PDF en ligne ?
Cette compétence s'exécute localement dans votre environnement, gardant les documents sensibles privés. Elle s'intègre également dans des flux de travail automatisés et peut traiter de nombreux fichiers par programmation.

開発者の詳細

作成者

0xkynz

ライセンス

MIT

参照

main

ファイル構成

📄 SKILL.md