技能 pdf-processing
📄

pdf-processing

安全 ⚙️ 外部命令📁 文件系统访问🌐 网络访问

提取和处理 PDF 文档

也可从以下获取: Joseph OBrien,0xkynz,0xkynz

PDF 文档包含有价值的数据,但难以通过编程方式处理。此技能提供使用 Python 库(如 pdfplumber 和 pypdf)从 PDF 中提取文本、表格和表单数据的代码模式。

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“pdf-processing”。 Extract text from contract.pdf

预期结果:

  • File: contract.pdf
  • Pages: 12
  • Extracted text length: 4,521 characters
  • First page preview: This Agreement is entered into...

正在使用“pdf-processing”。 Extract tables from quarterly_report.pdf

预期结果:

  • Found 3 tables on page 1
  • Table 1: Revenue by Region (4 columns x 5 rows)
  • Table 2: Quarterly Growth (2 columns x 4 rows)
  • Tables saved to quarterly_report_tables.csv

正在使用“pdf-processing”。 Merge invoice1.pdf and invoice2.pdf

预期结果:

  • Merged 2 PDF files
  • Total pages: 8
  • Output saved to merged_invoices.pdf

安全审计

安全
v5 • 1/17/2026

Documentation-only skill providing Python code examples for legitimate PDF processing. All 42 static findings are FALSE POSITIVES: scanner misidentified markdown code fences as shell backticks and PDF form field values as cryptographic algorithms. Prior audit in skill-report.json confirmed safe status with no findings.

3
已扫描文件
475
分析行数
3
发现项
5
审计总数
审计者: claude 查看审计历史 →

质量评分

38
架构
100
可维护性
85
内容
22
社区
100
安全
91
规范符合性

你能构建什么

从报告中提取表格数据

从财务报告和研究论文中提取表格,以便在电子表格或数据库中进行分析。

自动填写表单

使用来自电子表格或数据库的数据填写 PDF 表单以进行批处理。

构建文档处理流程

创建工作流程来处理传入的 PDF 文档以进行存储、分析或进一步处理。

试试这些提示

基本文本提取
Extract all text from myfile.pdf and save it to output.txt
表格提取
Find and extract all tables from report.pdf and save them to a CSV file
表单填写
Fill the fields in application_form.pdf with name=John Smith, email=john@email.com, address=123 Main St
文档组装
Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into book.pdf

最佳实践

  • 在处理大批量之前先在样本文件上测试提取
  • 验证提取的数据与原始 PDF 在视觉上是否匹配
  • 优雅地处理损坏或受密码保护的文件的异常

避免

  • 假设所有 PDF 都包含可提取的文本(扫描图像需要 OCR)
  • 在只需要特定页面时处理整个文档
  • 跳过文件访问或格式问题的错误处理

常见问题

此技能支持哪些 PDF 库?
pdfplumber 用于文本和表格提取,pypdf 用于操作,pdf2image 用于转换,pytesseract 用于 OCR。
我可以从扫描的 PDF 中提取文本吗?
可以,但需要安装 pytesseract 和 Tesseract OCR。常规的 pdfplumber 无法读取扫描图像。
我可以将提取的数据导出为哪些格式?
纯文本、CSV、JSON,或使用 Python 库(如 pandas)直接导出到数据库。
处理 PDF 时我的数据安全吗?
是的,所有处理都在您的机器上本地进行。不会向外部服务发送任何数据。
为什么某些 PDF 提取失败?
常见原因包括需要 OCR 的扫描图像、密码保护、文件损坏或非标准编码。
这与商业 PDF 工具相比如何?
这提供了基于代码的自动化。商业工具提供 GUI,但对每个文档都需要手动步骤。