技能 pdf-analyze

📄

pdf-analyze

Name: pdf-analyze
Author: 21pounder

低风险

处理PDF文档以进行提取和表单填写

也可从以下获取: 21pounder

PDF文档通常包含难以以编程方式访问的重要数据。此技能为Claude提供全面的工具，用于提取文本和表格、填写表单、合并文档以及将PDF转换为图像进行分析。

支持: Claude Codex Code(CC)

📊 71 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“pdf-analyze”。 Extract text from report.pdf and list all tables found

预期结果:

从report.pdf中提取了24页
发现5个表格：
- 表格1：'按地区收入'（第3页）
- 表格2：'Q4绩效指标'（第7页）
- 表格3：'客户人口统计'（第12页）
- 表格4：'同比年增长'（第18页）
- 表格5：'2025年预测目标'（第22页）
已保存extracted_text.txt（45 KB）并将表格保存到tables_20250110.xlsx

安全审计

低风险

v3 • 1/10/2026

This is a legitimate PDF processing toolkit containing utility scripts for extracting text, filling forms, and manipulating documents. All code uses standard Python PDF libraries with no network access, no credential theft patterns, and no obfuscation. The skill's behavior aligns with its stated purpose.

已扫描文件

1,492

分析行数

发现项

审计总数

未发现安全问题

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

安全

规范符合性

你能构建什么

从报告中提取表格

将财务报告、研究论文和统计文档中的结构化数据提取为CSV或Excel格式。

自动化表单填写

使用经过验证的数据以编程方式填写PDF表单，用于应用程序、调查和官方文件。

构建PDF处理工作流

创建文档处理管道，合并、拆分和转换PDF以用于应用程序和服务。

试试这些提示

提取PDF文本

Extract all text from document.pdf using pdfplumber and save it to extracted_text.txt

列出表单字段

Check if application_form.pdf has fillable form fields, and if so, list all field names and types

提取表格

Extract all tables from quarterly_report.pdf and save them to an Excel file with one sheet per table

填写PDF表单

Fill in the following fields in application_form.pdf using data from field_values.json and save to completed_form.pdf

最佳实践

在提交之前验证表单字段值以尽早发现错误
处理不可填写表单时先将其转换为图像以直观验证注释位置
使用边界框验证脚本确保注释不重叠或遮挡现有内容

避免

跳过填写PDF之前的表单字段验证步骤
不先将不可填写PDF转换为图像进行视觉分析
使用硬编码的文件路径而非参数以提高可重用性

常见问题

此技能使用哪些Python库？

主要库包括：pypdf用于基本操作，pdfplumber用于文本和表格提取，reportlab用于创建新PDF。

系统要求是什么？

需要Python 3.8+并通过pip安装pypdf、pdfplumber、reportlab、pdf2image和PIL。必须安装Poppler才能进行PDF到图像的转换。

如何填写不可填写的扫描PDF？

使用不可填写表单工作流：将PDF转换为图像，手动确定文本输入位置，创建包含边界框的fields.json，然后使用fill_pdf_form_with_annotations.py。

处理PDF时我的数据安全吗？

是的。所有处理都使用Python库在本地完成，不会将数据发送到外部服务器。文件仅从您指定的路径读取和写入。

为什么我填写的PDF显示注释位置错误？

这通常表示坐标转换错误。PDF坐标从左下角开始，而图像坐标从左上角开始。验证您的边界框转换逻辑。

这与在JavaScript中使用pdf-lib有什么不同？

Python工具提供更成熟的文本提取和表格解析功能。pdf-lib更适合浏览器环境或需要在客户端创建或修改PDF的Node.js项目。

开发者详情

作者

21pounder

许可证

Proprietary. LICENSE.txt has complete terms

仓库

https://github.com/21pounder/terminalAgent/tree/main/deepresearch/.claude/skills/pdf-analyze

引用

main

文件结构

📁 scripts/

📄 check_bounding_boxes_test.py

📄 check_bounding_boxes.py

📄 check_fillable_fields.py

📄 convert_pdf_to_images.py

📄 create_validation_image.py

📄 extract_form_field_info.py

📄 fill_fillable_fields.py

📄 fill_pdf_form_with_annotations.py

📄 FORMS.md

📄 REFERENCE.md

📄 SKILL.md