精选

PDF 处理工具包

完整的 PDF 流水线 — 提取文本和表格、填写表单、合并和拆分文档、对扫描页面执行 OCR，并渲染页面级预览。

3 技能 3 安装次数

pdfdocument-processingocrformsextractionproductivity

4 天前更新

安装

运行此命令，安装该技能包中的全部技能：

npx skillstore add @pdf-processing-toolkit

CLI 会自动检测 Codex 和 Claude Code 文件夹；如果两者都可用，就会同时安装。

概览

使用指南

详细指南

## 概述

完整的 PDF 流水线 — 提取文本和表格、填写表单、合并和拆分文档、对扫描页面执行 OCR，并渲染页面级预览。结合三项互补技能，适用于通用、生产级和深度提取 PDF 工作流。

## 快速开始

1. 安装：`npx skillstore add @pdf-processing-toolkit`
2. 从 PDF 提取文本：使用 **pdf-analyze** 从任意文档中提取文本、表格或元数据
3. 处理生产工作流：使用 **pdf-processing-pro** 进行 OCR、表单填写、批量处理和验证
4. 深度页面检查：使用 **pdf-page-extract** 提取逐页文本片段、渲染 PNG 预览，并读取页面元数据

## 关键命令

- **pdf-analyze** (21pounder)：提取文本块、表格和元数据；创建 PDF；合并/拆分文档；处理表单字段 — 通用 PDF 操作
- **pdf-processing-pro** (davila7)：生产级 PDF 处理 — 针对扫描文档的 OCR、表单检测与填写、跨多个文件的批量处理、输出验证
- **pdf-page-extract** (abejitsu)：页面级精度 — 提取带位置/span 数据的文本、将单个页面渲染为 PNG 图像、获取页数和尺寸

## 提示

- 流水线：使用 pdf-page-extract 将页面渲染为图像，然后传递给 AI vision model 进行结构化数据提取
- 批量处理大型文档：pdf-processing-pro 可在多文件工作流中处理验证和错误恢复
- 与 ai-media-production-toolkit 结合使用：生成 PDF 报告，然后将其封面页渲染为图像以便分享