PDF 处理工具包
精选

PDF 处理工具包

完整的 PDF 流水线 — 提取文本和表格、填写表单、合并和拆分文档、对扫描页面执行 OCR,并渲染页面级预览。

3 技能 3 安装次数
pdfdocument-processingocrformsextractionproductivity
4 天前更新

安装

运行此命令,安装该技能包中的全部技能:

npx skillstore add @pdf-processing-toolkit

CLI 会自动检测 Codex 和 Claude Code 文件夹;如果两者都可用,就会同时安装。

概览

使用指南

详细指南

## 概述

完整的 PDF 流水线 — 提取文本和表格、填写表单、合并和拆分文档、对扫描页面执行 OCR,并渲染页面级预览。结合三项互补技能,适用于通用、生产级和深度提取 PDF 工作流。

## 快速开始

1. 安装:`npx skillstore add @pdf-processing-toolkit`
2. 从 PDF 提取文本:使用 **pdf-analyze** 从任意文档中提取文本、表格或元数据
3. 处理生产工作流:使用 **pdf-processing-pro** 进行 OCR、表单填写、批量处理和验证
4. 深度页面检查:使用 **pdf-page-extract** 提取逐页文本片段、渲染 PNG 预览,并读取页面元数据

## 关键命令

- **pdf-analyze** (21pounder):提取文本块、表格和元数据;创建 PDF;合并/拆分文档;处理表单字段 — 通用 PDF 操作
- **pdf-processing-pro** (davila7):生产级 PDF 处理 — 针对扫描文档的 OCR、表单检测与填写、跨多个文件的批量处理、输出验证
- **pdf-page-extract** (abejitsu):页面级精度 — 提取带位置/span 数据的文本、将单个页面渲染为 PNG 图像、获取页数和尺寸

## 提示

- 流水线:使用 pdf-page-extract 将页面渲染为图像,然后传递给 AI vision model 进行结构化数据提取
- 批量处理大型文档:pdf-processing-pro 可在多文件工作流中处理验证和错误恢复
- 与 ai-media-production-toolkit 结合使用:生成 PDF 报告,然后将其封面页渲染为图像以便分享

技能

3