キュレーション済み

PDF処理ツールキット

完全なPDFパイプライン — テキストと表の抽出、フォーム入力、ドキュメントの結合と分割、スキャン済みページのOCR、ページ単位のプレビュー表示を行います。

3 スキル 3 インストール

pdfdocument-processingocrformsextractionproductivity

4 日前に更新

インストール

このパック内のすべてのスキルをインストールするには、このコマンドを実行してください:

npx skillstore add @pdf-processing-toolkit

CLI は Codex と Claude Code のフォルダを自動検出し、利用できる場合は両方にインストールします。

概要

使用ガイド

詳細ガイド

## 概要

完全なPDFパイプライン — テキストと表の抽出、フォーム入力、ドキュメントの結合と分割、スキャン済みページのOCR、ページ単位のプレビュー表示を行います。汎用、プロダクション品質、深い抽出に対応するPDFワークフロー向けに、相互補完的な3つのスキルを組み合わせています。

## クイックスタート

1. インストール: `npx skillstore add @pdf-processing-toolkit`
2. PDFからテキストを抽出: **pdf-analyze** を使用して、任意のドキュメントからテキスト、表、またはメタデータを取得します
3. プロダクションワークフローを処理: **pdf-processing-pro** を使用して、OCR、フォーム入力、バッチ処理、検証を行います
4. ページの詳細検査: **pdf-page-extract** を使用して、ページごとのテキストスパンを抽出し、PNGプレビューをレンダリングし、ページメタデータを読み取ります

## 主なコマンド

- **pdf-analyze** (21pounder): テキストブロック、表、メタデータを抽出します。PDFの作成、ドキュメントの結合/分割、フォームフィールドの処理を行います — 汎用的なPDF操作
- **pdf-processing-pro** (davila7): プロダクション品質のPDF処理 — スキャン済みドキュメントのOCR、フォーム検出と入力、複数ファイルにまたがるバッチ処理、出力検証
- **pdf-page-extract** (abejitsu): ページ単位の精密処理 — 位置/スパンデータ付きでテキストを抽出し、個別ページをPNG画像としてレンダリングし、ページ数と寸法を取得します

## ヒント

- パイプライン: pdf-page-extract を使用してページを画像としてレンダリングし、その後AI vision modelに渡して構造化データを抽出します
- 大規模ドキュメントのバッチ処理: pdf-processing-pro は複数ファイルのワークフロー全体で検証とエラー回復を処理します
- ai-media-production-toolkitとの組み合わせ: PDFレポートを生成し、その表紙ページを共有用の画像としてレンダリングします