Habilidades pdf-analyze
📄

pdf-analyze

Baixo Risco

处理PDF文档以进行提取和表单填写

Também disponível em: 21pounder

PDF文档通常包含难以以编程方式访问的重要数据。此技能为Claude提供全面的工具,用于提取文本和表格、填写表单、合并文档以及将PDF转换为图像进行分析。

Suporta: Claude Codex Code(CC)
🥉 72 Bronze
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "pdf-analyze". Extract text from report.pdf and list all tables found

Resultado esperado:

  • 从report.pdf中提取了24页
  • 发现5个表格:
  • - 表格1:'按地区收入'(第3页)
  • - 表格2:'Q4绩效指标'(第7页)
  • - 表格3:'客户人口统计'(第12页)
  • - 表格4:'同比年增长'(第18页)
  • - 表格5:'2025年预测目标'(第22页)
  • 已保存extracted_text.txt(45 KB)并将表格保存到tables_20250110.xlsx

Auditoria de Segurança

Baixo Risco
v3 • 1/10/2026

This is a legitimate PDF processing toolkit containing utility scripts for extracting text, filling forms, and manipulating documents. All code uses standard Python PDF libraries with no network access, no credential theft patterns, and no obfuscation. The skill's behavior aligns with its stated purpose.

11
Arquivos analisados
1,492
Linhas analisadas
0
achados
3
Total de auditorias
Nenhum problema de segurança encontrado
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

59
Arquitetura
100
Manutenibilidade
83
Conteúdo
31
Comunidade
90
Segurança
78
Conformidade com especificações

O Que Você Pode Construir

从报告中提取表格

将财务报告、研究论文和统计文档中的结构化数据提取为CSV或Excel格式。

自动化表单填写

使用经过验证的数据以编程方式填写PDF表单,用于应用程序、调查和官方文件。

构建PDF处理工作流

创建文档处理管道,合并、拆分和转换PDF以用于应用程序和服务。

Tente Estes Prompts

提取PDF文本
Extract all text from document.pdf using pdfplumber and save it to extracted_text.txt
列出表单字段
Check if application_form.pdf has fillable form fields, and if so, list all field names and types
提取表格
Extract all tables from quarterly_report.pdf and save them to an Excel file with one sheet per table
填写PDF表单
Fill in the following fields in application_form.pdf using data from field_values.json and save to completed_form.pdf

Melhores Práticas

  • 在提交之前验证表单字段值以尽早发现错误
  • 处理不可填写表单时先将其转换为图像以直观验证注释位置
  • 使用边界框验证脚本确保注释不重叠或遮挡现有内容

Evitar

  • 跳过填写PDF之前的表单字段验证步骤
  • 不先将不可填写PDF转换为图像进行视觉分析
  • 使用硬编码的文件路径而非参数以提高可重用性

Perguntas Frequentes

此技能使用哪些Python库?
主要库包括:pypdf用于基本操作,pdfplumber用于文本和表格提取,reportlab用于创建新PDF。
系统要求是什么?
需要Python 3.8+并通过pip安装pypdf、pdfplumber、reportlab、pdf2image和PIL。必须安装Poppler才能进行PDF到图像的转换。
如何填写不可填写的扫描PDF?
使用不可填写表单工作流:将PDF转换为图像,手动确定文本输入位置,创建包含边界框的fields.json,然后使用fill_pdf_form_with_annotations.py。
处理PDF时我的数据安全吗?
是的。所有处理都使用Python库在本地完成,不会将数据发送到外部服务器。文件仅从您指定的路径读取和写入。
为什么我填写的PDF显示注释位置错误?
这通常表示坐标转换错误。PDF坐标从左下角开始,而图像坐标从左上角开始。验证您的边界框转换逻辑。
这与在JavaScript中使用pdf-lib有什么不同?
Python工具提供更成熟的文本提取和表格解析功能。pdf-lib更适合浏览器环境或需要在客户端创建或修改PDF的Node.js项目。