Habilidades pdf-analyze
📄

pdf-analyze

Baixo Risco ⚙️ Comandos externos📁 Acesso ao sistema de arquivos🌐 Acesso à rede

处理PDF文档以进行提取和表单填写

Também disponível em: 21pounder

PDF文档通常包含难以以编程方式访问的重要数据。此技能为Claude提供了全面的工具,可以提取文本和表格、填写表单、合并文档以及将PDF转换为图像进行分析。

Suporta: Claude Codex Code(CC)
🥉 73 Bronze
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "pdf-analyze". 从report.pdf中提取文本并列出找到的所有表格

Resultado esperado:

  • 从report.pdf中提取了24页内容
  • 找到5个表格:
  • - 表格1:'各地区收入'(第3页)
  • - 表格2:'第四季度绩效指标'(第7页)
  • - 表格3:'客户人口统计'(第12页)
  • - 表格4:'同比增长'(第18页)
  • - 表格5:'2025年预测目标'(第22页)
  • 已保存extracted_text.txt(45 KB)和表格到tables_20250110.xlsx

Auditoria de Segurança

Baixo Risco
v3 • 1/16/2026

This is a legitimate PDF processing toolkit. The static analyzer flagged 173 potential issues, but ALL are false positives. The 'Ruby/shell backtick execution' patterns are Markdown code formatting delimiters, not actual command execution. 'Weak cryptographic algorithm' detections are test fixture data with hash-like strings, not crypto operations. 'C2 keywords' refers to 'encrypt' in PDF password documentation. No network exfiltration, credential theft, or obfuscation patterns exist. The skill's behavior fully aligns with its stated purpose.

12
Arquivos analisados
1,729
Linhas analisadas
3
achados
3
Total de auditorias

Fatores de risco

⚙️ Comandos externos (104)
FORMS.md:4 FORMS.md:8 FORMS.md:9-52 FORMS.md:52-54 FORMS.md:54-56 FORMS.md:56-57 FORMS.md:57-60 FORMS.md:60-73 FORMS.md:73-74 FORMS.md:74-75 FORMS.md:75-87 FORMS.md:87-94 FORMS.md:94-98 FORMS.md:98-102 FORMS.md:102-104 FORMS.md:104-108 FORMS.md:108-111 FORMS.md:111-115 FORMS.md:115-118 FORMS.md:118-122 FORMS.md:122-124 FORMS.md:124-131 FORMS.md:131-132 FORMS.md:132-177 FORMS.md:177-180 FORMS.md:186 FORMS.md:187 REFERENCE.md:11-34 REFERENCE.md:34-37 REFERENCE.md:37-44 REFERENCE.md:44-53 REFERENCE.md:53-64 REFERENCE.md:64-78 REFERENCE.md:78-81 REFERENCE.md:81-139 REFERENCE.md:139-145 REFERENCE.md:145-149 REFERENCE.md:149-151 REFERENCE.md:151-154 REFERENCE.md:154-162 REFERENCE.md:162-178 REFERENCE.md:178-183 REFERENCE.md:183-193 REFERENCE.md:193-196 REFERENCE.md:196-200 REFERENCE.md:200-203 REFERENCE.md:203-214 scripts/check_bounding_boxes.py:6 scripts/check_bounding_boxes.py:41 scripts/check_bounding_boxes.py:43 scripts/check_bounding_boxes.py:43 scripts/check_bounding_boxes.py:53 scripts/check_bounding_boxes.py:66 scripts/convert_pdf_to_images.py:14 scripts/create_validation_image.py:12 scripts/extract_form_field_info.py:11 scripts/extract_form_field_info.py:11 scripts/extract_form_field_info.py:38 scripts/fill_fillable_fields.py:34 scripts/fill_fillable_fields.py:37 scripts/fill_fillable_fields.py:84 scripts/fill_fillable_fields.py:86 scripts/fill_fillable_fields.py:87 scripts/fill_fillable_fields.py:88 scripts/fill_fillable_fields.py:89 scripts/fill_pdf_form_with_annotations.py:8 scripts/fill_pdf_form_with_annotations.py:31 SKILL.md:15-26 SKILL.md:26-33 SKILL.md:33-44 SKILL.md:44-47 SKILL.md:47-54 SKILL.md:54-57 SKILL.md:57-64 SKILL.md:64-67 SKILL.md:67-77 SKILL.md:77-82 SKILL.md:82-89 SKILL.md:89-92 SKILL.md:92-100 SKILL.md:100-103 SKILL.md:103-119 SKILL.md:119-124 SKILL.md:124-140 SKILL.md:140-143 SKILL.md:143-167 SKILL.md:167-172 SKILL.md:172-181 SKILL.md:181-184 SKILL.md:184-197 SKILL.md:197-200 SKILL.md:200-209 SKILL.md:209-214 SKILL.md:214-230 SKILL.md:230-233 SKILL.md:233-249 SKILL.md:249-252 SKILL.md:252-257 SKILL.md:257-260 SKILL.md:260-274 SKILL.md:274-280 SKILL.md:280-282 SKILL.md:282-283 SKILL.md:283-285
📁 Acesso ao sistema de arquivos (16)
🌐 Acesso à rede (4)
Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

59
Arquitetura
100
Manutenibilidade
83
Conteúdo
22
Comunidade
90
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

从报告中提取表格

将财务报告、研究论文和统计文档中的结构化数据提取为CSV或Excel格式。

自动化表单填写

使用已验证的数据以编程方式填写PDF表单,适用于申请、调查和官方文件。

构建PDF处理工作流

创建文档处理管道,合并、拆分和转换PDF以供应用程序和服务使用。

Tente Estes Prompts

提取PDF文本
使用pdfplumber从document.pdf中提取所有文本并保存到extracted_text.txt
列出表单字段
检查application_form.pdf是否具有可填写的表单字段,如果有,列出所有字段名称和类型
提取表格
从quarterly_report.pdf中提取所有表格并保存到Excel文件,每个表格一个工作表
填写PDF表单
使用field_values.json中的数据填写application_form.pdf中的字段并保存到completed_form.pdf

Melhores Práticas

  • 在提交前验证表单字段值以尽早发现错误
  • 处理不可填写表单时先将其转换为图像以直观验证注释位置
  • 使用边界框验证脚本确保注释不会与现有内容重叠或遮挡

Evitar

  • 跳过填写PDF前的表单字段验证步骤
  • 不先将不可填写的PDF转换为图像进行视觉分析
  • 使用硬编码的文件路径而非参数以提高可重用性

Perguntas Frequentes

此技能使用哪些Python库?
主要库包括:pypdf用于基本操作,pdfplumber用于文本和表格提取,reportlab用于创建新PDF。
系统要求是什么?
需要Python 3.8+并通过pip安装pypdf、pdfplumber、reportlab、pdf2image和PIL。PDF转图像需要安装Poppler。
如何填写不可填写的扫描PDF?
使用不可填写表单工作流:将PDF转换为图像,手动确定文本输入位置,创建包含边界框的fields.json,然后使用fill_pdf_form_with_annotations.py。
处理PDF时我的数据安全吗?
是的。所有处理都使用Python库在本地完成,不会将数据发送到外部服务器。文件仅从您指定的路径读取和写入。
为什么我填写的PDF显示注释在错误的位置?
这通常表示坐标转换错误。PDF坐标从左下角开始,而图像坐标从左上角开始。验证您的边界框转换逻辑。
这与在JavaScript中使用pdf-lib有什么不同?
Python工具提供更成熟的文本提取和表格解析功能。pdf-lib更适合浏览器环境或需要在客户端创建或修改PDF的Node.js项目。