Habilidades pdf-processing-pro

📄

pdf-processing-pro

Name: pdf-processing-pro
Author: davila7

Baixo Risco ⚡ Contém scripts📁 Acesso ao sistema de arquivos

Extrair e processar documentos PDF

O processamento manual de documentos PDF leva muito tempo. Este kit oferece scripts prontos para produção para extrair texto, manipular formulários, extrair tabelas e realizar OCR em documentos digitalizados com suporte a processamento em lote.

Suporta: Claude Codex Code(CC)

🥉 73 Bronze

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "pdf-processing-pro". Extrair todo o texto de monthly_report.pdf e salvar em output.txt

Resultado esperado:

Processando: monthly_report.pdf
Extraído 45 páginas de texto
Salvo em output.txt (125KB)
Encontradas 8 tabelas durante a extração

A utilizar "pdf-processing-pro". Analisar form.pdf para todos os campos de formulário

Resultado esperado:

Encontrados 12 campos de formulário:
- full_name: texto, obrigatório, max_length: 100
- date_of_birth: texto, obrigatório, formato: MM/DD/AAAA
- email_newsletter: caixa de seleção, não obrigatório
- preferred_contact: rádio, obrigatório, opções: [email, telefone, correio]

A utilizar "pdf-processing-pro". Extrair tabelas de quarterly_report.pdf para Excel

Resultado esperado:

Processando: quarterly_report.pdf
Encontradas 5 tabelas em 12 páginas
Exportada Tabela_1 para planilha Excel (Dados de Receita)
Exportada Tabela_2 para planilha Excel (Despesas)
Exportada Tabela_3 para planilha Excel (Quadro de Pessoal)

Auditoria de Segurança

Baixo Risco

v5 • 1/17/2026

Legitimate PDF processing toolkit using standard Python libraries (pdfplumber, pypdf, pytesseract). All functionality is local file I/O for document processing. The 201 static findings are false positives caused by the scanner misinterpreting markdown code examples as executable code. The skill performs no network operations, reads no environment variables, and executes no unauthorized commands.

Arquivos analisados

2,209

Linhas analisadas

achados

Total de auditorias

Fatores de risco

⚡ Contém scripts (1)

scripts/analyze_form.py:1-308

📁 Acesso ao sistema de arquivos (1)

scripts/analyze_form.py:280-284

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

Segurança

Conformidade com especificações

O Que Você Pode Construir

Extrair dados de relatórios

Extrair tabelas e texto de relatórios financeiros e documentos de pesquisa para análise em planilhas.

Processarenvios de formulários

Preencher e validar automaticamente formulários PDF a partir de dados de aplicação ou entradas de planilha.

Digitalizar contratos digitalizados

Converter contratos e acordos em PDF digitalizados em documentos de texto pesquisáveis.

Tente Estes Prompts

Extrair texto do PDF

Use PDF Processing Pro para extrair todo o texto de [document.pdf] e salvá-lo em [output.txt] com a formatação preservada.

Analisar campos de formulário

Use PDF Processing Pro para analisar [form.pdf] e gerar um esquema JSON mostrando todos os campos do formulário, seus tipos, posições e se são obrigatórios.

Extrair tabelas

Use PDF Processing Pro para extrair todas as tabelas de [report.pdf] e exportá-las para [data.csv] com cabeçalhos adequados.

Processar PDFs em lote

Use PDF Processing Pro para processar em lote todos os PDFs no diretório [invoices/]. Extrair texto de cada um e salvar em [processed/] com o mesmo nome de arquivo, mas extensão .txt.

Melhores Práticas

Sempre valide arquivos PDF antes do processamento para capturar erros cedo e falhar rapidamente
Use processamento em lote para múltiplos documentos para melhorar a eficiência e reduzir overhead
Instale o pacote do sistema Tesseract OCR antes de processar documentos digitalizados
Teste primeiro com PDFs de exemplo para verificar se o formato de saída atende aos requisitos

Evitar

Processar PDFs protegidos por senha sem descriptografá-los primeiro
Ignorar pontuações de confiança de OCR ao trabalhar com documentos digitalizados
Processar PDFs muito grandes acima de 100MB sem streaming ou fragmentação
Pular validação de campos de formulário antes de preenchê-los com dados

Perguntas Frequentes

Quais formatos de PDF são suportados?

PDFs baseados em texto padrão, formulários (AcroForms) e documentos digitalizados via OCR. Formulários dinâmicos XFA não são suportados.

Quais são os limites de tamanho de arquivo?

PDFs pequenos e médios abaixo de 50MB processam eficientemente. Para arquivos maiores, processe página por página ou use streaming.

Como integro com ferramentas existentes?

Use os scripts Python diretamente no seu código. Importe pdfplumber ou pypdf seguindo os exemplos da documentação.

Meus dados estão seguros?

Todo o processamento acontece localmente na sua máquina. Nenhum dado é enviado para servidores ou serviços externos.

OCR não está funcionando. O que devo fazer?

Instale o pacote do sistema Tesseract OCR para sua plataforma (macOS: brew install tesseract, Ubuntu: apt-get install tesseract-ocr).

Como isso se compara a ferramentas PDF online?

Esta ferramenta roda inteiramente localmente sem limites de tamanho de arquivo ou restrições de upload. Os dados nunca saem da sua máquina.

Detalhes do Desenvolvedor

Autor

davila7

Licença

MIT

Repositório

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/document-processing/pdf-processing-pro

Referência

main

Estrutura de arquivos

📁 scripts/

📄 analyze_form.py

📄 FORMS.md

📄 OCR.md

📄 SKILL.md

📄 TABLES.md