📄

pdf-processing

Name: pdf-processing
Author: davila7

Seguro ⚙️ Comandos externos📁 Acesso ao sistema de arquivos🌐 Acesso à rede

Extrair e processar documentos PDF

Também disponível em: 0xkynz,Joseph OBrien,0xkynz

Documentos PDF contêm dados valiosos, mas são difíceis de processar programaticamente. Esta skill fornece padrões de código para extrair texto, tabelas e dados de formulários de PDFs usando bibliotecas Python como pdfplumber e pypdf.

Suporta: Claude Codex Code(CC)

📊 69 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "pdf-processing". Extract text from contract.pdf

Resultado esperado:

File: contract.pdf
Pages: 12
Extracted text length: 4,521 characters
First page preview: This Agreement is entered into...

A utilizar "pdf-processing". Extract tables from quarterly_report.pdf

Resultado esperado:

Found 3 tables on page 1
Table 1: Revenue by Region (4 columns x 5 rows)
Table 2: Quarterly Growth (2 columns x 4 rows)
Tables saved to quarterly_report_tables.csv

A utilizar "pdf-processing". Merge invoice1.pdf and invoice2.pdf

Resultado esperado:

Merged 2 PDF files
Total pages: 8
Output saved to merged_invoices.pdf

Auditoria de Segurança

Seguro

v5 • 1/17/2026

Documentation-only skill providing Python code examples for legitimate PDF processing. All 42 static findings are FALSE POSITIVES: scanner misidentified markdown code fences as shell backticks and PDF form field values as cryptographic algorithms. Prior audit in skill-report.json confirmed safe status with no findings.

Arquivos analisados

475

Linhas analisadas

achados

Total de auditorias

Fatores de risco

⚙️ Comandos externos (28)

📁 Acesso ao sistema de arquivos (5)

FORMS.md:46 FORMS.md:66 SKILL.md:85 SKILL.md:105 SKILL.md:117

🌐 Acesso à rede (1)

skill-report.json:6

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Extrair dados tabulares de relatórios

Extrair tabelas de relatórios financeiros e artigos de pesquisa para análise em planilhas ou bancos de dados.

Automatizar preenchimento de formulários

Preencher formulários PDF com dados de planilhas ou bancos de dados para processamento em lote.

Criar pipelines de documentos

Criar fluxos de trabalho para processar documentos PDF recebidos para armazenamento, análise ou processamento adicional.

Tente Estes Prompts

Extração básica de texto

Extract all text from myfile.pdf and save it to output.txt

Extração de tabelas

Find and extract all tables from report.pdf and save them to a CSV file

Preenchimento de formulários

Fill the fields in application_form.pdf with name=John Smith, email=john@email.com, address=123 Main St

Montagem de documentos

Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into book.pdf

Melhores Práticas

Testar a extração em arquivos de amostra antes de processar grandes lotes
Validar visualmente se os dados extraídos correspondem ao PDF original
Tratar exceções de forma adequada para arquivos corrompidos ou protegidos por senha

Evitar

Assumir que todos os PDFs contêm texto extraível (imagens digitalizadas precisam de OCR)
Processar documentos inteiros quando apenas páginas específicas são necessárias
Ignorar tratamento de erros para problemas de acesso a arquivos ou formato

Perguntas Frequentes

Quais bibliotecas PDF esta skill suporta?

pdfplumber para extração de texto e tabelas, pypdf para manipulação, pdf2image para conversão, pytesseract para OCR.

Posso extrair texto de PDFs digitalizados?

Sim, mas você precisa ter pytesseract e Tesseract OCR instalados. O pdfplumber comum não consegue ler imagens digitalizadas.

Para quais formatos posso exportar os dados extraídos?

Texto simples, CSV, JSON, ou diretamente para bancos de dados usando bibliotecas Python como pandas.

Meus dados estão seguros ao processar PDFs?

Sim, todo o processamento acontece localmente na sua máquina. Nenhum dado é enviado para serviços externos.

Por que a extração falha em alguns PDFs?

Causas comuns incluem imagens digitalizadas que requerem OCR, proteção por senha, arquivos corrompidos ou codificação não padrão.

Como isto se compara a ferramentas PDF comerciais?

Isto fornece automação baseada em código. Ferramentas comerciais oferecem interfaces gráficas, mas requerem etapas manuais para cada documento.

Detalhes do Desenvolvedor

Autor

davila7

Licença

MIT

Repositório

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/document-processing/pdf-processing

Referência

main

Estrutura de arquivos

📄 FORMS.md

📄 SKILL.md