Habilidades pdf-processing
📄

pdf-processing

Seguro ⚙️ Comandos externos📁 Acceso al sistema de archivos🌐 Acceso a red

Extrair e processar documentos PDF

También disponible en: 0xkynz,Joseph OBrien,0xkynz

Documentos PDF contêm dados valiosos, mas são difíceis de processar programaticamente. Esta skill fornece padrões de código para extrair texto, tabelas e dados de formulários de PDFs usando bibliotecas Python como pdfplumber e pypdf.

Soporta: Claude Codex Code(CC)
📊 69 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "pdf-processing". Extract text from contract.pdf

Resultado esperado:

  • File: contract.pdf
  • Pages: 12
  • Extracted text length: 4,521 characters
  • First page preview: This Agreement is entered into...

Usando "pdf-processing". Extract tables from quarterly_report.pdf

Resultado esperado:

  • Found 3 tables on page 1
  • Table 1: Revenue by Region (4 columns x 5 rows)
  • Table 2: Quarterly Growth (2 columns x 4 rows)
  • Tables saved to quarterly_report_tables.csv

Usando "pdf-processing". Merge invoice1.pdf and invoice2.pdf

Resultado esperado:

  • Merged 2 PDF files
  • Total pages: 8
  • Output saved to merged_invoices.pdf

Auditoría de seguridad

Seguro
v5 • 1/17/2026

Documentation-only skill providing Python code examples for legitimate PDF processing. All 42 static findings are FALSE POSITIVES: scanner misidentified markdown code fences as shell backticks and PDF form field values as cryptographic algorithms. Prior audit in skill-report.json confirmed safe status with no findings.

3
Archivos escaneados
475
Líneas analizadas
3
hallazgos
5
Auditorías totales

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
85
Contenido
21
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Extrair dados tabulares de relatórios

Extrair tabelas de relatórios financeiros e artigos de pesquisa para análise em planilhas ou bancos de dados.

Automatizar preenchimento de formulários

Preencher formulários PDF com dados de planilhas ou bancos de dados para processamento em lote.

Criar pipelines de documentos

Criar fluxos de trabalho para processar documentos PDF recebidos para armazenamento, análise ou processamento adicional.

Prueba estos prompts

Extração básica de texto
Extract all text from myfile.pdf and save it to output.txt
Extração de tabelas
Find and extract all tables from report.pdf and save them to a CSV file
Preenchimento de formulários
Fill the fields in application_form.pdf with name=John Smith, email=john@email.com, address=123 Main St
Montagem de documentos
Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into book.pdf

Mejores prácticas

  • Testar a extração em arquivos de amostra antes de processar grandes lotes
  • Validar visualmente se os dados extraídos correspondem ao PDF original
  • Tratar exceções de forma adequada para arquivos corrompidos ou protegidos por senha

Evitar

  • Assumir que todos os PDFs contêm texto extraível (imagens digitalizadas precisam de OCR)
  • Processar documentos inteiros quando apenas páginas específicas são necessárias
  • Ignorar tratamento de erros para problemas de acesso a arquivos ou formato

Preguntas frecuentes

Quais bibliotecas PDF esta skill suporta?
pdfplumber para extração de texto e tabelas, pypdf para manipulação, pdf2image para conversão, pytesseract para OCR.
Posso extrair texto de PDFs digitalizados?
Sim, mas você precisa ter pytesseract e Tesseract OCR instalados. O pdfplumber comum não consegue ler imagens digitalizadas.
Para quais formatos posso exportar os dados extraídos?
Texto simples, CSV, JSON, ou diretamente para bancos de dados usando bibliotecas Python como pandas.
Meus dados estão seguros ao processar PDFs?
Sim, todo o processamento acontece localmente na sua máquina. Nenhum dado é enviado para serviços externos.
Por que a extração falha em alguns PDFs?
Causas comuns incluem imagens digitalizadas que requerem OCR, proteção por senha, arquivos corrompidos ou codificação não padrão.
Como isto se compara a ferramentas PDF comerciais?
Isto fornece automação baseada em código. Ferramentas comerciais oferecem interfaces gráficas, mas requerem etapas manuais para cada documento.

Detalles del desarrollador

Estructura de archivos

📄 FORMS.md

📄 SKILL.md