📦

pdf

Riesgo bajo 📁 Acceso al sistema de archivos⚙️ Comandos externos

Manipular documentos PDF y completar formularios programáticamente

También disponible en: 92Bilal26,92Bilal26,davila7,ArtemisAI,AutumnsGrove,Azeem-2,DYAI2025,anthropics,K-Dense-AI,ComposioHQ,Cam10001110101

Las tareas de procesamiento de PDF requieren herramientas especializadas para extracción, manipulación y completado de formularios. Esta habilidad proporciona capacidades integrales de manejo de PDF utilizando bibliotecas de Python y herramientas de línea de comandos.

Soporta: Claude Codex Code(CC)
🥉 76 Bronce
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "pdf". Extraer texto de document.pdf

Resultado esperado:

Se extrajeron exitosamente 2.450 caracteres de 5 páginas. Secciones clave identificadas: Resumen Ejecutivo, Datos Financieros, Conclusiones.

Usando "pdf". Fusionar file1.pdf, file2.pdf, file3.pdf

Resultado esperado:

Se creó merged.pdf (15 páginas en total) combinando: file1.pdf (3 páginas), file2.pdf (7 páginas), file3.pdf (5 páginas)

Usando "pdf". Completar form.pdf con field_values.json

Resultado esperado:

Se completaron 12 campos de formulario en 2 páginas. Salida guardada en form_filled.pdf con valores de campo validados.

Auditoría de seguridad

Riesgo bajo
v1 • 2/24/2026

Static analysis flagged 217 potential issues, but most are false positives from markdown documentation files. External command detections are code examples in backticks (markdown formatting), not actual shell execution. Filesystem operations in Python scripts are legitimate PDF/JSON processing with user-provided paths. No confirmed malicious patterns detected.

11
Archivos escaneados
1,878
Líneas analizadas
5
hallazgos
1
Auditorías totales
Problemas de riesgo medio (1)
External Command Execution Patterns
Static analysis detected shell command patterns in documentation files. These are markdown code examples demonstrating command-line tool usage (qpdf, pdftotext, pdfimages), not actual executable code. All commands are intended for user reference only.
Problemas de riesgo bajo (2)
Filesystem Write Operations
Python scripts perform file write operations for PDF output and JSON data. All file paths are provided as command-line arguments by the user, with no hardcoded paths or unauthorized file access.
Hardcoded Documentation URLs
Scripts contain hardcoded URLs pointing to PDF specification documentation (Adobe, WestHealth). These are reference links for developers, not network exfiltration endpoints.
Auditado por: claude

Puntuación de calidad

59
Arquitectura
100
Mantenibilidad
87
Contenido
50
Comunidad
81
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Extraer datos de informes PDF

Extraer automáticamente contenido de texto y tablas de informes financieros o científicos en PDF para análisis de datos

Completar formularios de aplicación PDF

Completar programáticamente formularios PDF rellenables con datos proporcionados por el usuario y validación

Procesamiento por lotes de documentos PDF

Fusionar, dividir, rotar y añadir marcas de agua a múltiples documentos PDF en flujos de trabajo automatizados

Prueba estos prompts

Extraer texto de un PDF
Extrae todo el contenido de texto del documento PDF adjunto y resume la información clave.
Fusionar múltiples PDF
Combina estos archivos PDF en un solo documento en el orden: cover.pdf, chapter1.pdf, chapter2.pdf, appendix.pdf
Completar un formulario PDF con datos de usuario
Necesito completar este formulario de aplicación. Extrae primero la información de los campos, luego proporcionaré los valores para poblar cada campo.
Extraer tablas y convertir a Excel
Extrae todas las tablas de este informe financiero en PDF y guárdalas como una hoja de cálculo de Excel con hojas separadas para cada tabla

Mejores prácticas

  • Validar siempre los valores de campos de formularios PDF antes de completar para prevenir errores
  • Usar configuración de alta resolución (300+ DPI) al convertir PDF a imágenes para OCR
  • Verificar intersecciones de bounding box al añadir anotaciones a PDF no rellenables

Evitar

  • No omitir la validación visual de bounding box al completar formularios no rellenables
  • Evitar procesar PDF protegidos con contraseña sin descifrarlos primero
  • No asumir que todos los PDF tienen texto extraíble - los PDF escaneados requieren OCR

Preguntas frecuentes

¿Qué bibliotecas de Python necesito tener instaladas?
Bibliotecas principales: pypdf, pdfplumber, reportlab. Opcional: pytesseract para OCR, pdf2image para conversión PDF-a-imagen. Instalar con: pip install pypdf pdfplumber reportlab
¿Cómo manejo PDF escaneados sin texto?
Los PDF escaneados requieren procesamiento OCR. Usa el flujo de trabajo de pytesseract: convierte las páginas PDF a imágenes con pdf2image, luego aplica pytesseract.image_to_string() para extraer texto.
¿Esta habilidad puede completar formularios PDF que no son rellenables?
Sí, añadiendo anotaciones de texto en posiciones calculadas. El proceso implica convertir el PDF a imágenes, identificar ubicaciones de campos visualmente, crear bounding boxes y añadir anotaciones.
¿Qué herramientas de línea de comandos están disponibles?
poppler-utils (pdftotext, pdfimages, pdftoppm), qpdf para fusión/división, y pdftk para operaciones avanzadas. Instalar poppler-utils y qpdf mediante el gestor de paquetes de tu sistema.
¿Cómo extraigo tablas de PDF?
Usa el método extract_tables() de pdfplumber. Para tablas complejas, configura table_settings con los parámetros vertical_strategy y horizontal_strategy para mejor detección.
¿Puedo procesar PDF cifrados?
Sí, si tienes la contraseña. Usa el método decrypt() de pypdf o la opción --password de qpdf. Sin la contraseña, los PDF cifrados no pueden procesarse.