📦

pdf

Name: pdf
Author: ZhanlinCui

Riesgo bajo 📁 Acceso al sistema de archivos⚙️ Comandos externos

Manipular documentos PDF y completar formularios programáticamente

También disponible en: ArtemisAI,sickn33,Azeem-2,92Bilal26,92Bilal26,anthropics,AutumnsGrove,DYAI2025,K-Dense-AI,davila7,Cam10001110101,ComposioHQ

Las tareas de procesamiento de PDF requieren herramientas especializadas para extracción, manipulación y completado de formularios. Esta habilidad proporciona capacidades integrales de manejo de PDF utilizando bibliotecas de Python y herramientas de línea de comandos.

Soporta: Claude Codex Code(CC)

🥉 75 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "pdf". Extraer texto de document.pdf

Resultado esperado:

Se extrajeron exitosamente 2.450 caracteres de 5 páginas. Secciones clave identificadas: Resumen Ejecutivo, Datos Financieros, Conclusiones.

Usando "pdf". Fusionar file1.pdf, file2.pdf, file3.pdf

Resultado esperado:

Se creó merged.pdf (15 páginas en total) combinando: file1.pdf (3 páginas), file2.pdf (7 páginas), file3.pdf (5 páginas)

Usando "pdf". Completar form.pdf con field_values.json

Resultado esperado:

Se completaron 12 campos de formulario en 2 páginas. Salida guardada en form_filled.pdf con valores de campo validados.

Auditoría de seguridad

Riesgo bajo

v1 • 2/24/2026

Static analysis flagged 217 potential issues, but most are false positives from markdown documentation files. External command detections are code examples in backticks (markdown formatting), not actual shell execution. Filesystem operations in Python scripts are legitimate PDF/JSON processing with user-provided paths. No confirmed malicious patterns detected.

Archivos escaneados

1,878

Líneas analizadas

hallazgos

Auditorías totales

Problemas de riesgo medio (1)

forms.md:4 reference.md:11 SKILL.md:15

External Command Execution Patterns

Static analysis detected shell command patterns in documentation files. These are markdown code examples demonstrating command-line tool usage (qpdf, pdftotext, pdfimages), not actual executable code. All commands are intended for user reference only.

Problemas de riesgo bajo (2)

scripts/extract_form_field_info.py:143 scripts/fill_fillable_fields.py:55 scripts/fill_pdf_form_with_annotations.py:93

Filesystem Write Operations

Python scripts perform file write operations for PDF output and JSON data. All file paths are provided as command-line arguments by the user, with no hardcoded paths or unauthorized file access.

scripts/extract_form_field_info.py:32 scripts/extract_form_field_info.py:81

Hardcoded Documentation URLs

Scripts contain hardcoded URLs pointing to PDF specification documentation (Adobe, WestHealth). These are reference links for developers, not network exfiltration endpoints.

Factores de riesgo

📁 Acceso al sistema de archivos (4)

reference.md:59 scripts/extract_form_field_info.py:143 scripts/fill_fillable_fields.py:55 scripts/fill_pdf_form_with_annotations.py:93

⚙️ Comandos externos (5)

forms.md:4 reference.md:11 SKILL.md:15 scripts/check_bounding_boxes.py:6 scripts/extract_form_field_info.py:11

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Extraer datos de informes PDF

Extraer automáticamente contenido de texto y tablas de informes financieros o científicos en PDF para análisis de datos

Completar formularios de aplicación PDF

Completar programáticamente formularios PDF rellenables con datos proporcionados por el usuario y validación

Procesamiento por lotes de documentos PDF

Fusionar, dividir, rotar y añadir marcas de agua a múltiples documentos PDF en flujos de trabajo automatizados

Prueba estos prompts

Extraer texto de un PDF

Extrae todo el contenido de texto del documento PDF adjunto y resume la información clave.

Fusionar múltiples PDF

Combina estos archivos PDF en un solo documento en el orden: cover.pdf, chapter1.pdf, chapter2.pdf, appendix.pdf

Completar un formulario PDF con datos de usuario

Necesito completar este formulario de aplicación. Extrae primero la información de los campos, luego proporcionaré los valores para poblar cada campo.

Extraer tablas y convertir a Excel

Extrae todas las tablas de este informe financiero en PDF y guárdalas como una hoja de cálculo de Excel con hojas separadas para cada tabla

Mejores prácticas

Validar siempre los valores de campos de formularios PDF antes de completar para prevenir errores
Usar configuración de alta resolución (300+ DPI) al convertir PDF a imágenes para OCR
Verificar intersecciones de bounding box al añadir anotaciones a PDF no rellenables

Evitar

No omitir la validación visual de bounding box al completar formularios no rellenables
Evitar procesar PDF protegidos con contraseña sin descifrarlos primero
No asumir que todos los PDF tienen texto extraíble - los PDF escaneados requieren OCR

Preguntas frecuentes

¿Qué bibliotecas de Python necesito tener instaladas?

Bibliotecas principales: pypdf, pdfplumber, reportlab. Opcional: pytesseract para OCR, pdf2image para conversión PDF-a-imagen. Instalar con: pip install pypdf pdfplumber reportlab

¿Cómo manejo PDF escaneados sin texto?

Los PDF escaneados requieren procesamiento OCR. Usa el flujo de trabajo de pytesseract: convierte las páginas PDF a imágenes con pdf2image, luego aplica pytesseract.image_to_string() para extraer texto.

¿Esta habilidad puede completar formularios PDF que no son rellenables?

Sí, añadiendo anotaciones de texto en posiciones calculadas. El proceso implica convertir el PDF a imágenes, identificar ubicaciones de campos visualmente, crear bounding boxes y añadir anotaciones.

¿Qué herramientas de línea de comandos están disponibles?

poppler-utils (pdftotext, pdfimages, pdftoppm), qpdf para fusión/división, y pdftk para operaciones avanzadas. Instalar poppler-utils y qpdf mediante el gestor de paquetes de tu sistema.

¿Cómo extraigo tablas de PDF?

Usa el método extract_tables() de pdfplumber. Para tablas complejas, configura table_settings con los parámetros vertical_strategy y horizontal_strategy para mejor detección.

¿Puedo procesar PDF cifrados?

Sí, si tienes la contraseña. Usa el método decrypt() de pypdf o la opción --password de qpdf. Sin la contraseña, los PDF cifrados no pueden procesarse.