📦

pdf

Низкий риск 📁 Доступ к файловой системе⚙️ Внешние команды

Манипулирование PDF-документами и программное заполнение форм

Также доступно от: 92Bilal26,92Bilal26,davila7,ArtemisAI,AutumnsGrove,Azeem-2,DYAI2025,anthropics,K-Dense-AI,ComposioHQ,Cam10001110101

Задачи обработки PDF требуют специализированных инструментов для извлечения, манипулирования и заполнения форм. Этот навык предоставляет комплексные возможности работы с PDF с использованием библиотек Python и инструментов командной строки.

Поддерживает: Claude Codex Code(CC)
🥉 76 Бронза
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «pdf». Извлечь текст из document.pdf

Ожидаемый результат:

Успешно извлечено 2 450 символов с 5 страниц. Идентифицированы ключевые разделы: Краткое изложение, Финансовые данные, Выводы.

Использование «pdf». Объединить file1.pdf, file2.pdf, file3.pdf

Ожидаемый результат:

Создан merged.pdf (всего 15 страниц), объединяющий: file1.pdf (3 страницы), file2.pdf (7 страниц), file3.pdf (5 страниц)

Использование «pdf». Заполнить form.pdf с помощью field_values.json

Ожидаемый результат:

Заполнено 12 полей формы на 2 страницах. Вывод сохранён в form_filled.pdf с проверенными значениями полей.

Аудит безопасности

Низкий риск
v1 • 2/24/2026

Static analysis flagged 217 potential issues, but most are false positives from markdown documentation files. External command detections are code examples in backticks (markdown formatting), not actual shell execution. Filesystem operations in Python scripts are legitimate PDF/JSON processing with user-provided paths. No confirmed malicious patterns detected.

11
Просканировано файлов
1,878
Проанализировано строк
5
находки
1
Всего аудитов
Проблемы среднего риска (1)
External Command Execution Patterns
Static analysis detected shell command patterns in documentation files. These are markdown code examples demonstrating command-line tool usage (qpdf, pdftotext, pdfimages), not actual executable code. All commands are intended for user reference only.
Проблемы низкого риска (2)
Filesystem Write Operations
Python scripts perform file write operations for PDF output and JSON data. All file paths are provided as command-line arguments by the user, with no hardcoded paths or unauthorized file access.
Hardcoded Documentation URLs
Scripts contain hardcoded URLs pointing to PDF specification documentation (Adobe, WestHealth). These are reference links for developers, not network exfiltration endpoints.
Проверено: claude

Оценка качества

59
Архитектура
100
Сопровождаемость
87
Контент
50
Сообщество
81
Безопасность
91
Соответствие спецификации

Что вы можете построить

Извлечение данных из PDF-отчётов

Автоматическое извлечение текстового содержимого и таблиц из финансовых или научных PDF-отчётов для анализа данных

Заполнение бланков PDF-форм

Программное заполнение интерактивных PDF-форм предоставленными пользователем данными с валидацией

Пакетная обработка PDF-документов

Объединение, разделение, поворот и добавление водяных знаков к нескольким PDF-документам в автоматизированных рабочих процессах

Попробуйте эти промпты

Извлечение текста из PDF
Извлеките всё текстовое содержимое из прикреплённого PDF-документа и суммируйте ключевую информацию.
Объединение нескольких PDF
Объедините эти PDF-файлы в один документ в порядке: cover.pdf, chapter1.pdf, chapter2.pdf, appendix.pdf
Заполнение PDF-формы данными пользователя
Мне нужно заполнить эту форму заявления. Сначала извлеките информацию о полях, затем я предоставлю значения для заполнения каждого поля.
Извлечение таблиц и конвертация в Excel
Извлеките все таблицы из этого PDF-отчёта по финансам и сохраните их как Excel-таблицу с отдельными листами для каждой таблицы

Лучшие практики

  • Всегда проверяйте значения полей PDF-форм перед заполнением для предотвращения ошибок
  • Используйте настройки высокого разрешения (300+ DPI) при конвертации PDF в изображения для OCR
  • Проверяйте пересечения ограничивающих рамок при добавлении аннотаций к незаполняемым PDF

Избегать

  • Не пропускайте визуальную проверку ограничивающих рамок при заполнении незаполняемых форм
  • Избегайте обработки защищённых паролем PDF без предварительной дешифровки
  • Не предполагайте, что все PDF содержат извлекаемый текст - сканированные PDF требуют OCR

Часто задаваемые вопросы

Какие библиотеки Python должны быть установлены?
Основные библиотеки: pypdf, pdfplumber, reportlab. Опционально: pytesseract для OCR, pdf2image для конвертации PDF в изображения. Установка: pip install pypdf pdfplumber reportlab
Как обрабатывать сканированные PDF без текста?
Сканированные PDF требуют обработки OCR. Используйте рабочий процесс pytesseract: конвертируйте страницы PDF в изображения с помощью pdf2image, затем примените pytesseract.image_to_string() для извлечения текста.
Может ли этот навык заполнять PDF-формы, которые не являются интерактивными?
Да, путём добавления текстовых аннотаций в рассчитанные позиции. Процесс включает конвертацию PDF в изображения, визуальное определение расположения полей, создание ограничивающих рамок и добавление аннотаций.
Какие инструменты командной строки доступны?
poppler-utils (pdftotext, pdfimages, pdftoppm), qpdf для объединения/разделения и pdftk для расширенных операций. Установите poppler-utils и qpdf через системный менеджер пакетов.
Как извлекать таблицы из PDF?
Используйте метод extract_tables() библиотеки pdfplumber. Для сложных таблиц настройте table_settings с параметрами vertical_strategy и horizontal_strategy для лучшего обнаружения.
Можно ли обрабатывать зашифрованные PDF?
Да, если у вас есть пароль. Используйте метод decrypt() библиотеки pypdf или опцию --password инструмента qpdf. Без пароля зашифрованные PDF не могут быть обработаны.

Сведения для разработчиков

Автор

ZhanlinCui

Лицензия

Proprietary. LICENSE.txt has complete terms

Ссылка

main