pdf-processing
Извлечение и обработка PDF-документов
متاح أيضًا من: 0xkynz,Joseph OBrien,davila7
PDF-документы содержат ценные данные, к которым сложно получить программный доступ. Этот навык предоставляет AI-агентам возможности извлекать текст, таблицы и данные форм из PDF, а также манипулировать документами через объединение, разделение и операции форматирования.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "pdf-processing". Извлечь весь текст и таблицы из квартального отчёта в PDF
النتيجة المتوقعة:
- Извлечено 24 страницы текстового содержимого
- Найдено 8 таблиц в документе
- Таблицы сохранены как CSV-файлы: table_1.csv до table_8.csv
- Текст сохранён в quarterly_report.txt (с сохранением заголовков и структуры)
استخدام "pdf-processing". Заполнить эту форму заявления предоставленными данными
النتيجة المتوقعة:
- Определено 12 полей формы в PDF
- Все поля заполнены предоставленными данными
- Заполненная форма сохранена в completed_application.pdf
- Проверено корректное заполнение всех полей
التدقيق الأمني
آمنPure prompt-based skill with no executable code. SKILL.md provides AI instructions for PDF processing using standard libraries like pdfplumber and PyPDF2. All static findings are false positives - no scripts, network calls, or cryptographic operations exist in this skill.
عوامل الخطر
🌐 الوصول إلى الشبكة (1)
⚙️ الأوامر الخارجية (1)
درجة الجودة
ماذا يمكنك بناءه
Извлечение структурированных данных
Извлечение таблиц и данных из PDF-отчётов для анализа в таблицах или базах данных
Автоматизация работы с формами
Программное заполнение PDF-форм и обработка данных из отправленных форм
Создание автоматизации PDF
Интеграция обработки PDF в более крупные конвейеры управления документами
جرّب هذه الموجهات
Extract all text content from the PDF file at [file_path]. Preserve paragraph structure and headings.
Find all tables in [file_path] and convert them to CSV format. Save each table as a separate file.
Fill the PDF form at [form_path] with the following data: [key-value pairs]. Save the completed form to [output_path].
Merge all PDF files in [source_directory] into a single document. Add a header page and page numbers to each page. Save to [output_path].
أفضل الممارسات
- Проверяйте, зашифрованы ли PDF перед попыткой их обработки
- Используйте OCR (pytesseract) для отсканированных документов для включения извлечения текста
- Проверяйте точность извлечённых табличных данных после извлечения
تجنب
- Попытка извлечения текста из отсканированных PDF без предварительной обработки OCR
- Обработка больших PDF без разбиения на страницы или фрагменты
- Игнорирование типов полей PDF-форм при заполнении форм