Навыки image-to-text-pdf

📄

image-to-text-pdf

Name: image-to-text-pdf
Author: zjsxply

Безопасно

Создание поисковых PDF из изображений с невидимыми текстовыми слоями

Растровые изображения, такие как плакаты и визуальные резюме, выглядят отлично, но их нельзя искать или копировать. Этот навык сохраняет исходное изображение без изменений, одновременно встраивая невидимый текстовый слой, создавая PDF, который одновременно визуально точен и полностью доступен для поиска.

Поддерживает: Claude Codex Code(CC)

🥈 80 Серебро

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «image-to-text-pdf». Сгенерированное изображение плаката с заголовком, подзаголовком и блоками основного текста.

Ожидаемый результат:

PDF, который выглядит идентично плакату, но позволяет пользователю выделять и копировать каждый текстовый блок. Второй отладочный PDF показывает рамки, обведенные красным, с розовым видимым текстом там, где будет размещен невидимый слой.

Использование «image-to-text-pdf». OCR JSON с попиксельными ограничивающими рамками и исходным текстовым файлом.

Ожидаемый результат:

JSON макета, где каждый элемент содержит строку скорректированного текста и ограничивающую рамку. Текст соответствует авторитетному источнику, а позиции рамок берутся из исходного OCR.

Аудит безопасности

Безопасно

v1 • 5/21/2026

All 49 static findings were evaluated and determined to be false positives. The external_commands detections are backtick characters inside markdown documentation and code examples, not actual shell execution. The weak cryptographic algorithm detections are false pattern matches on argument parsing and text processing code with no cryptographic operations present. The obfuscation detection is a legitimate Unicode range check for CJK characters. The system reconnaissance detection is a RuntimeError string about text fitting. The skill performs only local file I/O on user-specified paths and contains no network access, no external command execution, and no data exfiltration.

Просканировано файлов

755

Проанализировано строк

находки

Всего аудитов

Проблем безопасности не найдено

Проверено: claude

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Сделать сгенерированные плакаты доступными для поиска

Дизайнеры и маркетологи создают изображения плакатов с помощью AI-инструментов. Этот навык позволяет экспортировать готовое изображение в PDF, из которого рекрутеры и клиенты могут искать и копировать текст.

Экспорт визуальных резюме с копируемым текстом

Соискатели создают визуально насыщенные резюме в виде изображений. Этот навык добавляет скрытый текстовый слой, чтобы системы отслеживания кандидатов и рекрутеры могли анализировать содержимое.

Архивация отсканированных документов в виде поисковых PDF

Исследователи и архивисты сканируют печатные материалы. После выполнения OCR этот навык компонует отсканированное изображение и распознанный текст в чистый поисковый PDF.

Попробуйте эти промпты

Конвертация изображения в поисковый PDF

У меня есть изображение /path/to/poster.png. Пожалуйста, преобразуйте его в поисковый PDF с невидимым текстовым слоем. Используйте OCR для извлечения текста и позиций рамок, затем запустите скрипт компоновки для создания итогового PDF и отладочного PDF, чтобы я мог проверить расположение текста.

Создание поискового PDF из визуального резюме

Я создал визуальное резюме как resume.png, и у меня есть исходный текст в source.txt. Извлеките позиции текста с помощью OCR, скорректируйте текст, используя source.txt, и создайте как итоговый PDF с невидимым текстом, так и отладочный инспекционный PDF.

Создание CJK поискового PDF с пользовательскими шрифтами

У меня есть китайский плакат poster.png. Запустите OCR для получения рамок слов, преобразуйте их в построчный JSON макета и создайте поисковый PDF, используя /path/to/NotoSansCJK-Regular.ttc в качестве шрифта. Сгенерируйте как итоговый PDF, так и отладочную версию.

Пакетная обработка нескольких изображений с коррекцией по исходному тексту

У меня есть три изображения (page1.png, page2.png, page3.png) и один исходный текстовый файл (content.txt). Для каждого изображения извлеките рамки слов OCR, сгруппируйте их в строки, скорректируйте текст по ближайшей совпадающей строке из content.txt и создайте поисковый PDF. Выведите итоговые PDF и отладочные PDF для всех трех страниц.

Лучшие практики

Всегда создавайте и проверяйте отладочный PDF перед передачей итогового PDF с невидимым текстом. Смещенные рамки проще исправить в JSON макета, чем после доставки.
Используйте построчные текстовые рамки вместо параграфных, если только параграф не должен выделяться как единое целое. Построчные рамки легче позиционировать точно.
Сохраняйте сгенерированное изображение в качестве визуального слоя вместо перестройки макета в HTML или LaTeX. Это сохраняет точную визуальную точность, в то время как текстовый слой обеспечивает возможность поиска.

Избегать

Не пытайтесь точно подобрать растеризованный шрифт в невидимом слое. Скрытому тексту нужна лишь приблизительная геометрия и правильное содержимое, а не попиксельное совпадение шрифта.
Не встраивайте ошибки OCR в итоговый PDF. Используйте исходный текст или текст, предоставленный пользователем, для исправления ошибок транскрипции перед компоновкой PDF.
Не пропускайте отладочный PDF для плотных или сложных макетов. Мелкий текст и плотно расположенные области часто требуют ручной настройки, которая заметна только в инспекционном выводе.

Часто задаваемые вопросы

Выполняет ли этот навык OCR самостоятельно?

Нет. Навык ожидает вывод OCR от внешнего инструмента или визуальной модели. Он предоставляет скрипты для преобразования рамок слов OCR в JSON макета и для компоновки итогового PDF.

Какие зависимости Python требуются?

Требуются PyMuPDF и Pillow. Скрипты выведут команду установки, если какая-либо из библиотек отсутствует.

Почему текст в итоговом PDF невидим?

Текст отображается в специальном режиме, который делает его выделяемым и копируемым без визуального отображения. Исходное изображение остается единственным видимым содержимым, сохраняя точную визуальную точность.

Могу ли я использовать это с нелатинскими языками, такими как китайский или японский?

Да. Передайте файл шрифта Unicode с помощью аргумента --font-file. Скрипт предупредит вас, если будет обнаружен нелатинский текст и не предоставлен файл шрифта.

Для чего нужен отладочный PDF?

Отладочный PDF показывает выделенные текстовые рамки и видимый текст там, где будет размещен невидимый слой. Он используется для проверки правильности выравнивания текстовых рамок перед созданием итогового PDF.

Какие форматы OCR JSON поддерживаются?

Конвертер принимает распространенные форматы со словами, элементами, textAnnotations или вложенными объектами page, block, paragraph и line. Он также поддерживает координаты boundingBox, boundingPoly, polygon и простые x-y-width-height.

Сведения для разработчиков

Автор

zjsxply

Лицензия

MIT

Репозиторий

https://github.com/zjsxply/skills/tree/main/image-to-text-pdf/

Ссылка

main

Структура файлов

📁 references/

📄 layout-json.md

📄 ocr-alignment.md

📁 scripts/

📄 compose_image_text_pdf.py

📄 ocr_words_to_layout.py

📄 SKILL.md