image-to-text-pdf
Создание поисковых PDF из изображений с невидимыми текстовыми слоями
Растровые изображения, такие как плакаты и визуальные резюме, выглядят отлично, но их нельзя искать или копировать. Этот навык сохраняет исходное изображение без изменений, одновременно встраивая невидимый текстовый слой, создавая PDF, который одновременно визуально точен и полностью доступен для поиска.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «image-to-text-pdf». Сгенерированное изображение плаката с заголовком, подзаголовком и блоками основного текста.
Ожидаемый результат:
PDF, который выглядит идентично плакату, но позволяет пользователю выделять и копировать каждый текстовый блок. Второй отладочный PDF показывает рамки, обведенные красным, с розовым видимым текстом там, где будет размещен невидимый слой.
Использование «image-to-text-pdf». OCR JSON с попиксельными ограничивающими рамками и исходным текстовым файлом.
Ожидаемый результат:
JSON макета, где каждый элемент содержит строку скорректированного текста и ограничивающую рамку. Текст соответствует авторитетному источнику, а позиции рамок берутся из исходного OCR.
Аудит безопасности
БезопасноAll 49 static findings were evaluated and determined to be false positives. The external_commands detections are backtick characters inside markdown documentation and code examples, not actual shell execution. The weak cryptographic algorithm detections are false pattern matches on argument parsing and text processing code with no cryptographic operations present. The obfuscation detection is a legitimate Unicode range check for CJK characters. The system reconnaissance detection is a RuntimeError string about text fitting. The skill performs only local file I/O on user-specified paths and contains no network access, no external command execution, and no data exfiltration.
Оценка качества
Что вы можете построить
Сделать сгенерированные плакаты доступными для поиска
Дизайнеры и маркетологи создают изображения плакатов с помощью AI-инструментов. Этот навык позволяет экспортировать готовое изображение в PDF, из которого рекрутеры и клиенты могут искать и копировать текст.
Экспорт визуальных резюме с копируемым текстом
Соискатели создают визуально насыщенные резюме в виде изображений. Этот навык добавляет скрытый текстовый слой, чтобы системы отслеживания кандидатов и рекрутеры могли анализировать содержимое.
Архивация отсканированных документов в виде поисковых PDF
Исследователи и архивисты сканируют печатные материалы. После выполнения OCR этот навык компонует отсканированное изображение и распознанный текст в чистый поисковый PDF.
Попробуйте эти промпты
У меня есть изображение /path/to/poster.png. Пожалуйста, преобразуйте его в поисковый PDF с невидимым текстовым слоем. Используйте OCR для извлечения текста и позиций рамок, затем запустите скрипт компоновки для создания итогового PDF и отладочного PDF, чтобы я мог проверить расположение текста.
Я создал визуальное резюме как resume.png, и у меня есть исходный текст в source.txt. Извлеките позиции текста с помощью OCR, скорректируйте текст, используя source.txt, и создайте как итоговый PDF с невидимым текстом, так и отладочный инспекционный PDF.
У меня есть китайский плакат poster.png. Запустите OCR для получения рамок слов, преобразуйте их в построчный JSON макета и создайте поисковый PDF, используя /path/to/NotoSansCJK-Regular.ttc в качестве шрифта. Сгенерируйте как итоговый PDF, так и отладочную версию.
У меня есть три изображения (page1.png, page2.png, page3.png) и один исходный текстовый файл (content.txt). Для каждого изображения извлеките рамки слов OCR, сгруппируйте их в строки, скорректируйте текст по ближайшей совпадающей строке из content.txt и создайте поисковый PDF. Выведите итоговые PDF и отладочные PDF для всех трех страниц.
Лучшие практики
- Всегда создавайте и проверяйте отладочный PDF перед передачей итогового PDF с невидимым текстом. Смещенные рамки проще исправить в JSON макета, чем после доставки.
- Используйте построчные текстовые рамки вместо параграфных, если только параграф не должен выделяться как единое целое. Построчные рамки легче позиционировать точно.
- Сохраняйте сгенерированное изображение в качестве визуального слоя вместо перестройки макета в HTML или LaTeX. Это сохраняет точную визуальную точность, в то время как текстовый слой обеспечивает возможность поиска.
Избегать
- Не пытайтесь точно подобрать растеризованный шрифт в невидимом слое. Скрытому тексту нужна лишь приблизительная геометрия и правильное содержимое, а не попиксельное совпадение шрифта.
- Не встраивайте ошибки OCR в итоговый PDF. Используйте исходный текст или текст, предоставленный пользователем, для исправления ошибок транскрипции перед компоновкой PDF.
- Не пропускайте отладочный PDF для плотных или сложных макетов. Мелкий текст и плотно расположенные области часто требуют ручной настройки, которая заметна только в инспекционном выводе.