스킬 pdf-processing

📄

pdf-processing

Name: pdf-processing
Author: davila7

안전 ⚙️ 외부 명령어📁 파일 시스템 액세스🌐 네트워크 접근

Extraer y procesar documentos PDF

또한 다음에서 사용할 수 있습니다: 0xkynz,Joseph OBrien,0xkynz

Los documentos PDF contienen datos valiosos pero son difíciles de procesar programáticamente. Esta habilidad proporciona patrones de código para extraer texto, tablas y datos de formularios de PDFs utilizando bibliotecas de Python como pdfplumber y pypdf.

지원: Claude Codex Code(CC)

📊 69 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"pdf-processing" 사용 중입니다. Extract text from contract.pdf

예상 결과:

File: contract.pdf
Pages: 12
Extracted text length: 4,521 characters
First page preview: This Agreement is entered into...

"pdf-processing" 사용 중입니다. Extract tables from quarterly_report.pdf

예상 결과:

Found 3 tables on page 1
Table 1: Revenue by Region (4 columns x 5 rows)
Table 2: Quarterly Growth (2 columns x 4 rows)
Tables saved to quarterly_report_tables.csv

"pdf-processing" 사용 중입니다. Merge invoice1.pdf and invoice2.pdf

예상 결과:

Merged 2 PDF files
Total pages: 8
Output saved to merged_invoices.pdf

보안 감사

안전

v5 • 1/17/2026

Documentation-only skill providing Python code examples for legitimate PDF processing. All 42 static findings are FALSE POSITIVES: scanner misidentified markdown code fences as shell backticks and PDF form field values as cryptographic algorithms. Prior audit in skill-report.json confirmed safe status with no findings.

스캔된 파일

475

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (28)

📁 파일 시스템 액세스 (5)

FORMS.md:46 FORMS.md:66 SKILL.md:85 SKILL.md:105 SKILL.md:117

🌐 네트워크 접근 (1)

skill-report.json:6

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

Extraer datos tabulares de informes

Extraer tablas de informes financieros y artículos de investigación para análisis en hojas de cálculo o bases de datos.

Automatizar el llenado de formularios

Rellenar formularios PDF con datos de hojas de cálculo o bases de datos para procesamiento por lotes.

Construir flujos de trabajo de documentos

Crear flujos de trabajo para procesar documentos PDF entrantes para almacenamiento, análisis o procesamiento adicional.

이 프롬프트를 사용해 보세요

Extracción básica de texto

Extract all text from myfile.pdf and save it to output.txt

Extracción de tablas

Find and extract all tables from report.pdf and save them to a CSV file

Rellenado de formularios

Fill the fields in application_form.pdf with name=John Smith, email=john@email.com, address=123 Main St

Ensamblaje de documentos

Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into book.pdf

모범 사례

Probar la extracción en archivos de muestra antes de procesar lotes grandes
Validar visualmente que los datos extraídos coincidan con el PDF original
Manejar excepciones de manera elegante para archivos corruptos o protegidos con contraseña

피하기

Asumir que todos los PDFs contienen texto extraíble (las imágenes escaneadas necesitan OCR)
Procesar documentos completos cuando solo se necesitan páginas específicas
Omitir el manejo de errores para problemas de acceso a archivos o formato

자주 묻는 질문

¿Qué bibliotecas de PDF admite esta habilidad?

pdfplumber para extracción de texto y tablas, pypdf para manipulación, pdf2image para conversión, pytesseract para OCR.

¿Puedo extraer texto de PDFs escaneados?

Sí, pero necesitas pytesseract y Tesseract OCR instalados. El pdfplumber normal no puede leer imágenes escaneadas.

¿A qué formatos puedo exportar los datos extraídos?

Texto plano, CSV, JSON, o directamente a bases de datos usando bibliotecas de Python como pandas.

¿Están seguros mis datos al procesar PDFs?

Sí, todo el procesamiento ocurre localmente en tu máquina. No se envían datos a servicios externos.

¿Por qué falla la extracción en algunos PDFs?

Las causas comunes incluyen imágenes escaneadas que requieren OCR, protección con contraseña, archivos corruptos o codificación no estándar.

¿Cómo se compara esto con las herramientas PDF comerciales?

Esto proporciona automatización basada en código. Las herramientas comerciales ofrecen interfaces gráficas pero requieren pasos manuales para cada documento.

개발자 세부 정보

작성자

davila7

라이선스

MIT

리포지토리

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/document-processing/pdf-processing

참조

main

파일 구조

📄 FORMS.md

📄 SKILL.md