스킬 pdf-processing
📄

pdf-processing

안전 ⚙️ 외부 명령어📁 파일 시스템 액세스🌐 네트워크 접근

Extraer y procesar documentos PDF

또한 다음에서 사용할 수 있습니다: 0xkynz,Joseph OBrien,0xkynz

Los documentos PDF contienen datos valiosos pero son difíciles de procesar programáticamente. Esta habilidad proporciona patrones de código para extraer texto, tablas y datos de formularios de PDFs utilizando bibliotecas de Python como pdfplumber y pypdf.

지원: Claude Codex Code(CC)
📊 69 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"pdf-processing" 사용 중입니다. Extract text from contract.pdf

예상 결과:

  • File: contract.pdf
  • Pages: 12
  • Extracted text length: 4,521 characters
  • First page preview: This Agreement is entered into...

"pdf-processing" 사용 중입니다. Extract tables from quarterly_report.pdf

예상 결과:

  • Found 3 tables on page 1
  • Table 1: Revenue by Region (4 columns x 5 rows)
  • Table 2: Quarterly Growth (2 columns x 4 rows)
  • Tables saved to quarterly_report_tables.csv

"pdf-processing" 사용 중입니다. Merge invoice1.pdf and invoice2.pdf

예상 결과:

  • Merged 2 PDF files
  • Total pages: 8
  • Output saved to merged_invoices.pdf

보안 감사

안전
v5 • 1/17/2026

Documentation-only skill providing Python code examples for legitimate PDF processing. All 42 static findings are FALSE POSITIVES: scanner misidentified markdown code fences as shell backticks and PDF form field values as cryptographic algorithms. Prior audit in skill-report.json confirmed safe status with no findings.

3
스캔된 파일
475
분석된 줄 수
3
발견 사항
5
총 감사 수
감사자: claude 감사 이력 보기 →

품질 점수

38
아키텍처
100
유지보수성
85
콘텐츠
21
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

Extraer datos tabulares de informes

Extraer tablas de informes financieros y artículos de investigación para análisis en hojas de cálculo o bases de datos.

Automatizar el llenado de formularios

Rellenar formularios PDF con datos de hojas de cálculo o bases de datos para procesamiento por lotes.

Construir flujos de trabajo de documentos

Crear flujos de trabajo para procesar documentos PDF entrantes para almacenamiento, análisis o procesamiento adicional.

이 프롬프트를 사용해 보세요

Extracción básica de texto
Extract all text from myfile.pdf and save it to output.txt
Extracción de tablas
Find and extract all tables from report.pdf and save them to a CSV file
Rellenado de formularios
Fill the fields in application_form.pdf with name=John Smith, email=john@email.com, address=123 Main St
Ensamblaje de documentos
Merge chapter1.pdf, chapter2.pdf, and chapter3.pdf into book.pdf

모범 사례

  • Probar la extracción en archivos de muestra antes de procesar lotes grandes
  • Validar visualmente que los datos extraídos coincidan con el PDF original
  • Manejar excepciones de manera elegante para archivos corruptos o protegidos con contraseña

피하기

  • Asumir que todos los PDFs contienen texto extraíble (las imágenes escaneadas necesitan OCR)
  • Procesar documentos completos cuando solo se necesitan páginas específicas
  • Omitir el manejo de errores para problemas de acceso a archivos o formato

자주 묻는 질문

¿Qué bibliotecas de PDF admite esta habilidad?
pdfplumber para extracción de texto y tablas, pypdf para manipulación, pdf2image para conversión, pytesseract para OCR.
¿Puedo extraer texto de PDFs escaneados?
Sí, pero necesitas pytesseract y Tesseract OCR instalados. El pdfplumber normal no puede leer imágenes escaneadas.
¿A qué formatos puedo exportar los datos extraídos?
Texto plano, CSV, JSON, o directamente a bases de datos usando bibliotecas de Python como pandas.
¿Están seguros mis datos al procesar PDFs?
Sí, todo el procesamiento ocurre localmente en tu máquina. No se envían datos a servicios externos.
¿Por qué falla la extracción en algunos PDFs?
Las causas comunes incluyen imágenes escaneadas que requieren OCR, protección con contraseña, archivos corruptos o codificación no estándar.
¿Cómo se compara esto con las herramientas PDF comerciales?
Esto proporciona automatización basada en código. Las herramientas comerciales ofrecen interfaces gráficas pero requieren pasos manuales para cada documento.

개발자 세부 정보

파일 구조

📄 FORMS.md

📄 SKILL.md