Habilidades extract-from-pdfs

📦

extract-from-pdfs

Name: extract-from-pdfs
Author: brunoasm

Riesgo medio ⚙️ Comandos externos🌐 Acceso a red🔑 Variables de entorno📁 Acceso al sistema de archivos

Extraer Datos Estructurados De PDFs Científicos

Los equipos de investigación a menudo necesitan conjuntos de datos consistentes a partir de muchos PDFs científicos. Esta skill guía la extracción, validación y exportación a archivos listos para el análisis.

Compatible con: Claude Codex Code(CC)

⚠️ 50 Deficiente

Descargar el ZIP de la habilidad

Subir en Claude

Ve a Configuración → Capacidades → Habilidades → Subir habilidad

Activa y empieza a usar

Recursos legibles por agentes

Usa estos enlaces cuando un agente de IA, crawler o script necesite contexto limpio en vez de leer la página completa.

Detalle Markdown GET /skills/brunoasm-extract-from-pdfs.md Manifest firmado GET /api/skills/brunoasm-extract-from-pdfs/manifest Lockfile firmado GET /api/skills/brunoasm-extract-from-pdfs/lockfile

Pruébalo

Usando "extract-from-pdfs". Una carpeta de PDFs de ecología y un esquema para observaciones de visitantes de plantas.

Resultado esperado:

Un conjunto de datos depurado con identificadores de artículos, especies de plantas, ubicaciones, métodos de observación, listas de visitantes, estado de validación y archivos de exportación para análisis.

Usando "extract-from-pdfs". Una biblioteca de revisión sistemática con resúmenes y PDFs de texto completo.

Resultado esperado:

Una lista filtrada de artículos con justificación de inclusión.
Un archivo de extracción estructurada para artículos relevantes.
Un informe de validación que muestra precisión y recall a nivel de campo.

Usando "extract-from-pdfs". Registros extraídos que necesitan comprobaciones de taxonomía y geografía.

Resultado esperado:

Un conjunto de datos enriquecido con nombres estandarizados, identificadores externos coincidentes, coordenadas cuando estén disponibles y notas para valores sin coincidencia.

Auditoría de seguridad

Riesgo medio

v5 • 6/28/2026

The static analyzer found many patterns, but most high weak-cryptography, Ruby backtick, and sensitive-file findings are false positives from Markdown, schema text, or normal export code. Medium risk remains because the skill intentionally reads local PDFs, writes datasets, uses API credentials, sends research content to model and validation services, and documents an optional pipe-to-shell installer.

Archivos escaneados

5,302

Líneas analizadas

hallazgos

Auditorías totales

Problemas de riesgo medio (3)

references/setup_guide.md:71-74

Remote Installer Piped To Shell

The setup guide recommends running a downloaded Ollama installer directly through sh. This is a supply-chain risk if the remote script or transport is compromised, although it is documentation for an optional local model backend and not executed by the skill automatically.

scripts/02_filter_abstracts.py:203-224 scripts/02_filter_abstracts.py:274-282 scripts/03_extract_from_pdfs.py:222-244 scripts/05_validate_with_apis.py:69-99 scripts/05_validate_with_apis.py:172-198

Scientific Data Sent To Model And Validation APIs

The skill sends titles, abstracts, and PDF-derived content to Anthropic or local Ollama endpoints, and can query GBIF, WFO, GeoNames, Nominatim, PubChem, and NCBI. This is core functionality, not covert exfiltration, but users must understand that research content and extracted fields may leave the local machine when API backends are enabled.

scripts/01_organize_metadata.py:225-264 scripts/03_extract_from_pdfs.py:416-420 scripts/06_export_database.py:127-150 scripts/06_export_database.py:258-300 scripts/08_calculate_validation_metrics.py:491-508

Broad Local File Reads And Writes For Research Artifacts

The pipeline reads user-provided metadata, schemas, annotations, and PDFs, copies PDFs when requested, and writes JSON, CSV, Excel, SQLite, Python, R, SQL, and report outputs. These operations match the stated workflow but can overwrite user-selected output paths and process sensitive PDFs.

Problemas de riesgo bajo (4)

scripts/02_filter_abstracts.py:388-391 scripts/03_extract_from_pdfs.py:371-375 scripts/05_validate_with_apis.py:134-148

Environment Variables Used For API Credentials

The scripts read ANTHROPIC_API_KEY and GEONAMES_USERNAME from environment variables. This is a standard credential handling pattern, and no evidence shows these values are logged or sent to unrelated endpoints.

assets/schema_template.json:31-87 assets/example_flower_visitors_schema.json:33-137 scripts/03_extract_from_pdfs.py:110-171

Weak Cryptography Findings Are False Positives

The static scanner flagged many schema, README, and script lines as weak cryptography, but reviewed examples show ordinary words such as method, model, schema fields, and scientific extraction instructions. No evidence found of MD5, SHA1, DES, RC4, or other weak cryptographic algorithms being used for security decisions.

SKILL.md:41-48 SKILL.md:82-122 references/setup_guide.md:9-18

Ruby Backtick Findings Are Markdown Code Fences

The static scanner reported Ruby shell backtick execution across Markdown files. Reviewed instances are Markdown fenced code blocks and inline command examples, not Ruby source execution.

scripts/02_filter_abstracts.py:135-139 scripts/03_extract_from_pdfs.py:310-319 scripts/06_export_database.py:258-278

Sensitive File Pattern Findings Are Mostly Benign Context Matches

Static findings for Windows SAM databases, certificate files, and SQLite files are context matches on words such as sample, key, batch identifiers, and documented SQLite export. No evidence found that the skill reads system credential stores or private key files.

Factores de riesgo

⚙️ Comandos externos (3)

SKILL.md:82-122 references/setup_guide.md:9-18 references/setup_guide.md:71-74

🌐 Acceso a red (4)

scripts/02_filter_abstracts.py:203-224 scripts/03_extract_from_pdfs.py:222-244 scripts/05_validate_with_apis.py:69-99 scripts/05_validate_with_apis.py:172-198

🔑 Variables de entorno (3)

scripts/02_filter_abstracts.py:388-391 scripts/03_extract_from_pdfs.py:371-375 scripts/05_validate_with_apis.py:134-148

📁 Acceso al sistema de archivos (4)

scripts/01_organize_metadata.py:225-264 scripts/03_extract_from_pdfs.py:416-420 scripts/06_export_database.py:127-150 scripts/08_calculate_validation_metrics.py:491-508

Patrones detectados

Remote Installer Piped To ShellScientific Data Sent To Model And Validation APIsBroad Local File Reads And Writes For Research Artifacts

Auditado por: codex Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Crear Un Conjunto De Datos Para Revisión Sistemática

Convierte una biblioteca de PDFs de investigación en registros estructurados para cribado, extracción y metaanálisis.

Crear Una Base De Datos De Investigación De Dominio

Extrae observaciones repetidas, mediciones o atributos de estudios en una base de datos reutilizable.

Validar La Calidad De La Extracción

Muestrea artículos, añade anotaciones de verdad fundamental y calcula métricas de precisión, recall y F1.

Prueba estos prompts

Iniciar Una Extracción Pequeña

Ayúdame a extraer datos estructurados de 10 PDFs científicos. Pregúntame por el objetivo de investigación, la organización de los PDFs y los campos que se deben extraer.

Diseñar Un Esquema De Extracción

Crea un esquema de extracción específico del dominio para mi revisión sistemática. Incluye objetivo, instrucciones, campos de salida y notas de validación.

Ejecutar El Pipeline Completo

Guíame por el pipeline completo de extracción de PDF usando mi archivo de metadatos, esquema y formato de exportación preferido.

Auditar La Calidad De La Extracción

Prepara un conjunto de validación, define una guía de anotación y calcula precisión, recall y F1 para cada campo extraído.

Mejores prácticas

Comienza con dos o tres PDFs representativos antes de procesar la colección completa.
Usa un esquema preciso con campos obligatorios, ejemplos y reglas para valores faltantes.
Ejecuta la validación sobre una muestra anotada manualmente antes de confiar en las métricas finales.

Evitar

No envíes PDFs confidenciales a APIs en la nube sin aprobación del propietario de los datos.
No uses prompts de extracción genéricos cuando la revisión tenga criterios de inclusión estrictos.
No publiques conjuntos de datos extraídos sin revisar los errores de validación y una muestra de evidencia de las fuentes.

Preguntas frecuentes

¿A qué tipos de PDFs está dirigida esta skill?

Está dirigida a artículos científicos que contienen observaciones estructuradas, mediciones, resultados o metadatos de estudio.

¿Puede funcionar sin llamadas a APIs en la nube?

El filtrado de resúmenes puede usar Ollama local. Los scripts de extracción de PDF están diseñados en torno al acceso a la API de Claude.

¿Incluye un esquema ya preparado?

Incluye plantillas y un ejemplo de ecología. Los usuarios deben personalizar los campos para cada dominio de investigación.

¿Puede validar los datos extraídos?

Sí. Puede llamar a bases de datos científicas compatibles y calcular métricas frente a anotaciones manuales de verdad fundamental.

¿Qué formatos de exportación son compatibles?

Los scripts admiten JSON, CSV, Excel, SQLite, archivos Python pandas y archivos de datos R.

¿Qué deben revisar los usuarios antes de ejecutarla?

Los usuarios deben revisar el uso de la API, la privacidad de los datos, las rutas de salida, las instrucciones del esquema y los requisitos de validación.