📦

crawl4ai

Name: crawl4ai
Author: CK991357

Seguro 🌐 Acceso a red⚙️ Comandos externos

Crawl Web Pages with Screenshots and PDF Export

También disponible en: smallnest

El web scraping es difícil y consume tiempo. Crawl4AI proporciona 6 modos inteligentes para extraer contenido, capturas de pantalla y PDFs de cualquier sitio web con características antidetección.

Soporta: Claude Codex Code(CC)

⚠️ 67 Deficiente

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "crawl4ai". Extraer https://example.com/article y devolver el contenido principal

Resultado esperado:

La página fue extraída exitosamente. Aquí está el contenido:

# Título del Artículo

Este es el contenido principal del artículo...

Fuente: https://example.com/article
Palabras: 1250

Usando "crawl4ai". Tomar una captura de pantalla de https://example.com y guardarla como PDF

Resultado esperado:

La captura de pantalla de la página y el PDF han sido generados. La captura de pantalla muestra el diseño completo de la página de inicio con navegación, sección principal y contenido del pie de página. El documento PDF tiene 5 páginas.

Auditoría de seguridad

Seguro

v6 • 1/21/2026

All static findings are false positives. The scanner misinterpreted markdown documentation patterns (code fences, example URLs) as security issues. This is a legitimate web scraping tool with no malicious code or intent.

Archivos escaneados

2,919

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Investigación y Recopilación de Datos

Hacer crawling automático de sitios de documentación, blogs y artículos de noticias para construir conjuntos de datos de investigación. Usar filtrado por palabras clave para centrarse en contenido relevante.

Archivamiento de Contenido y Recopilación de Evidencia

Capturar capturas de pantalla y PDFs de páginas web con fines legales, de cumplimiento o archivo. Generar registros visuales del contenido web cambiante.

Recopilación de Inteligencia Competitiva

Extraer sistemáticamente información de productos, precios y especificaciones de sitios web de competidores. Construir bases de datos estructuradas de inteligencia de mercado.

Prueba estos prompts

Extracción Básica de Página

Usa crawl4ai para extraer la siguiente URL y devuelve el contenido en formato markdown: {url}

Capturar Evidencia Visual

Usa crawl4ai para extraer {url} e incluye tanto una captura de pantalla de página completa como exportación PDF en tu respuesta.

Recopilación por Lotes para Investigación

Usa el modo batch_crawl de crawl4ai para procesar estas URLs: {urls}. Establece concurrent_limit en 4 y devuelve todo el contenido en formato markdown.

Extracción de Datos Estructurados

Usa el modo extract de crawl4ai para extraer datos estructurados de {url}. Usa este esquema: {schema_definition}. Extrae usando selectores CSS.

Mejores prácticas

Comienza con el modo de extracción simple antes de intentar crawlings profundos complejos
Prueba los esquemas de extracción en una sola página antes del procesamiento por lotes
Respeta los términos de servicio del sitio web e implementa retrasos apropiados entre solicitudes

Evitar

No omitas el contenedor de parámetros al llamar a crawl4ai
No passes URLs como cadenas en lugar de matrices para operaciones por lotes
No intentes extracción basada en LLM sin una instancia LLM desplegada

Preguntas frecuentes

¿Qué modos soporta crawl4ai?

Crawl4AI soporta 6 modos: scrape (página única), deep_crawl (sitio completo), batch_crawl (múltiples URLs), extract (datos estructurados), pdf_export y screenshot.

¿Cómo funciona el sistema de clasificación inteligente?

La versión 1.2 detecta automáticamente el tipo de sitio web y aplica la configuración óptima: estándar para sitios estáticos, mejorada para sitios JavaScript y alternativa para sitios complejos.

¿Puedo extraer páginas protegidas con contraseña?

No, crawl4AI no soporta autenticación. Solo se puede hacer crawling de páginas web accesibles públicamente.

¿Cuál es la profundidad máxima de crawling?

El crawling profundo soporta max_depth configurable (predeterminado 3) y max_pages (predeterminado 80). El crawling por lotes limita a 20 páginas en total.

¿Cómo se devuelven las capturas de pantalla y PDFs?

Las salidas binarias están codificadas en base64 en la respuesta JSON para facilitar su manejo por modelos de IA sin acceso al sistema de archivos.

¿Crawl4AI evita los paywalls o controles de acceso?

No, crawl4AI respeta robots.txt, límites de tasa y controles de acceso estándar. Las características antidetección previenen solo la detección automatizada.

Detalles del desarrollador

Autor

CK991357

Licencia

MIT

Repositorio

https://github.com/CK991357/gemini-chat/tree/main/src/skills/crawl4ai

Ref.

main

Estructura de archivos

📄 SKILL.md