Habilidades firecrawl-build-scrape

🔍

firecrawl-build-scrape

Name: firecrawl-build-scrape
Author: firecrawl

Seguro

Extraer Contenido de Cualquier Página Web con Firecrawl

Las aplicaciones frequentemente tienen URLs pero necesitan contenido limpio de páginas. Esta skill proporciona un camino directo para integrar el raspado de Firecrawl para la extracción de páginas individuales a markdown, HTML o datos estructurados.

Soporta: Claude Codex Code(CC)

📊 71 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "firecrawl-build-scrape". https://docs.example.com/getting-started

Resultado esperado:

Contenido de página extraído como markdown limpio con encabezados, bloques de código y enlaces preservados. Navegación y pie de página eliminados por defecto.

Usando "firecrawl-build-scrape". https://news.example.com/article/123

Resultado esperado:

Texto principal del artículo extraído con título, autor, fecha de publicación y contenido del cuerpo. Publicidad de barra lateral y artículos relacionados filtrados.

Auditoría de seguridad

Seguro

v1 • 4/30/2026

All static analysis findings are false positives. The detected patterns represent legitimate documentation formatting (markdown backticks, relative doc links) and intentional skill design (API key input for Firecrawl authentication). No security risks identified.

Archivos escaneados

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Ingesta de Base de Conocimiento

Ingerir contenido de páginas de documentación, publicaciones de blog o artículos en una base de datos vectorial para búsqueda semántica.

Automatización de Investigación de Mercado

Extraer precios, detalles de productos o información de changelog de sitios web de competidores o de la industria.

Monitoreo de Calidad de Contenido

Monitorear páginas específicas para cambios de contenido, extraer metadatos o validar estructura de página.

Prueba estos prompts

Extracción Básica de Página

Use the firecrawl-build-scrape skill to extract the main content from {URL} as markdown.

Extracción de Datos Estructurados

Use firecrawl-build-scrape to get the page at {URL} and extract all heading and paragraph content as structured markdown.

Página Renderizada con JavaScript

Use firecrawl-build-scrape to extract content from {URL} using a wait of 5 seconds to handle JavaScript rendering.

Extracción en Múltiples Formatos

Use firecrawl-build-scrape to extract markdown content and links from {URL}, then format the results for a database schema.

Mejores prácticas

Comenzar con formato markdown para consumo de LLM a menos que se requiera formato específico
Usar filtro onlyMainContent para páginas de artículos con ruido de navegación
Consultar la documentación oficial específica del lenguaje antes de escribir código de integración

Evitar

No usar scrape cuando necesitas descubrir URLs; usar la skill de search en su lugar
No omitir la opción de espera en páginas con mucho JavaScript sin probar primero
No solicitar múltiples formatos cuando solo se necesita uno; mantener la integración estrecha

Preguntas frecuentes

¿Cuándo debo usar /scrape en lugar de /crawl?

Usa scrape cuando tienes una URL específica y necesitas contenido de esa única página. Usa crawl cuando necesitas descubrir y extraer de múltiples páginas.

¿Qué formato debo solicitar a la API?

Por defecto, usa markdown para consumo en pipelines de LLM o búsqueda. Usa HTML para preservar estructura, o JSON para análisis programático.

¿Cómo manejo páginas que cargan contenido con JavaScript?

Añade una opción de espera (5-10 segundos) para permitir que la página se renderice completamente antes de la extracción.

¿Puedo usar esta skill con una instancia auto-hospedada de Firecrawl?

Sí, establece el input opcional FIRECRAWL_API_URL a tu endpoint auto-hospedado en lugar del servicio alojado por defecto.

¿Qué pasa si la página tiene autenticación o muros de pago?

Scrape no puede evadir autenticación. Para contenido autenticado, necesitas extracción basada en navegador con cookies o tokens de sesión.

¿Cómo extraigo solo el contenido principal sin navegación?

Usa la opción onlyMainContent para filtrar navegación, encabezados y pies de página, manteniendo solo el contenido principal de la página.

Detalles del desarrollador

Autor

firecrawl

Licencia

ISC

Repositorio

https://github.com/firecrawl/skills/tree/main/skills/firecrawl-build-scrape/

Ref.

main

Estructura de archivos

📄 SKILL.md