firecrawl-build-scrape
Extraer Contenido de Cualquier Página Web con Firecrawl
Las aplicaciones frequentemente tienen URLs pero necesitan contenido limpio de páginas. Esta skill proporciona un camino directo para integrar el raspado de Firecrawl para la extracción de páginas individuales a markdown, HTML o datos estructurados.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "firecrawl-build-scrape". https://docs.example.com/getting-started
Resultado esperado:
Contenido de página extraído como markdown limpio con encabezados, bloques de código y enlaces preservados. Navegación y pie de página eliminados por defecto.
Usando "firecrawl-build-scrape". https://news.example.com/article/123
Resultado esperado:
Texto principal del artículo extraído con título, autor, fecha de publicación y contenido del cuerpo. Publicidad de barra lateral y artículos relacionados filtrados.
Auditoría de seguridad
SeguroAll static analysis findings are false positives. The detected patterns represent legitimate documentation formatting (markdown backticks, relative doc links) and intentional skill design (API key input for Firecrawl authentication). No security risks identified.
Puntuación de calidad
Lo que puedes crear
Ingesta de Base de Conocimiento
Ingerir contenido de páginas de documentación, publicaciones de blog o artículos en una base de datos vectorial para búsqueda semántica.
Automatización de Investigación de Mercado
Extraer precios, detalles de productos o información de changelog de sitios web de competidores o de la industria.
Monitoreo de Calidad de Contenido
Monitorear páginas específicas para cambios de contenido, extraer metadatos o validar estructura de página.
Prueba estos prompts
Use the firecrawl-build-scrape skill to extract the main content from {URL} as markdown.Use firecrawl-build-scrape to get the page at {URL} and extract all heading and paragraph content as structured markdown.Use firecrawl-build-scrape to extract content from {URL} using a wait of 5 seconds to handle JavaScript rendering.Use firecrawl-build-scrape to extract markdown content and links from {URL}, then format the results for a database schema.Mejores prácticas
- Comenzar con formato markdown para consumo de LLM a menos que se requiera formato específico
- Usar filtro onlyMainContent para páginas de artículos con ruido de navegación
- Consultar la documentación oficial específica del lenguaje antes de escribir código de integración
Evitar
- No usar scrape cuando necesitas descubrir URLs; usar la skill de search en su lugar
- No omitir la opción de espera en páginas con mucho JavaScript sin probar primero
- No solicitar múltiples formatos cuando solo se necesita uno; mantener la integración estrecha