🕸️

web-scrape

Name: web-scrape
Author: 21pounder

Seguro

Extrair conteúdo limpo de qualquer página web

Também disponível em: 21pounder

O web scraping é demorado e propenso a erros quando feito manualmente. Esta habilidade usa extração inteligente de conteúdo para extrair conteúdo limpo e estruturado de qualquer URL em segundos. Ele lida com páginas dinâmicas, remove ruídos como anúncios e navegação, e gera saída em markdown, JSON ou texto simples.

Suporta: Claude Codex Code(CC)

📊 70 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "web-scrape". Scrape https://example.com/blog/post-title as markdown

Resultado esperado:

# How to Build a REST API
**Source:** https://example.com/blog/post-title
**Date:** January 10, 2025
**Author:** Jane Developer
---
REST APIs are the backbone of modern web applications...
## Getting Started
First, install your preferred HTTP client...

Auditoria de Segurança

Seguro

v3 • 1/10/2026

This skill is a prompt-based wrapper that uses MCP Playwright tools for browser automation. The supporting Node.js script (html_clean.js) performs safe HTML-to-markdown conversion using standard libraries (cheerio, turndown) with stdin/stdout I/O only. No network calls, file writes, command execution, or sensitive data access. Security guidelines explicitly prohibit dangerous behaviors like executing page JavaScript or handling authentication.

Arquivos analisados

306

Linhas analisadas

achados

Total de auditorias

Nenhum problema de segurança encontrado

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Coleta de dados para pesquisa

Extrair conteúdo de artigos, documentação e trabalhos acadêmicos de múltiplas fontes para notas estruturadas

Captura de documentação de API

Salvar docs de API e conteúdo técnico para referência offline ou trabalho de integração

Agregação de conteúdo

Coletar e curacionar conteúdo de múltiplas fontes web para análise ou inspiração

Tente Estes Prompts

Scrape básico de página

Scrape https://example.com/article and return the content as markdown

Extração de dados de produto

Extract product information from https://shop.example.com/product as JSON with title, price, and description

Documentação de múltiplas páginas

Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue

Captura visual

Navigate to https://example.com and take a full-page screenshot saved as example_page.png

Melhores Práticas

Comece com o comando de scrape mais simples e adicione opções como --scroll ou --screenshot apenas quando necessário
Revise o conteúdo extraído para verificar a precisão, especialmente para páginas complexas com elementos dinâmicos
Respeite os termos de serviço do site e robots.txt ao fazer scraping do conteúdo

Evitar

Não use esta habilidade para fazer scraping de conteúdo protegido por login ou assinatura sem autorização
Não tente ignorar CAPTCHAs ou restrições de acesso - isso irá falhar e desperdiçar recursos
Não faça scraping de dados de alta frequência ou tempo real sem limitação de taxa apropriada

Perguntas Frequentes

Com quais plataformas esta habilidade é compatível?

Funciona com Claude, Codex e Claude Code quando o Playwright MCP está configurado.

Quais são os limites de taxa?

Os limites dependem da configuração do seu servidor Playwright MCP e das políticas do site de destino.

Posso integrar isso com outras ferramentas?

Sim, use o formato de saída JSON para dados estruturados que se integram com fluxos de trabalho.

Minha atividade de scraping é rastreada?

A atividade permanece local - apenas sua instância Playwright e o servidor de destino veem as requisições.

Por que meu scrape falhou?

Causas comuns incluem timeout, erros 403/404, CAPTCHAs, ou páginas com muito JavaScript que precisam de opções de scroll.

Como isso é diferente de curl ou wget?

Esta habilidade renderiza JavaScript, lida com conteúdo dinâmico, extrai texto limpo e fornece saídas estruturadas automaticamente.

Detalhes do Desenvolvedor

Autor

21pounder

Licença

MIT

Repositório

https://github.com/21pounder/terminalAgent/tree/main/deepresearch/.claude/skills/web-scrape

Referência

main

Estrutura de arquivos

📁 scripts/

📄 html_clean.js

📄 SKILL.md