O web scraping é demorado e propenso a erros quando feito manualmente. Esta habilidade usa extração inteligente de conteúdo para extrair conteúdo limpo e estruturado de qualquer URL em segundos. Ele lida com páginas dinâmicas, remove ruídos como anúncios e navegação, e gera saída em markdown, JSON ou texto simples.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "web-scrape". Scrape https://example.com/blog/post-title as markdown
Erwartetes Ergebnis:
- # How to Build a REST API
- **Source:** https://example.com/blog/post-title
- **Date:** January 10, 2025
- **Author:** Jane Developer
- ---
- REST APIs are the backbone of modern web applications...
- ## Getting Started
- First, install your preferred HTTP client...
Sicherheitsaudit
SicherThis skill is a prompt-based wrapper that uses MCP Playwright tools for browser automation. The supporting Node.js script (html_clean.js) performs safe HTML-to-markdown conversion using standard libraries (cheerio, turndown) with stdin/stdout I/O only. No network calls, file writes, command execution, or sensitive data access. Security guidelines explicitly prohibit dangerous behaviors like executing page JavaScript or handling authentication.
Qualitätsbewertung
Was du bauen kannst
Coleta de dados para pesquisa
Extrair conteúdo de artigos, documentação e trabalhos acadêmicos de múltiplas fontes para notas estruturadas
Captura de documentação de API
Salvar docs de API e conteúdo técnico para referência offline ou trabalho de integração
Agregação de conteúdo
Coletar e curacionar conteúdo de múltiplas fontes web para análise ou inspiração
Probiere diese Prompts
Scrape https://example.com/article and return the content as markdown
Extract product information from https://shop.example.com/product as JSON with title, price, and description
Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue
Navigate to https://example.com and take a full-page screenshot saved as example_page.png
Bewährte Verfahren
- Comece com o comando de scrape mais simples e adicione opções como --scroll ou --screenshot apenas quando necessário
- Revise o conteúdo extraído para verificar a precisão, especialmente para páginas complexas com elementos dinâmicos
- Respeite os termos de serviço do site e robots.txt ao fazer scraping do conteúdo
Vermeiden
- Não use esta habilidade para fazer scraping de conteúdo protegido por login ou assinatura sem autorização
- Não tente ignorar CAPTCHAs ou restrições de acesso - isso irá falhar e desperdiçar recursos
- Não faça scraping de dados de alta frequência ou tempo real sem limitação de taxa apropriada
Häufig gestellte Fragen
Com quais plataformas esta habilidade é compatível?
Quais são os limites de taxa?
Posso integrar isso com outras ferramentas?
Minha atividade de scraping é rastreada?
Por que meu scrape falhou?
Como isso é diferente de curl ou wget?
Entwicklerdetails
Autor
21pounderLizenz
MIT
Repository
https://github.com/21pounder/terminalAgent/tree/main/deepresearch/.claude/skills/web-scrapeRef
main
Dateistruktur