Fähigkeiten web-scrape
🕸️

web-scrape

Sicher

Extrair conteúdo limpo de qualquer página web

Auch verfügbar von: 21pounder

O web scraping é demorado e propenso a erros quando feito manualmente. Esta habilidade usa extração inteligente de conteúdo para extrair conteúdo limpo e estruturado de qualquer URL em segundos. Ele lida com páginas dinâmicas, remove ruídos como anúncios e navegação, e gera saída em markdown, JSON ou texto simples.

Unterstützt: Claude Codex Code(CC)
📊 70 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "web-scrape". Scrape https://example.com/blog/post-title as markdown

Erwartetes Ergebnis:

  • # How to Build a REST API
  • **Source:** https://example.com/blog/post-title
  • **Date:** January 10, 2025
  • **Author:** Jane Developer
  • ---
  • REST APIs are the backbone of modern web applications...
  • ## Getting Started
  • First, install your preferred HTTP client...

Sicherheitsaudit

Sicher
v3 • 1/10/2026

This skill is a prompt-based wrapper that uses MCP Playwright tools for browser automation. The supporting Node.js script (html_clean.js) performs safe HTML-to-markdown conversion using standard libraries (cheerio, turndown) with stdin/stdout I/O only. No network calls, file writes, command execution, or sensitive data access. Security guidelines explicitly prohibit dangerous behaviors like executing page JavaScript or handling authentication.

2
Gescannte Dateien
306
Analysierte Zeilen
0
befunde
3
Gesamtzahl Audits
Keine Sicherheitsprobleme gefunden
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

45
Architektur
100
Wartbarkeit
83
Inhalt
26
Community
100
Sicherheit
78
Spezifikationskonformität

Was du bauen kannst

Coleta de dados para pesquisa

Extrair conteúdo de artigos, documentação e trabalhos acadêmicos de múltiplas fontes para notas estruturadas

Captura de documentação de API

Salvar docs de API e conteúdo técnico para referência offline ou trabalho de integração

Agregação de conteúdo

Coletar e curacionar conteúdo de múltiplas fontes web para análise ou inspiração

Probiere diese Prompts

Scrape básico de página
Scrape https://example.com/article and return the content as markdown
Extração de dados de produto
Extract product information from https://shop.example.com/product as JSON with title, price, and description
Documentação de múltiplas páginas
Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue
Captura visual
Navigate to https://example.com and take a full-page screenshot saved as example_page.png

Bewährte Verfahren

  • Comece com o comando de scrape mais simples e adicione opções como --scroll ou --screenshot apenas quando necessário
  • Revise o conteúdo extraído para verificar a precisão, especialmente para páginas complexas com elementos dinâmicos
  • Respeite os termos de serviço do site e robots.txt ao fazer scraping do conteúdo

Vermeiden

  • Não use esta habilidade para fazer scraping de conteúdo protegido por login ou assinatura sem autorização
  • Não tente ignorar CAPTCHAs ou restrições de acesso - isso irá falhar e desperdiçar recursos
  • Não faça scraping de dados de alta frequência ou tempo real sem limitação de taxa apropriada

Häufig gestellte Fragen

Com quais plataformas esta habilidade é compatível?
Funciona com Claude, Codex e Claude Code quando o Playwright MCP está configurado.
Quais são os limites de taxa?
Os limites dependem da configuração do seu servidor Playwright MCP e das políticas do site de destino.
Posso integrar isso com outras ferramentas?
Sim, use o formato de saída JSON para dados estruturados que se integram com fluxos de trabalho.
Minha atividade de scraping é rastreada?
A atividade permanece local - apenas sua instância Playwright e o servidor de destino veem as requisições.
Por que meu scrape falhou?
Causas comuns incluem timeout, erros 403/404, CAPTCHAs, ou páginas com muito JavaScript que precisam de opções de scroll.
Como isso é diferente de curl ou wget?
Esta habilidade renderiza JavaScript, lida com conteúdo dinâmico, extrai texto limpo e fornece saídas estruturadas automaticamente.

Entwicklerdetails

Dateistruktur