스킬 web-scrape
🕸️

web-scrape

낮은 위험 🌐 네트워크 접근

Extrahieren Sie sauberen Inhalt von jeder Webseite

또한 다음에서 사용할 수 있습니다: 21pounder

Web Scraping ist zeitaufwändig und fehleranfällig, wenn es manuell durchgeführt wird. Diese Skill verwendet intelligente Inhaltsextraktion, um sauberen, strukturierten Inhalt von jeder URL in Sekunden zu extrahieren. Sie verarbeitet dynamische Seiten, entfernt Störelemente wie Werbung und Navigation und gibt das Ergebnis in Markdown, JSON oder Klartext aus.

지원: Claude Codex Code(CC)
📊 70 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"web-scrape" 사용 중입니다. Scrape https://example.com/blog/post-title as markdown

예상 결과:

  • # How to Build a REST API
  • **Source:** https://example.com/blog/post-title
  • **Date:** January 10, 2025
  • **Author:** Jane Developer
  • ---
  • REST APIs are the backbone of modern web applications...
  • ## Getting Started
  • First, install your preferred HTTP client...

"web-scrape" 사용 중입니다. Extract product info from https://shop.example.com/widget as JSON

예상 결과:

  • url: https://shop.example.com/widget
  • title: Super Widget 3000
  • type: product
  • content: { main: 'The ultimate widget for all your needs...', metadata: { price: '$29.99', in_stock: true } }

보안 감사

낮은 위험
v4 • 1/16/2026

This is a legitimate web scraping skill. 68 of 69 static findings are false positives: the scanner misinterpreted Cheerio selector syntax as shell commands, markdown formatting as cryptographic patterns, and documentation URLs as exfiltration targets. The single true positive (network access) is the intended functionality for a web scraper. No malicious intent, command injection, or data exfiltration patterns exist.

3
스캔된 파일
498
분석된 줄 수
2
발견 사항
4
총 감사 수
낮은 위험 문제 (1)
Network access via MCP Playwright
Skill makes HTTP requests to scrape URLs

위험 요인

🌐 네트워크 접근 (2)
감사자: claude 감사 이력 보기 →

품질 점수

45
아키텍처
100
유지보수성
87
콘텐츠
24
커뮤니티
88
보안
91
사양 준수

만들 수 있는 것

Forschungsdatensammlung

Extrahieren Sie Artikelinhalte, Dokumentationen und Forschungsarbeiten aus mehreren Quellen in strukturierte Notizen

API-Dokumentationserfassung

Speichern Sie API-Dokumentationen und technische Inhalte für Offline-Referenz oder Integrationsarbeiten

Inhaltsaggregation

Sammeln und kuratieren Sie Inhalte aus mehreren Webquellen zur Analyse oder Inspiration

이 프롬프트를 사용해 보세요

Einfaches Seiten-Scraping
Scrape https://example.com/article and return the content as markdown
Produktdatenextraktion
Extract product information from https://shop.example.com/product as JSON with title, price, and description
Mehrseitige Dokumentation
Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue
Visuelle Erfassung
Navigate to https://example.com and take a full-page screenshot saved as example_page.png

모범 사례

  • Beginnen Sie mit dem einfachsten Scrape-Befehl und fügen Sie Optionen wie --scroll oder --screenshot nur bei Bedarf hinzu
  • Überprüfen Sie die extrahierten Inhalte auf Genauigkeit, insbesondere bei komplexen Seiten mit dynamischen Elementen
  • Respektieren Sie die Nutzungsbedingungen der Website und robots.txt beim Scrapen von Inhalten

피하기

  • Verwenden Sie diese Skill nicht zum Scrapen von anmeldungsgeschützten oder abonnementpflichtigen Inhalten ohne Genehmigung
  • Versuchen Sie nicht, CAPTCHAs oder Zugriffsbeschränkungen zu umgehen – dies wird fehlschlagen und Ressourcen verschwenden
  • Scrapen Sie keine hochfrequenten oder Echtzeit-Daten ohne angemessene Ratenbegrenzung

자주 묻는 질문

Mit welchen Plattformen ist diese Skill kompatibel?
Funktioniert mit Claude, Codex und Claude Code, wenn Playwright MCP konfiguriert ist.
Was sind die Ratenlimits?
Limits hängen von Ihrer Playwright MCP-Serverkonfiguration und den Richtlinien der Zielwebsite ab.
Kann ich dies mit anderen Tools integrieren?
Ja, verwenden Sie das JSON-Ausgabeformat für strukturierte Daten, die sich in Workflows integrieren lassen.
Wird meine Scraping-Aktivität verfolgt?
Die Aktivität bleibt lokal – nur Ihre Playwright-Instanz und der Zielserver sehen die Anfragen.
Warum ist mein Scraping fehlgeschlagen?
Häufige Ursachen sind Timeout, 403/404-Fehler, CAPTCHAs oder JavaScript-lastige Seiten, die Scroll-Optionen benötigen.
Wie unterscheidet sich dies von curl oder wget?
Diese Skill rendert JavaScript, verarbeitet dynamische Inhalte, extrahiert sauberen Text und liefert automatisch strukturierte Ausgaben.

개발자 세부 정보

파일 구조