스킬 web-scrape

🕸️

web-scrape

Name: web-scrape
Author: 21pounder

낮은 위험 🌐 네트워크 접근

Extrahieren Sie sauberen Inhalt von jeder Webseite

또한 다음에서 사용할 수 있습니다: 21pounder

Web Scraping ist zeitaufwändig und fehleranfällig, wenn es manuell durchgeführt wird. Diese Skill verwendet intelligente Inhaltsextraktion, um sauberen, strukturierten Inhalt von jeder URL in Sekunden zu extrahieren. Sie verarbeitet dynamische Seiten, entfernt Störelemente wie Werbung und Navigation und gibt das Ergebnis in Markdown, JSON oder Klartext aus.

지원: Claude Codex Code(CC)

📊 70 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"web-scrape" 사용 중입니다. Scrape https://example.com/blog/post-title as markdown

예상 결과:

# How to Build a REST API
**Source:** https://example.com/blog/post-title
**Date:** January 10, 2025
**Author:** Jane Developer
---
REST APIs are the backbone of modern web applications...
## Getting Started
First, install your preferred HTTP client...

"web-scrape" 사용 중입니다. Extract product info from https://shop.example.com/widget as JSON

예상 결과:

url: https://shop.example.com/widget
title: Super Widget 3000
type: product
content: { main: 'The ultimate widget for all your needs...', metadata: { price: '$29.99', in_stock: true } }

보안 감사

낮은 위험

v4 • 1/16/2026

This is a legitimate web scraping skill. 68 of 69 static findings are false positives: the scanner misinterpreted Cheerio selector syntax as shell commands, markdown formatting as cryptographic patterns, and documentation URLs as exfiltration targets. The single true positive (network access) is the intended functionality for a web scraper. No malicious intent, command injection, or data exfiltration patterns exist.

스캔된 파일

498

분석된 줄 수

발견 사항

총 감사 수

낮은 위험 문제 (1)

SKILL.md:35-36 SKILL.md:44-51

Network access via MCP Playwright

Skill makes HTTP requests to scrape URLs

위험 요인

🌐 네트워크 접근 (2)

SKILL.md:35-36 SKILL.md:23-25

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

보안

사양 준수

만들 수 있는 것

Forschungsdatensammlung

Extrahieren Sie Artikelinhalte, Dokumentationen und Forschungsarbeiten aus mehreren Quellen in strukturierte Notizen

API-Dokumentationserfassung

Speichern Sie API-Dokumentationen und technische Inhalte für Offline-Referenz oder Integrationsarbeiten

Inhaltsaggregation

Sammeln und kuratieren Sie Inhalte aus mehreren Webquellen zur Analyse oder Inspiration

이 프롬프트를 사용해 보세요

Einfaches Seiten-Scraping

Scrape https://example.com/article and return the content as markdown

Produktdatenextraktion

Extract product information from https://shop.example.com/product as JSON with title, price, and description

Mehrseitige Dokumentation

Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue

Visuelle Erfassung

Navigate to https://example.com and take a full-page screenshot saved as example_page.png

모범 사례

Beginnen Sie mit dem einfachsten Scrape-Befehl und fügen Sie Optionen wie --scroll oder --screenshot nur bei Bedarf hinzu
Überprüfen Sie die extrahierten Inhalte auf Genauigkeit, insbesondere bei komplexen Seiten mit dynamischen Elementen
Respektieren Sie die Nutzungsbedingungen der Website und robots.txt beim Scrapen von Inhalten

피하기

Verwenden Sie diese Skill nicht zum Scrapen von anmeldungsgeschützten oder abonnementpflichtigen Inhalten ohne Genehmigung
Versuchen Sie nicht, CAPTCHAs oder Zugriffsbeschränkungen zu umgehen – dies wird fehlschlagen und Ressourcen verschwenden
Scrapen Sie keine hochfrequenten oder Echtzeit-Daten ohne angemessene Ratenbegrenzung

자주 묻는 질문

Mit welchen Plattformen ist diese Skill kompatibel?

Funktioniert mit Claude, Codex und Claude Code, wenn Playwright MCP konfiguriert ist.

Was sind die Ratenlimits?

Limits hängen von Ihrer Playwright MCP-Serverkonfiguration und den Richtlinien der Zielwebsite ab.

Kann ich dies mit anderen Tools integrieren?

Ja, verwenden Sie das JSON-Ausgabeformat für strukturierte Daten, die sich in Workflows integrieren lassen.

Wird meine Scraping-Aktivität verfolgt?

Die Aktivität bleibt lokal – nur Ihre Playwright-Instanz und der Zielserver sehen die Anfragen.

Warum ist mein Scraping fehlgeschlagen?

Häufige Ursachen sind Timeout, 403/404-Fehler, CAPTCHAs oder JavaScript-lastige Seiten, die Scroll-Optionen benötigen.

Wie unterscheidet sich dies von curl oder wget?

Diese Skill rendert JavaScript, verarbeitet dynamische Inhalte, extrahiert sauberen Text und liefert automatisch strukturierte Ausgaben.

개발자 세부 정보

작성자

21pounder

라이선스

MIT

리포지토리

https://github.com/21pounder/terminalAgent/tree/main/deepresearch/.claude/skills/web-scrape

참조

main

파일 구조

📁 scripts/

📄 html_clean.js

📄 SKILL.md