手動進行網頁抓取既耗時又容易出錯。此技能使用智慧內容提取技術,可在幾秒鐘內從任何 URL 提取乾淨、結構化的內容。它能處理動態頁面、去除廣告和導航等雜訊,並以 Markdown、JSON 或純文字格式輸出。
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «web-scrape». Scrape https://example.com/blog/post-title as markdown
Ожидаемый результат:
- # How to Build a REST API
- **Source:** https://example.com/blog/post-title
- **Date:** January 10, 2025
- **Author:** Jane Developer
- ---
- REST APIs are the backbone of modern web applications...
- ## Getting Started
- First, install your preferred HTTP client...
Аудит безопасности
БезопасноThis skill is a prompt-based wrapper that uses MCP Playwright tools for browser automation. The supporting Node.js script (html_clean.js) performs safe HTML-to-markdown conversion using standard libraries (cheerio, turndown) with stdin/stdout I/O only. No network calls, file writes, command execution, or sensitive data access. Security guidelines explicitly prohibit dangerous behaviors like executing page JavaScript or handling authentication.
Оценка качества
Что вы можете построить
研究數據收集
從多個來源提取文章內容、文件和研究論文,整理成結構化的筆記
API 文件擷取
儲存 API 文件和技術內容,以便離線參考或整合工作使用
內容彙整
從多個網頁來源收集和策劃內容,以进行分析或獲取靈感
Попробуйте эти промпты
Scrape https://example.com/article and return the content as markdown
Extract product information from https://shop.example.com/product as JSON with title, price, and description
Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue
Navigate to https://example.com and take a full-page screenshot saved as example_page.png
Лучшие практики
- 從最簡單的抓取命令開始,只有在需要時才添加選項,如 --scroll 或 --screenshot
- 檢查提取內容的準確性,特別是對於包含動態元素的複雜頁面
- 抓取內容時尊重網站的使用條款和 robots.txt
Избегать
- 不要使用此技能在未經授權的情況下抓取登入保護或訂閱專屬的內容
- 不要嘗試繞過驗證碼或存取限制——這會導致失敗並浪費資源
- 不要在沒有適當速率限制的情況下抓取高頻率或即時數據
Часто задаваемые вопросы
此技能與哪些平台相容?
速率限制是多少?
我可以與其他工具整合嗎?
我的抓取活動會被追蹤嗎?
為什麼我的抓取失敗了?
這與 curl 或 wget 有什麼不同?
Сведения для разработчиков
Автор
21pounderЛицензия
MIT
Репозиторий
https://github.com/21pounder/terminalAgent/tree/main/deepresearch/.claude/skills/web-scrapeСсылка
main
Структура файлов