技能 web-scrape
🕸️

web-scrape

安全

استخراج محتوى نظيف من أي صفحة ويب

也可從以下取得: 21pounder

كشط الويب يستغرق وقتاً طويلاً وعرضة للأخطاء عند القيام به يدوياً. تستخدم هذه المهارة استخراجاً ذكياً للمحتوى لسحب محتوى منظم ونظيف من أي عنوان URL في ثوانٍ. تتعامل مع الصفحات الديناميكية، وتزيل الضوضاء مثل الإعلانات والتنقل، وتُخرج بتنسيق markdown أو JSON أو نص عادي.

支援: Claude Codex Code(CC)
📊 70 充足
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「web-scrape」。 Scrape https://example.com/blog/post-title as markdown

預期結果:

  • # How to Build a REST API
  • **Source:** https://example.com/blog/post-title
  • **Date:** January 10, 2025
  • **Author:** Jane Developer
  • ---
  • REST APIs are the backbone of modern web applications...
  • ## Getting Started
  • First, install your preferred HTTP client...

安全審計

安全
v3 • 1/10/2026

This skill is a prompt-based wrapper that uses MCP Playwright tools for browser automation. The supporting Node.js script (html_clean.js) performs safe HTML-to-markdown conversion using standard libraries (cheerio, turndown) with stdin/stdout I/O only. No network calls, file writes, command execution, or sensitive data access. Security guidelines explicitly prohibit dangerous behaviors like executing page JavaScript or handling authentication.

2
已掃描檔案
306
分析行數
0
發現項
3
審計總數
未發現安全問題
審計者: claude 查看審計歷史 →

品質評分

45
架構
100
可維護性
83
內容
27
社群
100
安全
78
規範符合性

你能建構什麼

جمع بيانات البحث

استخرج محتوى المقالات والوثائق والأوراق البحثية من مصادر متعددة إلى ملاحظات منظمة

التقاط وثائق API

احفظ وثائق API والمحتوى التقني للمرجع غير المتصل أو عمل التكامل

تجميع المحتوى

اجمع وقيّم المحتوى من مصادر ويب متعددة للتحليل أو الإلهام

試試這些提示

كشط صفحة أساسي
Scrape https://example.com/article and return the content as markdown
استخراج بيانات المنتج
Extract product information from https://shop.example.com/product as JSON with title, price, and description
توثيق متعدد الصفحات
Scrape the documentation at https://docs.example.com/getting-started. Check if there are multiple pages and ask if you should continue
التقاط بصري
Navigate to https://example.com and take a full-page screenshot saved as example_page.png

最佳實務

  • ابدأ بأبسط أمر كشط وأضف الخيارات مثل --scroll أو --screenshot فقط عند الحاجة
  • راجع المحتوى المستخرج للتأكد من دقته، خاصة للصفحات المعقدة مع العناصر الديناميكية
  • احترم شروط خدمة الموقع و robots.txt عند كشط المحتوى

避免

  • لا تستخدم هذه المهارة لكشط المحتوى المحمي بتسجيل الدخول أو الاشتراك فقط بدون تفويض
  • لا تحاول تجاوز CAPTCHA أو قيود الوصول -,这将失败并浪费资源
  • لا تكشف البيانات عالية التردد أو في الوقت الفعلي بدون تحديد معدل مناسب

常見問題

ما المنصات المتوافقة مع هذه المهارة؟
يعمل مع Claude وCodex وClaude Code عند تكوين Playwright MCP.
ما حدود المعدل؟
القيود تعتمد على تكوين خادم Playwright MCP وسياسات الموقع المستهدف.
هل يمكنني دمج هذا مع أدوات أخرى؟
نعم، استخدم تنسيق JSON Output للحصول على بيانات منظمة تتكامل مع سير العمل.
هل يتم تتبع نشاط الكشط الخاص بي؟
النشاط يبقى محلياً - فقط مثيل Playwright والخادم المستهدف يرى الطلبات.
لماذا فشل كشطي؟
الأسباب الشائعة تشمل انتهاء الوقت أو أخطاء 403/404 أو CAPTCHA أو صفحات JavaScript الكثيفة التي تحتاج خيارات التمرير.
كيف يختلف هذا عن curl أو wget؟
تعرض هذه المهارة JavaScript، وتتعامل مع المحتوى الديناميكي، وتستخرج نصاً نظيفاً، وتوفر مخرجات منظمة تلقائياً.

開發者詳情

檔案結構