技能 web-search-scraper-api-skill
🌐

web-search-scraper-api-skill

安全 🌐 网络访问🔑 环境变量⚙️ 外部命令

從任何網站 URL 提取 Markdown

網頁爬取經常因為 CAPTCHA、速率限制或複雜的 JavaScript 渲染而失敗。此技能使用 BrowserAct 的 API,能夠可靠地從任何 URL 提取乾淨且完整的 Markdown 內容,而不會遇到這些障礙。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“web-search-scraper-api-skill”。 Extract markdown from https://example.com/blog/post

预期结果:

Successfully extracted 2,450 words of markdown content including all headings, code blocks, and formatted text from the article.

正在使用“web-search-scraper-api-skill”。 Scrape this tutorial page: https://docs.example.com/getting-started

预期结果:

Converted 15 sections of documentation into clean markdown with preserved headings, lists, and code examples.

安全审计

安全
v1 • 4/28/2026

Security audit completed. All static findings evaluated as false positives or legitimate patterns. Network access is restricted to BrowserAct's official API endpoint. API key is handled properly and never sent to external destinations. No malicious intent or data exfiltration patterns detected. The skill is a legitimate web scraping API client for the BrowserAct service.

2
已扫描文件
173
分析行数
8
发现项
1
审计总数
中风险问题 (2)
Network API Access Pattern
Script makes HTTP requests to external API endpoint with authentication headers. Verified as legitimate BrowserAct service usage - API key is only sent to https://api.browseract.com/v2/workflow, a known trusted endpoint. No data exfiltration detected.
Environment Variable API Key Access
Script retrieves BROWSERACT_API_KEY from environment variables using os.getenv(). Evaluated as legitimate credential handling - key is used only for BrowserAct authentication and not exfiltrated to third parties.
低风险问题 (3)
Hardcoded Service URLs
API endpoints hardcoded for BrowserAct service configuration. These are known, trusted endpoints documented in SKILL.md. Not suspicious - part of service configuration.
Task Polling with Timeout
Script polls API for task completion status with 300-second timeout. Standard API polling pattern for async operations - not system reconnaissance.
Documentation Code Blocks
Markdown contains backtick syntax for code examples. Documentation artifacts detected by static scanner - not actual shell command execution risks.
审计者: claude

质量评分

45
架构
100
可维护性
87
内容
50
社区
89
安全
91
规范符合性

你能构建什么

研究資料收集

自動從多個 URL 提取文章內容、文件和參考資料,用於研究目的,無需手動複製貼上。

內容彙整流程

將提取的 markdown 內容輸入 AI 系統進行摘要、分析或重新格式化。適合建立內容處理流程。

文件歸檔

以 markdown 格式下載並歸檔技術文件、教學和 API 參考資料,以便離線存取或備份。

试试这些提示

提取單篇文章
Extract the markdown content from this URL: ${url}
批次 URL 提取
Use the web scraper skill to extract markdown from each of these URLs: ${urls}. Process them one by one and return the content.
文件爬取
Extract all content from the documentation at ${url} as markdown so I can read it offline.
帶有備援的內容提取
Try to extract the article content from ${url}. If the API key is missing, ask me for it first before attempting the extraction.

最佳实践

  • 在呼叫爬蟲之前,務必確認目標 URL 可存取,以避免不必要的 API 呼叫
  • 透過在繼續之前提示使用者,優雅地處理缺少 API 金鑰的情況
  • 為暫時性失敗實作重試邏輯(單次重試),但在授權錯誤時停止

避免

  • 請勿在未驗證的情況下傳遞不受信任的 URL — 此技能需要格式正確的 HTTP/HTTPS URL
  • 請勿忽略 API 金鑰錯誤 — 務必向使用者回報驗證失敗
  • 請勿在短時間內重複爬取相同的 URL — 請遵守速率限制

常见问题

使用此技能需要什麼?
您需要將 BrowserAct API 金鑰設定為 BROWSERACT_API_KEY 環境變數。請前往 browseract.com 註冊以取得您的金鑰。
提取需要多長時間?
大多數頁面的提取時間為 10-60 秒,視複雜度而定。指令碼會輪詢完成狀態,每 10 秒回報一次狀態。
這可以繞過 CAPTCHA 嗎?
可以。BrowserAct 透過瀏覽器自動化自動處理 CAPTCHA 和機器人偵測。
支援哪些格式?
任何 HTTP 或 HTTPS URL 皆可使用。輸出始終是結構、標題和程式碼區塊都保留的乾淨 Markdown。
是否有重試機制?
有的。如果請求失敗且非授權錯誤,代理程式會自動重試一次。無效的 API 金鑰不會重試。
是否有速率限制?
BrowserAct 根據您的訂閱方案設有速率限制。此技能的設計旨在遵守合理的使用模式。