技能 web-search-scraper-api-skill
🌐

web-search-scraper-api-skill

安全 🌐 网络访问🔑 环境变量⚙️ 外部命令

从任意网站 URL 提取 Markdown 内容

网页抓取经常因验证码、频率限制或复杂的 JavaScript 渲染而失败。此技能使用 BrowserAct 的 API,可靠地从任意 URL 提取干净、完整的 Markdown 内容,无需面对这些障碍。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“web-search-scraper-api-skill”。 Extract markdown from https://example.com/blog/post

预期结果:

成功提取了 2,450 个单词的 markdown 内容,包括文章中的所有标题、代码块和格式化文本。

正在使用“web-search-scraper-api-skill”。 Scrape this tutorial page: https://docs.example.com/getting-started

预期结果:

将文档的 15 个部分转换为干净的 markdown,保留了标题、列表和代码示例。

安全审计

安全
v1 • 4/28/2026

Security audit completed. All static findings evaluated as false positives or legitimate patterns. Network access is restricted to BrowserAct's official API endpoint. API key is handled properly and never sent to external destinations. No malicious intent or data exfiltration patterns detected. The skill is a legitimate web scraping API client for the BrowserAct service.

2
已扫描文件
173
分析行数
8
发现项
1
审计总数
中风险问题 (2)
Network API Access Pattern
Script makes HTTP requests to external API endpoint with authentication headers. Verified as legitimate BrowserAct service usage - API key is only sent to https://api.browseract.com/v2/workflow, a known trusted endpoint. No data exfiltration detected.
Environment Variable API Key Access
Script retrieves BROWSERACT_API_KEY from environment variables using os.getenv(). Evaluated as legitimate credential handling - key is used only for BrowserAct authentication and not exfiltrated to third parties.
低风险问题 (3)
Hardcoded Service URLs
API endpoints hardcoded for BrowserAct service configuration. These are known, trusted endpoints documented in SKILL.md. Not suspicious - part of service configuration.
Task Polling with Timeout
Script polls API for task completion status with 300-second timeout. Standard API polling pattern for async operations - not system reconnaissance.
Documentation Code Blocks
Markdown contains backtick syntax for code examples. Documentation artifacts detected by static scanner - not actual shell command execution risks.
审计者: claude

质量评分

45
架构
100
可维护性
87
内容
50
社区
89
安全
91
规范符合性

你能构建什么

研究数据收集

自动从多个 URL 提取文章内容、文档和参考资料,用于研究目的,无需手动复制粘贴。

内容聚合管道

将提取的 markdown 内容输入 AI 系统进行摘要、分析或重新格式化。非常适合构建内容处理管道。

文档存档

下载并存档技术文档、教程和 API 参考资料,以 markdown 格式保存以便离线访问或备份。

试试这些提示

提取单篇文章
Extract the markdown content from this URL: ${url}
批量 URL 提取
Use the web scraper skill to extract markdown from each of these URLs: ${urls}. Process them one by one and return the content.
文档抓取
Extract all content from the documentation at ${url} as markdown so I can read it offline.
带备用方案的内容提取
Try to extract the article content from ${url}. If the API key is missing, ask me for it first before attempting the extraction.

最佳实践

  • 在调用抓取器之前始终验证目标 URL 是否可访问,以避免不必要的 API 调用
  • 优雅处理缺失的 API 密钥,在继续之前提示用户
  • 对临时故障实施重试逻辑(单次重试),但遇到授权错误时停止

避免

  • 不要传递未经验证的不可信 URL - 该技能期望格式正确的 HTTP/HTTPS URL
  • 不要忽略 API 密钥错误 - 始终向用户报告身份验证失败
  • 不要快速连续抓取同一 URL - 尊重频率限制

常见问题

使用此技能需要什么?
您需要一个 BrowserAct API 密钥,设置为 BROWSERACT_API_KEY 环境变量。在 browseract.com 注册以获取您的密钥。
提取需要多长时间?
大多数页面在 10-60 秒内提取完成,取决于复杂度。脚本会轮询完成状态,每 10 秒报告一次进度。
这能绕过 CAPTCHA 吗?
是的。BrowserAct 通过浏览器自动化自动处理 CAPTCHA 和机器人检测。
支持哪些格式?
任何 HTTP 或 HTTPS URL 都可以。输出始终是干净的 Markdown,保留结构、标题和代码块。
有重试机制吗?
是的。如果请求失败且没有授权错误,代理将自动重试一次。无效的 API 密钥不会重试。
有频率限制吗?
BrowserAct 根据您的订阅级别有频率限制。该技能设计为尊重合理的使用模式。