Crawl4AI 支持使用 JavaScript、基于模式的提取和灵活的输出格式进行高效的网页抓取。用户可以在无需 LLM 调用的情况下提取数据以实现经济高效的自动化,或使用 LLM 驱动的提取来处理复杂内容。
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「crawl4ai」。 Crawl https://docs.python.org/3/ and extract the installation instructions
預期結果:
- ## Installation Instructions
- - Download Python from python.org
- - Run the installer
- - Add Python to PATH
- Source: https://docs.python.org/3/
正在使用「crawl4ai」。 Extract all article titles and links from a blog listing page
預期結果:
- Extracted 15 articles:
- - 'Getting Started with Python' → https://blog.example.com/python-start
- - 'Advanced Patterns' → https://blog.example.com/advanced
- - 'Best Practices' → https://blog.example.com/best-practices
正在使用「crawl4ai」。 Crawl a dynamic page with infinite scroll
預期結果:
- Waited 3 seconds for content to load
- Found 50 product cards
- Extracted names, prices, and images for all products
安全審計
低風險Static analysis flagged 2290 issues but 99% are false positives from markdown documentation. Actual Python code shows legitimate web crawler functionality with user-controlled URLs, explicit credential configuration, and standard file output operations. No hidden data exfiltration or malicious patterns found.
風險因素
品質評分
你能建構什麼
构建数据管道
从网站提取结构化数据以用于分析和报告工作流。
文档化网站
将文档站点转换为 markdown 以供离线阅读或迁移。
聚合网络内容
从多个来源收集和过滤内容以进行研究分析。
試試這些提示
Crawl this URL and return the main content as markdown: https://example.com
Extract product names, prices, and links from this e-commerce page using CSS selectors.
Crawl this JavaScript-heavy page and wait for the dynamic content to load before extracting.
Crawl these three URLs in parallel and extract the main headlines from each: https://news1.com, https://news2.com, https://news3.com
最佳實務
- 对于重复性网站使用基于模式的 CSS 提取以避免 LLM 成本
- 为 JavaScript 密集型页面设置适当的超时和等待条件
- 遵守速率限制并在开发过程中使用缓存以减少负载
避免
- 当 CSS 选择器可以工作时使用 LLM 提取(成本更高)
- 抓取时没有正确的超时设置(可能会无限期挂起)
- 忽略目标网站的速率限制(可能会被阻止)