computer-use-agents
构建控制计算机的 AI 智能体
手动桌面自动化既重复又耗时。本技能教您构建能够观察屏幕、推理任务并使用计算机使用模式自主执行操作的 AI 智能体。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“computer-use-agents”。 向我展示如何在计算机使用智能体中捕获截图
预期结果:
代码示例演示了使用 pyautogui.screenshot() 捕获截图、调整大小为 1280x800 以提高 token 效率、编码为 base64,并将图像数据返回给视觉模型进行分析。
正在使用“computer-use-agents”。 如何安全地运行计算机使用智能体?
预期结果:
该技能提供了一个完整的 Docker 设置,包括非 root 用户、只读文件系统、资源限制(2 CPU、4GB RAM)、内部网络和 seccomp 配置文件。智能体在 /tmp 中运行,无法访问主机凭证或敏感目录。
安全审计
安全All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.
低风险问题 (3)
质量评分
你能构建什么
QA 工程师自动化浏览器测试
构建一个能够导航 Web 应用程序、验证 UI 元素并捕获错误截图的智能体。该智能体点击用户流程、检查预期内容并自动报告视觉回归问题。
业务运营的数据录入自动化
创建一个智能体,在没有 API 的传统桌面应用程序之间传输数据。该智能体从电子表格读取信息、打开目标应用程序并通过键盘和鼠标操作输入数据。
无障碍测试助手
开发一个智能体来探索网页以识别无障碍问题。它通过像人类用户一样与页面交互来测试键盘导航、屏幕阅读器兼容性和颜色对比度。
试试这些提示
我想构建一个简单的 AI 智能体,可以截取屏幕和点击按钮。给我一个使用 pyautogui 的最小化 Python 示例,并逐步解释感知 - 推理 - 行动循环。
帮助我为运行计算机使用智能体创建一个安全的 Docker 容器。我需要 Xvfb 用于虚拟显示、VNC 用于观察,以及适当的资源限制。生成一个包含安全最佳实践的 Dockerfile 和 docker-compose.yml。
我有一个 Anthropic API 密钥。向我展示如何使用官方 Anthropic SDK 实现一个完整的计算机使用智能体,包括 bash 工具和文本编辑器功能。包含错误处理和步骤限制。
设计一个可以自动化多步骤工作流的智能体:打开浏览器、导航到 URL、使用环境变量中的凭证登录、下载报告并将其保存到特定目录。包含上下文管理以跨步骤跟踪状态。
最佳实践
- 始终在隔离的 Docker 容器中运行计算机使用智能体,设置资源限制且无法访问主机凭证
- 实施步骤限制(最多 50 次迭代)和超时以防止智能体循环失控
- 尽可能使用键盘快捷键代替鼠标点击以实现更可靠的自动化
避免
- 切勿在主机上运行可访问真实文件和凭证的计算机使用智能体
- 避免硬编码凭证 - 始终使用环境变量或密钥管理工具
- 即使是测试也不要跳过沙箱步骤 - 智能体可能会执行意外操作