スキル computer-use-agents

🖥️

computer-use-agents

Name: computer-use-agents
Author: sickn33

安全

构建控制计算机的 AI 智能体

手动桌面自动化既重复又耗时。本技能教您构建能够观察屏幕、推理任务并使用计算机使用模式自主执行操作的 AI 智能体。

対応: Claude Codex Code(CC)

🥉 72 ブロンズ

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「computer-use-agents」を使用しています。向我展示如何在计算机使用智能体中捕获截图

期待される結果:

代码示例演示了使用 pyautogui.screenshot() 捕获截图、调整大小为 1280x800 以提高 token 效率、编码为 base64，并将图像数据返回给视觉模型进行分析。

「computer-use-agents」を使用しています。如何安全地运行计算机使用智能体？

期待される結果:

该技能提供了一个完整的 Docker 设置，包括非 root 用户、只读文件系统、资源限制（2 CPU、4GB RAM）、内部网络和 seccomp 配置文件。智能体在 /tmp 中运行，无法访问主机凭证或敏感目录。

セキュリティ監査

安全

v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

スキャンされたファイル

320

解析された行数

検出結果

総監査数

低リスクの問題 (3)

SKILL.md:30-86 SKILL.md:236-304

External Commands in Documentation

Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.

SKILL.md:300-302

Filesystem Access in Examples

Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.

SKILL.md:19-22 SKILL.md:220

Screen Capture References

Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

セキュリティ

100

仕様準拠

作れるもの

QA 工程师自动化浏览器测试

构建一个能够导航 Web 应用程序、验证 UI 元素并捕获错误截图的智能体。该智能体点击用户流程、检查预期内容并自动报告视觉回归问题。

业务运营的数据录入自动化

创建一个智能体，在没有 API 的传统桌面应用程序之间传输数据。该智能体从电子表格读取信息、打开目标应用程序并通过键盘和鼠标操作输入数据。

无障碍测试助手

开发一个智能体来探索网页以识别无障碍问题。它通过像人类用户一样与页面交互来测试键盘导航、屏幕阅读器兼容性和颜色对比度。

これらのプロンプトを試す

基本计算机使用设置

我想构建一个简单的 AI 智能体，可以截取屏幕和点击按钮。给我一个使用 pyautogui 的最小化 Python 示例，并逐步解释感知 - 推理 - 行动循环。

Docker 沙箱配置

帮助我为运行计算机使用智能体创建一个安全的 Docker 容器。我需要 Xvfb 用于虚拟显示、VNC 用于观察，以及适当的资源限制。生成一个包含安全最佳实践的 Dockerfile 和 docker-compose.yml。

Anthropic Computer Use 集成

我有一个 Anthropic API 密钥。向我展示如何使用官方 Anthropic SDK 实现一个完整的计算机使用智能体，包括 bash 工具和文本编辑器功能。包含错误处理和步骤限制。

多步骤工作流自动化

设计一个可以自动化多步骤工作流的智能体：打开浏览器、导航到 URL、使用环境变量中的凭证登录、下载报告并将其保存到特定目录。包含上下文管理以跨步骤跟踪状态。

ベストプラクティス

始终在隔离的 Docker 容器中运行计算机使用智能体，设置资源限制且无法访问主机凭证
实施步骤限制（最多 50 次迭代）和超时以防止智能体循环失控
尽可能使用键盘快捷键代替鼠标点击以实现更可靠的自动化

回避

切勿在主机上运行可访问真实文件和凭证的计算机使用智能体
避免硬编码凭证 - 始终使用环境变量或密钥管理工具
即使是测试也不要跳过沙箱步骤 - 智能体可能会执行意外操作

よくある質問

哪些 AI 模型最适合计算机使用智能体？

Claude Opus 4.5 和 Claude Sonnet 4 目前是最适合计算机使用任务的模型。它们具有原生计算机使用功能，比通用视觉模型更好地理解 UI 元素。

我可以使用这个技能自动化任何桌面应用程序吗？

虽然计算机使用智能体可以与大多数桌面应用程序交互，但某些 UI 元素（如下拉菜单、滚动条和基于 canvas 的界面）可能具有挑战性。本技能教授适用于标准 UI 控件的模式。

如何防止智能体损坏我的系统？

始终使用示例中展示的 Docker 沙箱。限制网络访问、使用只读文件系统、以非 root 用户运行，并且切勿提供对敏感目录或凭证的访问权限。

什么是感知 - 推理 - 行动循环？

这是核心模式：捕获屏幕（感知）、发送到视觉模型进行分析和规划（推理）、执行鼠标/键盘操作（行动），然后观察结果并重复直到任务完成。

计算机使用智能体可以在无头环境中工作吗？

可以，使用 Xvfb（X 虚拟帧缓冲）创建虚拟显示。该技能展示了如何配置带有 Xvfb 和 VNC 的 Docker 容器以远程观察智能体操作。

典型的智能体任务需要多长时间？

每个感知 - 推理 - 行动周期需要 1-5 秒的模型推理时间加上操作执行时间。简单任务可能需要 10-30 秒，而复杂工作流可能需要几分钟。

開発者の詳細

作成者

sickn33

ライセンス

MIT

リポジトリ

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-use-agents

参照

main

ファイル構成

📄 SKILL.md