スキル computer-use-agents

🖥️

computer-use-agents

Name: computer-use-agents
Author: sickn33

安全

コンピュータを操作する AI エージェントを構築する

手動によるデスクトップ自動化は反復的で時間がかかります。このスキルでは、画面を観察し、タスクを推論し、コンピュータ使用パターンを使用して自律的にアクションを実行する AI エージェントの構築方法を学べます。

対応: Claude Codex Code(CC)

📊 71 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「computer-use-agents」を使用しています。コンピュータ使用エージェントでスクリーンショットをキャプチャする方法を示してください

期待される結果:

コード例では、pyautogui.screenshot() を使用してスクリーンショットをキャプチャし、トークン効率のために 1280x800 にリサイズし、base64 にエンコードして、分析のためにビジョンモデルに送信する画像データを返す方法を示しています。

「computer-use-agents」を使用しています。コンピュータ使用エージェントを安全に実行するにはどうすればよいですか？

期待される結果:

このスキルでは、非ルートユーザー、読み取り専用ファイルシステム、リソース制限（2 CPU、4GB RAM）、内部ネットワーキング、seccomp プロファイルを備えた完全な Docker 設定を提供します。エージェントは /tmp 内で実行され、ホストの認証情報や機密ディレクトリにアクセスできません。

セキュリティ監査

安全

v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

スキャンされたファイル

320

解析された行数

検出結果

総監査数

低リスクの問題 (3)

SKILL.md:30-86 SKILL.md:236-304

External Commands in Documentation

Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.

SKILL.md:300-302

Filesystem Access in Examples

Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.

SKILL.md:19-22 SKILL.md:220

Screen Capture References

Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

セキュリティ

100

仕様準拠

作れるもの

ブラウザテストを自動化する QA エンジニア

Web アプリケーションをナビゲートし、UI 要素を検証し、バグのスクリーンショットをキャプチャするエージェントを構築します。エージェントはユーザーフローをクリックして移動し、期待されるコンテンツをチェックし、視覚的回帰を自動的に報告します。

ビジネスオペレーションのためのデータ入力自動化

API なしでレガシーデスクトップアプリケーション間でデータを転送するエージェントを作成します。エージェントはスプレッドシートから情報を読み取り、対象アプリケーションを開き、キーボードとマウスアクションを通じてデータを入力します。

アクセシビリティテストアシスタント

Web ページを探索してアクセシビリティの問題を特定するエージェントを開発します。人間のユーザーのようにページと対話することで、キーボードナビゲーション、スクリーンリーダーの互換性、色のコントラストをテストします。

これらのプロンプトを試す

基本的なコンピュータ使用設定

スクリーンショットを撮影してボタンをクリックできるシンプルな AI エージェントを構築したいです。pyautogui を使用した最小限の Python 例を示し、知覚 - 推論 - アクションループを段階的に説明してください。

Docker サンドボックス設定

コンピュータ使用エージェントを実行するための安全な Docker コンテナの作成を支援してください。仮想ディスプレイ用の Xvfb、観測用の VNC、適切なリソース制限が必要です。セキュリティベストプラクティスを含む Dockerfile と docker-compose.yml を生成してください。

Anthropic Computer Use 統合

Anthropic API キーがあります。bash ツールとテキストエディタ機能を含む公式 Anthropic SDK を使用して、完全なコンピュータ使用エージェントを実装する方法を示してください。エラーハンドリングとステップ制限を含めてください。

マルチステップワークフロー自動化

マルチステップワークフローを自動化するエージェントを設計してください：ブラウザを開く、URL に移動する、環境変数から認証情報でログインする、レポートをダウンロードする、特定のディレクトリに保存する。ステップ全体で状態を追跡するためのコンテキスト管理を含めてください。

ベストプラクティス

コンピュータ使用エージェントは常に、リソース制限がありホスト認証情報にアクセスできない孤立した Docker コンテナ内で実行する
エージェントループの暴走を防ぐために、ステップ制限（最大 50 反復）とタイムアウトを実装する
より信頼性の高い自動化のために、マウスクリックではなく可能な限りキーボードショートカットを使用する

回避

実際のファイルや認証情報にアクセスできるホストマシン上でコンピュータ使用エージェントを実行しない
ハードコードされた認証情報を避ける - 常に環境変数またはシークレット管理ツールを使用する
テストのためであってもサンドボックスステップをスキップしない - エージェントは意図しないアクションを実行する可能性がある

よくある質問

コンピュータ使用エージェントにはどの AI モデルが最適ですか？

Claude Opus 4.5 と Claude Sonnet 4 は現在、コンピュータ使用タスクに最も適したモデルです。これらはネイティブのコンピュータ使用機能を持ち、一般的なビジョンモデルよりも UI 要素をよりよく理解します。

このスキルを使ってどんなデスクトップアプリケーションでも自動化できますか？

コンピュータ使用エージェントはほとんどのデスクトップアプリケーションと対話できますが、ドロップダウン、スクロールバー、キャンバスベースのインターフェースなどの一部の UI 要素は困難な場合があります。このスキルでは、標準的な UI コントロールで動作するパターンを教えます。

エージェントがシステムに損害を与えるのを防ぐにはどうすればよいですか？

常に例に示されているように Docker サンドボックスを使用してください。ネットワークアクセスを制限し、読み取り専用ファイルシステムを使用し、非ルートで実行し、機密ディレクトリや認証情報へのアクセスを提供しないでください。

知覚 - 推論 - アクションループとは何ですか？

これは中核的なパターンです：画面をキャプチャ（知覚）、分析と計画のためにビジョンモデルに送信（推論）、マウス/キーボードアクションを実行（アクション）、その後結果を観察し、タスクが完了するまで繰り返します。

コンピュータ使用エージェントはヘッドレス環境で動作しますか？

はい、Xvfb（X Virtual Framebuffer）を使用して仮想ディスプレイを作成できます。このスキルでは、エージェントアクションのリモート観測のために Xvfb と VNC を備えた Docker コンテナを設定する方法を示しています。

典型的なエージェン卜タスクにはどのくらい時間がかかりますか？

各知覚 - 推論 - アクションサイクルには、モデル推論に 1〜5 秒かかり、それにアクション実行時間が加わります。単純なタスクは 10〜30 秒で完了しますが、複雑なワークフローには数分かかる場合があります。

開発者の詳細

作成者

sickn33

ライセンス

MIT

リポジトリ

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-use-agents

参照

main

ファイル構成

📄 SKILL.md