스킬 computer-use-agents

🖥️

computer-use-agents

Name: computer-use-agents
Author: sickn33

안전

컴퓨터를 제어하는 AI 에이전트 구축

수동 데스크톱 자동화는 반복적이고 시간 소모적입니다. 이 스킬은 화면을 관찰하고, 작업에 대해 추론하며, 컴퓨터 사용 패턴을 사용하여 자율적으로 작업을 실행하는 AI 에이전트를 구축하는 방법을 알려줍니다.

지원: Claude Codex Code(CC)

📊 71 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"computer-use-agents" 사용 중입니다. 컴퓨터 사용 에이전트에서 스크린샷을 캡처하는 방법

예상 결과:

이 코드 예제는 pyautogui.screenshot()을 사용하여 스크린샷을 캡처하고, 토큰 효율성을 위해 1280x800으로 크기를 조정하고, base64로 인코딩한 다음, 분석을 위해 비전 모델로 보낼 이미지 데이터를 반환하는 방법을 보여줍니다.

"computer-use-agents" 사용 중입니다. 컴퓨터 사용 에이전트를 안전하게 실행하려면 어떻게 해야 합니까?

예상 결과:

이 스킬은 비ルート 사용자, 읽기 전용 파일시스템, 리소스 제한(2 CPU, 4GB RAM), 내부 네트워크, seccomp 프로필이 포함된 완전한 Docker 설정을 제공합니다. 에이전트는 /tmp에서 실행되어 호스트 자격 증명이나 민감한 디렉터리에 접근할 수 없습니다.

보안 감사

안전

v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

스캔된 파일

320

분석된 줄 수

발견 사항

총 감사 수

낮은 위험 문제 (3)

SKILL.md:30-86 SKILL.md:236-304

External Commands in Documentation

Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.

SKILL.md:300-302

Filesystem Access in Examples

Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.

SKILL.md:19-22 SKILL.md:220

Screen Capture References

Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.

감사자: claude

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

보안

100

사양 준수

만들 수 있는 것

브라우저 테스트 자동화하는 QA 엔지니어

웹 애플리케이션을 탐색하고, UI 요소를 확인하며, 버그의 스크린샷을 캡처하는 에이전트를 구축합니다. 에이전트는 사용자 흐름을 클릭하여 이동하고, 예상되는 콘텐츠를 확인하며, 시각적 회귀를 자동으로 보고합니다.

비즈니스 운영을 위한 데이터 입력 자동화

API가 없는 레거시 데스크톱 애플리케이션 간에 데이터를 전송하는 에이전트를 생성합니다. 에이전트는 스프레드시트에서 정보를 읽고, 대상 애플리케이션을 열며, 키보드와 마우스 작업을 통해 데이터를 입력합니다.

접근성 테스트 어시스턴트

웹 페이지의 접근성 문제를 식별하기 위해 탐색하는 에이전트를 개발합니다. 키보드 탐색, 스크린 리더 호환성, 색상 대비를 인간 사용자가 상호작용하는 것처럼 테스트합니다.

이 프롬프트를 사용해 보세요

기본 컴퓨터 사용 설정

스크린샷을 캡처하고 버튼을 클릭할 수 있는 간단한 AI 에이전트를 구축하고 싶습니다. pyautogui를 사용한 최소 Python 예제를 보여주고 인식-추론-행동 루프를 단계별로 설명해 주세요.

Docker 샌드박스 구성

컴퓨터 사용 에이전트를 실행하기 위한 안전한 Docker 컨테이너를 만들어주세요. 가상 디스플레이용 Xvfb, 관찰용 VNC, 적절한 리소스 제한이 필요합니다. 보안 모범 사례가 포함된 Dockerfile과 docker-compose.yml을 생성해 주세요.

Anthropic Computer Use 통합

Anthropic API 키가 있습니다. bash 도구 및 텍스트 편집기 기능과 함께 공식 Anthropic SDK를 사용하여 전체 컴퓨터 사용 에이전트를 구현하는 방법을 보여주세요. 오류 처리와 단계 제한을 포함해 주세요.

다단계 워크플로 자동화

다단계 워크플로를 자동화할 수 있는 에이전트를 설계해 주세요: 브라우저를 열고, URL로 이동하고, 환경 변수의 자격 증명으로 로그인하고, 보고서를 다운로드하여 특정 디렉터리에 저장합니다. 단계 간 상태를 추적하기 위한 컨텍스트 관리를 포함해 주세요.

모범 사례

항상 리소스 제한이 있고 호스트 자격 증명에 접근할 수 없는 격리된 Docker 컨테이너에서 컴퓨터 사용 에이전트 실행
runaway 에이전트 루프를 방지하기 위해 단계 제한(최대 50회 반복)과 타임아웃 구현
더 신뢰할 수 있는 자동화를 위해 가능한 경우 마우스 클릭 대신 키보드 단축키 사용

피하기

실제 파일과 자격 증정에 접근하는 호스트 컴퓨터에서 컴퓨터 사용 에이전트 실행 금지
하드코딩된 자격 증명 피하기 - 항상 환경 변수 또는 비밀 관리 도구 사용
테스트 중에도 샌드박싱 단계 건너뛰지 않기 - 에이전트가 의도하지 않은 작업을 실행할 수 있음

자주 묻는 질문

컴퓨터 사용 에이전트에 가장 적합한 AI 모델은 무엇입니까?

Claude Opus 4.5와 Claude Sonnet 4가 현재 컴퓨터 사용 작업에 가장 적합한 모델입니다. 이 모델은 기본 컴퓨터 사용 기능이 있으며 일반 비전 모델보다 UI 요소를 더 잘 이해합니다.

이 스킬을 사용하여 모든 데스크톱 애플리케이션을 자동화할 수 있습니까?

컴퓨터 사용 에이전트는 대부분의 데스크톱 애플리케이션과 상호작용할 수 있지만, 드롭다운, 스크롤바, 캔버스 기반 인터페이스와 같은 일부 UI 요소는 어려울 수 있습니다. 이 스킬은 표준 UI 컨트롤에 작동하는 패턴을 안내합니다.

에이전트가 내 시스템을 손상시키는 것을 어떻게 방지합니까?

항상 예제에 표시된 대로 Docker 샌드박싱을 사용하세요. 네트워크 접근을 제한하고, 읽기 전용 파일시스템을 사용하고, 루트로 실행하지 말고, 민감한 디렉터리나 자격 증정에 대한 접근을 제공하지 마세요.

인식-추론-행동 루프란 무엇입니까?

이것이 핵심 패턴입니다: 화면을 캡처(인식), 분석 및 계획(추론)을 위해 비전 모델로 보내고, 마우스/키보드 작업(행동)을 실행한 다음, 작업이 완료될 때까지 결과를 관찰하고 반복합니다.

컴퓨터 사용 에이전트는 헤드리스 환경에서 작동할 수 있습니까?

가상 디스플레이를 생성하는 Xvfb(X Virtual Framebuffer)를 사용하여 가능합니다. 이 스킬은 Xvfb 및 VNC가 포함된 Docker 컨테이너를 구성하고 에이전트 작업을 원격으로 관찰하는 방법을 보여줍니다.

각 인식-추론-행동 주기는 모델 추론에 1~5초, 작업 실행 시간에 추가 시간이 소요됩니다. 간단한 작업은 10~30초, 복잡한 워크플로는 몇 분이 걸릴 수 있습니다.

개발자 세부 정보

작성자

sickn33

라이선스

MIT

리포지토리

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-use-agents

참조

main

파일 구조

📄 SKILL.md