Fähigkeiten computer-use-agents

🖥️

computer-use-agents

Name: computer-use-agents
Author: sickn33

Sicher

KI-Agenten zum Steuern von Computern erstellen

Manuelle Desktop-Automatisierung ist repetitiv und zeitaufwändig. Diese Anleitung zeigt Ihnen, wie Sie KI-Agenten erstellen, die Bildschirme beobachten, Aufgaben reasoning und autonom mithilfe von Computer-Use-Mustern ausführen.

Unterstützt: Claude Codex Code(CC)

🥉 72 Bronze

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "computer-use-agents". Zeigen Sie mir, wie man einen Screenshot in einem Computer-Use-Agenten aufnimmt

Erwartetes Ergebnis:

Das Codebeispiel demonstriert die Aufnahme von Screenshots mit pyautogui.screenshot(), die Größenanpassung auf 1280x800 für Token-Effizienz, die Kodierung in Base64 und die Rückgabe der Bilddaten, um sie an ein Vision-Modell zur Analyse zu senden.

Verwendung von "computer-use-agents". Wie führe ich einen Computer-Use-Agenten sicher aus?

Erwartetes Ergebnis:

Die Anleitung bietet ein vollständiges Docker-Setup mit einem Nicht-Root-Benutzer, einem schreibgeschützten Dateisystem, Ressourcenlimits (2 CPU, 4GB RAM), internem Networking und seccomp-Profilen. Der Agent läuft in /tmp ohne Zugriff auf Host-Anmeldedaten oder sensible Verzeichnisse.

Sicherheitsaudit

Sicher

v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

Gescannte Dateien

320

Analysierte Zeilen

befunde

Gesamtzahl Audits

Probleme mit niedrigem Risiko (3)

SKILL.md:30-86 SKILL.md:236-304

External Commands in Documentation

Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.

SKILL.md:300-302

Filesystem Access in Examples

Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.

SKILL.md:19-22 SKILL.md:220

Screen Capture References

Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.

Auditiert von: claude

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

Sicherheit

100

Spezifikationskonformität

Was du bauen kannst

QA-Ingenieur, der Browser-Tests automatisiert

Erstellen Sie einen Agenten, der durch Webanwendungen navigiert, UI-Elemente verifiziert und Screenshots von Fehlern erfasst. Der Agent klickt sich durch Benutzerabläufe, prüft auf erwartete Inhalte und meldet visuelle Regressionen automatisch.

Dateneingabe-Automatisierung für Geschäftsprozesse

Erstellen Sie einen Agenten, der Daten zwischen Legacy-Desktop-Anwendungen ohne APIs überträgt. Der Agent liest Informationen aus Tabellenkalkulationen, öffnet Zielanwendungen und gibt Daten über Tastatur- und Mausaktionen ein.

Barrierefreiheits-Testassistent

Entwickeln Sie einen Agenten, der Webseiten erkundet, um Barrierefreiheitsprobleme zu identifizieren. Er testet Tastaturnavigation, Screenreader-Kompatibilität und Farbkontrast, indem er mit Seiten interagiert wie ein menschlicher Benutzer.

Probiere diese Prompts

Basis-Computer-Use-Einrichtung

Ich möchte einen einfachen KI-Agenten erstellen, der Screenshots aufnehmen und auf Buttons klicken kann. Zeigen Sie mir ein minimales Python-Beispiel mit pyautogui und erklären Sie den Perception-Reasoning-Action-Loop Schritt für Schritt.

Docker-Sandbox-Konfiguration

Helfen Sie mir, einen sicheren Docker-Container für die Ausführung von Computer-Use-Agenten zu erstellen. Ich brauche Xvfb für virtuelle Anzeige, VNC für Beobachtung und geeignete Ressourcenlimits. Generieren Sie ein Dockerfile und docker-compose.yml mit Sicherheits-Best-Practices.

Anthropic Computer Use Integration

Ich habe einen Anthropic API-Schlüssel. Zeigen Sie mir, wie ich einen vollständigen Computer-Use-Agenten mit dem offiziellen Anthropic SDK mit bash-Tools und Text-Editor-Fähigkeiten implementiere. Fehlerbehandlung und Schrittlimits einschließen.

Multi-Step-Workflow-Automatisierung

Entwerfen Sie einen Agenten, der einen Multi-Step-Workflow automatisieren kann: einen Browser öffnen, zu einer URL navigieren, sich mit Anmeldedaten aus Umgebungsvariablen anmelden, einen Bericht herunterladen und ihn in einem bestimmten Verzeichnis speichern. Zustandsverwaltung einschließen, um den Status über Schritte hinweg zu verfolgen.

Bewährte Verfahren

Führen Sie Computer-Use-Agenten immer in isolierten Docker-Containern mit Ressourcenlimits und ohne Zugriff auf Host-Anmeldedaten aus
Implementieren Sie Schrittlimits (max. 50 Iterationen) und Timeouts, um unkontrollierte Agenten-Schleifen zu verhindern
Verwenden Sie Tastenkombinationen anstelle von Mausklicks, wenn möglich, für zuverlässigere Automatisierung

Vermeiden

Führen Sie Computer-Use-Agenten niemals auf Ihrem Host-Computer mit Zugriff auf echte Dateien und Anmeldedaten aus
Vermeiden Sie hartcodierte Anmeldedaten - verwenden Sie immer Umgebungsvariablen oder Secret-Management-Tools
Überspringen Sie den Sandbox-Schritt nicht einmal zum Testen - Agenten können unbeabsichtigte Aktionen ausführen

Häufig gestellte Fragen

Welche KI-Modelle funktionieren am besten für Computer-Use-Agenten?

Claude Opus 4.5 und Claude Sonnet 4 sind derzeit die besten Modelle für Computer-Use-Aufgaben. Sie haben native Computer-Use-Fähigkeiten und verstehen UI-Elemente besser als allgemeine Vision-Modelle.

Kann ich diese Anleitung verwenden, um jede Desktop-Anwendung zu automatisieren?

Obwohl Computer-Use-Agenten mit den meisten Desktop-Anwendungen interagieren können, können einige UI-Elemente wie Dropdowns, Scrollbalken und Canvas-basierte Oberflächen schwierig sein. Die Anleitung zeigt Muster, die für Standard-UI-Steuerelemente funktionieren.

Wie verhindere ich, dass der Agent mein System beschädigt?

Verwenden Sie immer Docker-Sandboxing wie in den Beispielen gezeigt. Beschränken Sie den Netzwerkzugriff, verwenden Sie schreibgeschätzte Dateisysteme, führen Sie sie als Nicht-Root aus und gewähren Sie niemals Zugriff auf sensible Verzeichnisse oder Anmeldedaten.

Was ist der Perception-Reasoning-Action-Loop?

Es ist das Kernmuster: Bildschirm erfassen (Perception), an Vision-Modell zur Analyse und Planung senden (Reasoning), Maus/Tastatur-Aktion ausführen (Action), dann Ergebnisse beobachten und wiederholen, bis die Aufgabe abgeschlossen ist.

Können Computer-Use-Agenten in headless Umgebungen arbeiten?

Ja, mit Xvfb (X Virtual Framebuffer) um eine virtuelle Anzeige zu erstellen. Die Anleitung zeigt, wie Docker-Container mit Xvfb und VNC für die Remote-Beobachtung von Agenten-Aktionen konfiguriert werden.

Wie lange dauert eine typische Agenten-Aufgabe?

Jeder Perception-Reasoning-Action-Zyklus dauert 1-5 Sekunden für Model-Inferenz plus Aktionsausführungszeit. Einfache Aufgaben können 10-30 Sekunden dauern, während komplexe Workflows mehrere Minuten benötigen können.

Entwicklerdetails

Autor

sickn33

Lizenz

MIT

Repository

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-use-agents

Ref

main

Dateistruktur

📄 SKILL.md