Compétences computer-use-agents
🖥️

computer-use-agents

Sûr

KI-Agenten zum Steuern von Computern erstellen

Manuelle Desktop-Automatisierung ist repetitiv und zeitaufwändig. Diese Anleitung zeigt Ihnen, wie Sie KI-Agenten erstellen, die Bildschirme beobachten, Aufgaben reasoning und autonom mithilfe von Computer-Use-Mustern ausführen.

Prend en charge: Claude Codex Code(CC)
🥉 75 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "computer-use-agents". Zeigen Sie mir, wie man einen Screenshot in einem Computer-Use-Agenten aufnimmt

Résultat attendu:

Das Codebeispiel demonstriert die Aufnahme von Screenshots mit pyautogui.screenshot(), die Größenanpassung auf 1280x800 für Token-Effizienz, die Kodierung in Base64 und die Rückgabe der Bilddaten, um sie an ein Vision-Modell zur Analyse zu senden.

Utilisation de "computer-use-agents". Wie führe ich einen Computer-Use-Agenten sicher aus?

Résultat attendu:

Die Anleitung bietet ein vollständiges Docker-Setup mit einem Nicht-Root-Benutzer, einem schreibgeschützten Dateisystem, Ressourcenlimits (2 CPU, 4GB RAM), internem Networking und seccomp-Profilen. Der Agent läuft in /tmp ohne Zugriff auf Host-Anmeldedaten oder sensible Verzeichnisse.

Audit de sécurité

Sûr
v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

1
Fichiers analysés
320
Lignes analysées
3
résultats
1
Total des audits
Problèmes à risque faible (3)
External Commands in Documentation
Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.
Filesystem Access in Examples
Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.
Screen Capture References
Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
99
Sécurité
100
Conformité aux spécifications

Ce que vous pouvez construire

QA-Ingenieur, der Browser-Tests automatisiert

Erstellen Sie einen Agenten, der durch Webanwendungen navigiert, UI-Elemente verifiziert und Screenshots von Fehlern erfasst. Der Agent klickt sich durch Benutzerabläufe, prüft auf erwartete Inhalte und meldet visuelle Regressionen automatisch.

Dateneingabe-Automatisierung für Geschäftsprozesse

Erstellen Sie einen Agenten, der Daten zwischen Legacy-Desktop-Anwendungen ohne APIs überträgt. Der Agent liest Informationen aus Tabellenkalkulationen, öffnet Zielanwendungen und gibt Daten über Tastatur- und Mausaktionen ein.

Barrierefreiheits-Testassistent

Entwickeln Sie einen Agenten, der Webseiten erkundet, um Barrierefreiheitsprobleme zu identifizieren. Er testet Tastaturnavigation, Screenreader-Kompatibilität und Farbkontrast, indem er mit Seiten interagiert wie ein menschlicher Benutzer.

Essayez ces prompts

Basis-Computer-Use-Einrichtung
Ich möchte einen einfachen KI-Agenten erstellen, der Screenshots aufnehmen und auf Buttons klicken kann. Zeigen Sie mir ein minimales Python-Beispiel mit pyautogui und erklären Sie den Perception-Reasoning-Action-Loop Schritt für Schritt.
Docker-Sandbox-Konfiguration
Helfen Sie mir, einen sicheren Docker-Container für die Ausführung von Computer-Use-Agenten zu erstellen. Ich brauche Xvfb für virtuelle Anzeige, VNC für Beobachtung und geeignete Ressourcenlimits. Generieren Sie ein Dockerfile und docker-compose.yml mit Sicherheits-Best-Practices.
Anthropic Computer Use Integration
Ich habe einen Anthropic API-Schlüssel. Zeigen Sie mir, wie ich einen vollständigen Computer-Use-Agenten mit dem offiziellen Anthropic SDK mit bash-Tools und Text-Editor-Fähigkeiten implementiere. Fehlerbehandlung und Schrittlimits einschließen.
Multi-Step-Workflow-Automatisierung
Entwerfen Sie einen Agenten, der einen Multi-Step-Workflow automatisieren kann: einen Browser öffnen, zu einer URL navigieren, sich mit Anmeldedaten aus Umgebungsvariablen anmelden, einen Bericht herunterladen und ihn in einem bestimmten Verzeichnis speichern. Zustandsverwaltung einschließen, um den Status über Schritte hinweg zu verfolgen.

Bonnes pratiques

  • Führen Sie Computer-Use-Agenten immer in isolierten Docker-Containern mit Ressourcenlimits und ohne Zugriff auf Host-Anmeldedaten aus
  • Implementieren Sie Schrittlimits (max. 50 Iterationen) und Timeouts, um unkontrollierte Agenten-Schleifen zu verhindern
  • Verwenden Sie Tastenkombinationen anstelle von Mausklicks, wenn möglich, für zuverlässigere Automatisierung

Éviter

  • Führen Sie Computer-Use-Agenten niemals auf Ihrem Host-Computer mit Zugriff auf echte Dateien und Anmeldedaten aus
  • Vermeiden Sie hartcodierte Anmeldedaten - verwenden Sie immer Umgebungsvariablen oder Secret-Management-Tools
  • Überspringen Sie den Sandbox-Schritt nicht einmal zum Testen - Agenten können unbeabsichtigte Aktionen ausführen

Foire aux questions

Welche KI-Modelle funktionieren am besten für Computer-Use-Agenten?
Claude Opus 4.5 und Claude Sonnet 4 sind derzeit die besten Modelle für Computer-Use-Aufgaben. Sie haben native Computer-Use-Fähigkeiten und verstehen UI-Elemente besser als allgemeine Vision-Modelle.
Kann ich diese Anleitung verwenden, um jede Desktop-Anwendung zu automatisieren?
Obwohl Computer-Use-Agenten mit den meisten Desktop-Anwendungen interagieren können, können einige UI-Elemente wie Dropdowns, Scrollbalken und Canvas-basierte Oberflächen schwierig sein. Die Anleitung zeigt Muster, die für Standard-UI-Steuerelemente funktionieren.
Wie verhindere ich, dass der Agent mein System beschädigt?
Verwenden Sie immer Docker-Sandboxing wie in den Beispielen gezeigt. Beschränken Sie den Netzwerkzugriff, verwenden Sie schreibgeschätzte Dateisysteme, führen Sie sie als Nicht-Root aus und gewähren Sie niemals Zugriff auf sensible Verzeichnisse oder Anmeldedaten.
Was ist der Perception-Reasoning-Action-Loop?
Es ist das Kernmuster: Bildschirm erfassen (Perception), an Vision-Modell zur Analyse und Planung senden (Reasoning), Maus/Tastatur-Aktion ausführen (Action), dann Ergebnisse beobachten und wiederholen, bis die Aufgabe abgeschlossen ist.
Können Computer-Use-Agenten in headless Umgebungen arbeiten?
Ja, mit Xvfb (X Virtual Framebuffer) um eine virtuelle Anzeige zu erstellen. Die Anleitung zeigt, wie Docker-Container mit Xvfb und VNC für die Remote-Beobachtung von Agenten-Aktionen konfiguriert werden.
Wie lange dauert eine typische Agenten-Aufgabe?
Jeder Perception-Reasoning-Action-Zyklus dauert 1-5 Sekunden für Model-Inferenz plus Aktionsausführungszeit. Einfache Aufgaben können 10-30 Sekunden dauern, während komplexe Workflows mehrere Minuten benötigen können.

Détails du développeur

Structure de fichiers

📄 SKILL.md