🖥️

computer-use-agents

Name: computer-use-agents
Author: sickn33

آمن

Créez des agents IA qui contrôlent des ordinateurs

L'automatisation de bureau manuelle est répétitive et chronophage. Cette compétence vous apprend à créer des agents IA qui observent les écrans, raisonnent sur les tâches et exécutent des actions de manière autonome en utilisant des modèles d'utilisation d'ordinateur.

يدعم: Claude Codex Code(CC)

🥉 72 برونزي

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "computer-use-agents". Montrez-moi comment capturer un screenshot dans un agent d'utilisation d'ordinateur

النتيجة المتوقعة:

L'exemple de code démontre la capture de screenshots en utilisant pyautogui.screenshot(), le redimensionnement à 1280x800 pour l'efficacité des tokens, l'encodage en base64, et le retour des données d'image à envoyer à un modèle de vision pour analyse.

استخدام "computer-use-agents". Comment exécuter un agent d'utilisation d'ordinateur en toute sécurité ?

النتيجة المتوقعة:

La compétence fournit une configuration Docker complète avec un utilisateur non-root, un système de fichiers en lecture seule, des limites de ressources (2 CPU, 4GB RAM), un réseau interne et des profils seccomp. L'agent s'exécute dans /tmp sans accès aux identifiants de l'hôte ou aux répertoires sensibles.

التدقيق الأمني

آمن

v1 • 2/25/2026

All static analysis findings are false positives. This skill contains educational documentation and code examples for building computer-use agents. The detected patterns (external commands, filesystem access, screen capture) are legitimate code examples demonstrating automation tools like pyautogui and subprocess in Docker-sandboxed environments. The skill explicitly teaches security best practices including sandboxing, resource limits, and credential isolation. No malicious intent or executable code present.

الملفات التي تم فحصها

320

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

مشكلات منخفضة المخاطر (3)

SKILL.md:30-86 SKILL.md:236-304

External Commands in Documentation

Code examples show pyautogui and subprocess usage for computer automation. These are legitimate educational examples demonstrating how to build computer-use agents. The skill includes extensive security warnings and sandboxing guidance.

SKILL.md:300-302

Filesystem Access in Examples

Code examples reference /tmp/screenshot.png for temporary file storage. This is standard temp directory usage in demo code, not suspicious filesystem access.

SKILL.md:19-22 SKILL.md:220

Screen Capture References

Documentation mentions screenshot capabilities as a core feature of computer-use agents. This is documented functionality, not malicious surveillance.

تم تدقيقه بواسطة: claude

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

الأمان

100

الامتثال للمواصفات

ماذا يمكنك بناءه

Ingénieur QA Automatisant les Tests de Navigateur

Construisez un agent qui navigue dans des applications web, vérifie les éléments d'interface et capture des screenshots de bugs. L'agent clique à travers les flux utilisateur, vérifie le contenu attendu et signale automatiquement les régressions visuelles.

Automatisation de la Saisie de Données pour les Opérations Métier

Créez un agent qui transfère des données entre des applications de bureau héritées sans APIs. L'agent lit les informations depuis des tableurs, ouvre les applications cibles et saisit les données via des actions de clavier et de souris.

Assistant de Test d'Accessibilité

Développez un agent qui explore les pages web pour identifier les problèmes d'accessibilité. Il teste la navigation au clavier, la compatibilité avec les lecteurs d'écran et le contraste des couleurs en interagissant avec les pages comme le ferait un utilisateur humain.

جرّب هذه الموجهات

Configuration de Base pour l'Utilisation d'Ordinateur

Je veux créer un agent IA simple qui peut prendre des screenshots et cliquer sur des boutons. Montrez-moi un exemple Python minimal utilisant pyautogui et expliquez la boucle perception-raisonnement-action étape par étape.

Configuration du Sandbox Docker

Aidez-moi à créer un conteneur Docker sécurisé pour exécuter des agents d'utilisation d'ordinateur. J'ai besoin de Xvfb pour l'affichage virtuel, de VNC pour l'observation, et de limites de ressources appropriées. Générez un Dockerfile et un docker-compose.yml avec les meilleures pratiques de sécurité.

Intégration d'Anthropic Computer Use

J'ai une clé API Anthropic. Montrez-moi comment implémenter un agent d'utilisation d'ordinateur complet en utilisant le SDK officiel Anthropic avec des outils bash et des capacités d'éditeur de texte. Incluez la gestion d'erreurs et des limites d'étapes.

Automatisation de Flux de Travail Multi-Étapes

Concevez un agent capable d'automatiser un flux de travail multi-étapes : ouvrir un navigateur, naviguer vers une URL, se connecter avec des identifiants provenant de variables d'environnement, télécharger un rapport et l'enregistrer dans un répertoire spécifique. Incluez la gestion de contexte pour suivre l'état à travers les étapes.

أفضل الممارسات

Toujours exécuter les agents d'utilisation d'ordinateur dans des conteneurs Docker isolés avec des limites de ressources et sans accès aux identifiants de l'hôte
Implémenter des limites d'étapes (maximum 50 itérations) et des timeouts pour prévenir les boucles d'agents incontrôlées
Utiliser des raccourcis clavier au lieu des clics de souris quand c'est possible pour une automatisation plus fiable

تجنب

Ne jamais exécuter d'agents d'utilisation d'ordinateur sur votre machine hôte avec accès aux vrais fichiers et identifiants
Éviter les identifiants en dur - toujours utiliser des variables d'environnement ou des outils de gestion de secrets
Ne pas sauter l'étape de sandboxing même pour les tests - les agents peuvent exécuter des actions non intentionnelles

الأسئلة المتكررة

Quels modèles IA fonctionnent le mieux pour les agents d'utilisation d'ordinateur ?

Claude Opus 4.5 et Claude Sonnet 4 sont actuellement les meilleurs modèles pour les tâches d'utilisation d'ordinateur. Ils ont des capacités natives d'utilisation d'ordinateur et comprennent mieux les éléments d'interface que les modèles de vision généraux.

Puis-je utiliser cette compétence pour automatiser n'importe quelle application de bureau ?

Bien que les agents d'utilisation d'ordinateur puissent interagir avec la plupart des applications de bureau, certains éléments d'interface comme les menus déroulants, les barres de défilement et les interfaces basées sur canvas peuvent être difficiles. La compétence enseigne des modèles qui fonctionnent pour les contrôles d'interface standards.

Comment empêcher l'agent d'endommager mon système ?

Toujours utiliser le sandboxing Docker comme montré dans les exemples. Restreindre l'accès réseau, utiliser des systèmes de fichiers en lecture seule, exécuter en tant que non-root, et ne jamais fournir l'accès aux répertoires ou identifiants sensibles.

Qu'est-ce que la boucle perception-raisonnement-action ?

C'est le modèle central : capturer l'écran (perception), envoyer au modèle de vision pour analyse et planification (raisonnement), exécuter une action souris/clavier (action), puis observer les résultats et répéter jusqu'à ce que la tâche soit terminée.

Les agents d'utilisation d'ordinateur peuvent-ils fonctionner dans des environnements headless ?

Oui, en utilisant Xvfb (X Virtual Framebuffer) pour créer un affichage virtuel. La compétence montre comment configurer des conteneurs Docker avec Xvfb et VNC pour l'observation distante des actions de l'agent.

Combien de temps prend une tâche d'agent typique ?

Chaque cycle perception-raisonnement-action prend 1 à 5 secondes pour l'inférence du modèle plus le temps d'exécution de l'action. Les tâches simples peuvent prendre 10 à 30 secondes tandis que les flux de travail complexes peuvent prendre plusieurs minutes.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

المستودع

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-use-agents

مرجع

main

بنية الملفات

📄 SKILL.md