agent-browser
Browser-Aufgaben mit KI-Agenten automatisieren
Auch verfügbar von: inference-sh-8,vercel-labs,inferencesh,inf-sh
Dieser Skill ermöglicht KI-Agenten, Browser-Interaktionen zu automatisieren, einschließlich Navigation, Formularausfüllung, Datenextraktion und visueller Aufzeichnung durch ein einfaches @e-Referenzsystem.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "agent-browser". Open https://example.com and get elements
Erwartetes Ergebnis:
Session started with ID: abc123. Elements found: @e1 [a] "Example Domain", @e2 [h1] "Example Domain", @e3 [p] "This domain is for use..."
Verwendung von "agent-browser". Fill login form and submit
Erwartetes Ergebnis:
Filled @e1 with 'user@example.com', filled @e2 with 'password123', clicked @e3. Navigation detected. Re-snapshot recommended.
Verwendung von "agent-browser". Take screenshot
Erwartetes Ergebnis:
Screenshot captured: {base64 encoded image data}, dimensions: 1920x1080
Sicherheitsaudit
Niedriges RisikoThis is a legitimate browser automation skill using Playwright via inference.sh CLI. The static scanner flagged 606 potential issues, but upon evaluation, all findings are false positives: external_commands detections are bash command examples in documentation, network detections are legitimate test URLs, and the heuristic 'dangerous combination' flag describes expected browser automation behavior (network access + code execution + session management). This skill provides standard web automation functionality for AI agents.
Probleme mit niedrigem Risiko (3)
Risikofaktoren
⚙️ Externe Befehle (5)
🌐 Netzwerkzugriff (2)
📁 Dateisystemzugriff (1)
Qualitätsbewertung
Was du bauen kannst
Automatisierte Formularübermittlung
Webformulare programmgesteuert ausfüllen und übermitteln zur Daten-Eingabeautomatisierung
Web-Content-Extraktion
Websites navigieren und strukturierte Daten für Forschung oder Überwachung extrahieren
Visuelle Browser-Tests
Browser-Interaktionen aufzeichnen, um visuelle Dokumentation zu erstellen oder Probleme zu debuggen
Probiere diese Prompts
Verwenden Sie den agent-browser-Skill, um [URL] zu öffnen und die Elementreferenzen für alle interaktiven Elemente auf der Seite zu erhalten.
Verwenden Sie Session [SESSION_ID], füllen Sie das Formularfeld mit Ref @e1 mit dem Text '[TEXT]', dann klicken Sie auf den Button mit Ref @e2.
Erstellen Sie einen vollseitigen Screenshot der aktuellen Session [SESSION_ID] und speichern Sie ihn.
Klicken Sie auf Element @e1 um zur nächsten Seite zu navigieren, dann erstellen Sie einen Snapshot und extrahieren Sie den gesamten Überschriftentext von der neuen Seite.
Bewährte Verfahren
- Erstellen Sie nach der Navigation immer einen neuen Snapshot, um aktuelle Elementreferenzen zu erhalten
- Verwenden Sie explizite Wartezeiten nach Aktionen, die asynchrones Laden auslösen
- Schließen Sie Sitzungen nach Abschluss, um Browser-Ressourcen freizugeben
- Aktivieren Sie Video-Aufzeichnung nur bei Bedarf für Debugging-Zwecke
Vermeiden
- Verwendung von Element-Referenzen einer vorherigen Seite ohne erneuten Snapshot
- Keine Behandlung von Navigation nach Klick-Aktionen
- Leaken von Session-IDs oder keine Verwaltung des Session-Lebenszyklus
- Versuch, mit Elementen zu interagieren, die möglicherweise nicht sichtbar sind