agent-browser
Web-Browsing mit KI-Agenten automatisieren
Auch verfügbar von: toolshell,inference-sh-8,inferencesh,inferen-sh,inference-sh-0,inference-sh-9,supercent-io,inference-shell,tul-sh,inf-sh,vercel-labs
KI-Agenten müssen mit Websites interagieren, verfügen aber nicht über Browser-Funktionen. Diese Fähigkeit bietet Headless-Browser-Automatisierung über inference.sh und ermöglicht Claude, Codex und Claude Code, Seiten zu navigieren, Formulare auszufüllen, Screenshots zu erstellen und Sitzungen aufzuzeichnen.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "agent-browser". Open https://example.com and identify the login form elements
Erwartetes Ergebnis:
Page loaded successfully. Found 3 interactive elements:
@e1 [input type='text'] placeholder='Username'
@e2 [input type='password'] placeholder='Password'
@e3 [button] 'Sign In'
Verwendung von "agent-browser". Fill and submit the login form with test credentials
Erwartetes Ergebnis:
Form submitted. Page redirected to dashboard.
@e1 [h1] 'Welcome, Test User'
@e2 [nav] 'Dashboard | Settings | Logout'
Screenshot captured.
Verwendung von "agent-browser". Take a screenshot of the dashboard
Erwartetes Ergebnis:
Screenshot saved to dashboard-20240101.png
Page title: Dashboard | Size: 1280x720
Dashboard contains: navigation menu, user profile card, data tables, action buttons
Sicherheitsaudit
SicherAll static findings are false positives. The skill uses the inference.sh CLI (infsh) to control a headless browser via documented command invocations. External command detections are hardcoded API calls to a legitimate service. Network detections are target URLs for browsing, not exfiltration. Filesystem detections are documentation navigation (../) and standard device paths. Password/crypto detections are documentation showing credential input handling, not cryptography.
Risikofaktoren
⚙️ Externe Befehle (4)
🌐 Netzwerkzugriff (4)
📁 Dateisystemzugriff (2)
Qualitätsbewertung
Was du bauen kannst
Recherche und Datenextraktion
KI-Agenten durchsuchen Websites, um Informationen zu sammeln, strukturierte Daten aus Seiten zu extrahieren und Recherchberichte ohne manuelles Surfen zu erstellen.
Automatisierte Formularübermittlung
KI-Agenten füllen Webformulare aus und übermitteln sie für Aufgaben wie Terminbuchungen, Kontoregistrierungen oder Stapeldateneingabe.
Browser-basierte Tests
QA-Ingenieure nutzen KI-Agenten, um Websites zu durchsuchen, Screenshots zu erstellen und Test-Sitzungen aufzuzeichnen, um die UI-Funktionalität zu überprüfen.
Probiere diese Prompts
Use the agent-browser skill to open https://example.com and show me all the clickable elements on the page.
Open the contact form at https://example.com/contact. Fill in name with 'John Doe', email with 'john@example.com', and submit the form. Take a screenshot of the result.
Login to https://app.example.com using the credentials from environment variables. Navigate to the dashboard, extract all table data, and save a screenshot of the final page.
Record a video while browsing example.com/products. Click through 5 products, fill out an inquiry form for the last product, and close the session to save the recording.
Bewährte Verfahren
- Immer nach Navigation oder DOM-Änderungen neu snapshotten; Element-Referenzen verfallen nach Seitenladen
- Umgebungsvariablen für Anmeldedaten verwenden; Passwörter niemals direkt in Skripten hardcodieren
- Sitzungen bei Beendigung schließen; Videoaufzeichnungen sind nur bis zum Aufruf von close verfügbar
Vermeiden
- Element-Referenzen nicht über verschiedene Seiten hinweg zwischenspeichern; immer nach Navigation snapshotten
- Anmeldedaten nicht hardcodieren; Umgebungsvariablen wie $APP_USERNAME und $APP_PASSWORD verwenden
- Wartezeiten nach Aktionen nicht überspringen; Seiten vollständig laden lassen, bevor interagiert wird