Habilidades agent-browser
🌐

agent-browser

Riesgo medio ⚙️ Comandos externos🌐 Acceso a red📁 Acceso al sistema de archivos

Automatizar tareas del navegador con agentes de IA

También disponible en: inferencesh,inferen-sh,skillssh,supercent-io,toolshell,tul-sh,inference-sh-8,inference-shell,inference-sh-0,inference-sh-9,vercel-labs,inf-sh

Los agentes de IA necesitan interactuar con páginas web pero carecen de capacidades de navegador. Esta habilidad proporciona automatización de navegador sin cabeza a través de comandos de shell simples, permitiendo web scraping, llenado de formularios y flujos de trabajo de pruebas automatizadas.

Soporta: Claude Codex Code(CC)
⚠️ 66 Deficiente
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "agent-browser". Abrir example.com y listar elementos clickeables

Resultado esperado:

Sesión iniciada: abc123
URL: https://example.com
Título: Example Domain

Elementos clickeables:
- @e1 [a] 'Más información...' href='https://example.com/about'
- @e2 [a] 'Dominios' href='https://example.com/domains'
- @e3 [button] 'Comenzar'
- @e4 [input type='email'] placeholder='Ingresa tu email'

Captura de pantalla guardada en: ./screenshots/example.com_20240101.png

Usando "agent-browser". Llenar formulario de inicio de sesión y verificar éxito

Resultado esperado:

Flujo de inicio de sesión completado:
1. Página de inicio de sesión abierta
2. Campo de email llenado con user@example.com
3. Campo de contraseña llenado
4. Botón de Iniciar sesión hecho clic
5. Esperé la redirección
6. Verifiqué que la URL cambió de /login a /dashboard
7. Capturé captura de pantalla del dashboard

ID de sesión: abc123 (activo)
Captura de pantalla: ./screenshots/dashboard_20240101.png

Auditoría de seguridad

Riesgo medio
v1 • 4/29/2026

Static analysis detected 606 potential security issues, primarily shell command patterns in documentation files. After evaluation, all findings are FALSE POSITIVES or informational. The skill is a legitimate browser automation tool that uses the belt CLI to control Playwright. Shell commands are documented usage examples, not execution vulnerabilities. Browser credential access and session state are expected behavior for this tool type.

10
Archivos escaneados
2,313
Líneas analizadas
7
hallazgos
1
Auditorías totales
Problemas de riesgo medio (4)
Shell Command Usage in Documentation
501 shell command patterns detected in documentation files (authentication.md, commands.md, proxy-support.md, etc.). These are example commands showing how to use the belt CLI tool, not actual code execution vulnerabilities.
Browser Credential and Storage Access
Skill accesses browser session state including cookies, LocalStorage, and SessionStorage. This is expected behavior for browser automation tools and is documented for legitimate use cases.
Network Access for Browser Service
Skill communicates with inference.sh service for browser control. URLs in documentation are legitimate service endpoints.
Path Traversal Patterns in Documentation
Path traversal patterns (../) found in documentation are relative paths for file references, not actual path traversal vulnerabilities.
Auditado por: claude

Puntuación de calidad

45
Arquitectura
100
Mantenibilidad
87
Contenido
50
Comunidad
45
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Extracción de datos web para investigación

Extraer datos estructurados de sitios web navegando por páginas, llenando formularios de búsqueda y recopilando contenido de páginas. Útil para investigación de mercado, análisis de competidores y tareas de recopilación de datos.

Flujos de trabajo automatizados de envío de formularios

Automatizar tareas repetitivas de llenado de formularios como solicitudes de empleo, finalización de encuestas o entrada de datos. Manejar formularios de múltiples pasos con navegación condicional y verificación.

Pruebas de API basadas en navegador

Probar aplicaciones web que requieren contexto de navegador, como SPAs con autenticación del lado del cliente o flujos de trabajo intensivos en JavaScript. Capturar capturas de pantalla y video para documentación.

Prueba estos prompts

Abrir sitio web y explorar
Usar la habilidad agent-browser para abrir https://example.com, tomar una captura de pantalla y listar todos los elementos clickeables en la página.
Iniciar sesión y verificar acceso
Usar agent-browser para iniciar sesión en https://app.example.com con el email user@example.com y la contraseña de la variable de entorno PASSWORD. Después de iniciar sesión, verificar que se puede acceder a la página del dashboard y tomar una captura de pantalla.
Automatización de formularios de múltiples pasos
Crear un script usando agent-browser para llenar un formulario de registro de múltiples pasos: abrir el formulario, llenar el paso 1 con nombre y email, proceder al paso 2, llenar los detalles de dirección, enviar y verificar el mensaje de éxito.
Recopilación de datos en sesiones paralelas
Usar agent-browser para abrir tres páginas de productos diferentes en sesiones paralelas, extraer precios y disponibilidad de cada una, y cerrar todas las sesiones. Comparar los datos recopilados.

Mejores prácticas

  • Siempre usar variables de entorno para datos sensibles como contraseñas en lugar de hardcodear credenciales en scripts
  • Volver a capturar la página después de cualquier navegación o cambios en el DOM para obtener referencias frescas de elementos antes de interactuar
  • Habilitar la grabación de video solo durante la depuración para evitar capturar información sensible en producción

Evitar

  • No hardcodear contraseñas o claves API directamente en scripts o argumentos de comandos
  • No omitir el paso de snapshot después de la navegación de página - las referencias de elementos obsoletas causarán fallos
  • No dejar sesiones abiertas innecesariamente - siempre cerrar sesiones cuando se termine para liberar recursos

Preguntas frecuentes

¿Qué es inference.sh y por qué es requerido?
Inference.sh es el servicio en la nube que ejecuta el navegador sin cabeza. Necesitas una cuenta para usar la herramienta CLI de belt de la cual depende esta habilidad.
¿Puede esta habilidad evadir CAPTCHAs?
No, esta habilidad no puede evadir CAPTCHAs o sistemas avanzados de detección de bots. Solo funciona con páginas web estándar.
¿Cómo manejo páginas de inicio de sesión que requieren autenticación de dos factores?
Usar la característica de persistencia de sesión para completar el paso de 2FA manualmente, luego dejar que el agente de IA continúe con la sesión autenticada.
¿Por qué mis referencias de elementos no funcionan?
Las referencias de elementos se vuelven obsoletas después de navegación de página o cambios de contenido dinámico. Siempre llamar a la función de snapshot para obtener referencias frescas.
¿Puedo ejecutar múltiples sesiones de navegador a la vez?
Sí, puedes crear múltiples sesiones paralelas usando diferentes IDs de sesión. Cada sesión mantiene su propio contexto de navegador.
¿Cómo guardo capturas de pantalla o videos?
Las capturas de pantalla se devuelven como datos base64 o archivos. Habilitar record_video durante open para capturar video, que se devuelve cuando cierras la sesión.