pinchbench
Evalúa el Rendimiento del Agente OpenClaw en 23 Tareas del Mundo Real
Probar modelos LLM como agentes de IA requiere una evaluación consistente y medible. PinchBench proporciona 23 tareas diversas que abarcan gestión de calendarios, manejo de correos, investigación, programación y flujos de trabajo de múltiples pasos con calificación automatizada y envío al tablero de posiciones público.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "pinchbench". Ejecuta PinchBench con claude-sonnet-4 en tareas automatizadas
Resultado esperado:
Evaluación completada: 15/23 tareas ejecutadas. Puntuación general: 0.78. Mejores resultados: task_00_sanity (0.95), task_01_calendar (0.89), task_07_email (0.85). Tareas que requieren revisión: task_16_email_triage (0.42), task_18_market_research (0.38). Tiempo total de ejecución: 47 minutos. Eficiencia de tokens: 2.3 puntos de puntuación por cada 1000 tokens.
Usando "pinchbench". Compara claude-sonnet-4 vs claude-opus-4 en tareas de programación
Resultado esperado:
Resultados de comparación de modelos: promedio de claude-sonnet-4: 0.72, promedio de claude-opus-4: 0.84. Opus-4 muestra mejora significativa en task_04_weather (+0.25) y task_10_workflow (+0.18). Sonnet-4 tiene un rendimiento comparable en task_00_sanity. Análisis de costos: Opus-4 cuesta 2.3x más por tarea pero ofrece puntuaciones un 17% más altas.
Auditoría de seguridad
Riesgo bajoStatic analysis flagged 573 potential issues, but evaluation confirms most are false positives. Critical findings (recursive delete, pipe-to-shell) reference standard Docker installation patterns from trusted sources. High-severity 'weak crypto' findings detect MD5 used for checksums, not security. Markdown documentation backticks were misidentified as shell execution. True positives (subprocess, network, env access) are expected for benchmark functionality and properly scoped.
Problemas de riesgo medio (1)
Problemas de riesgo bajo (2)
Factores de riesgo
⚙️ Comandos externos (2)
🌐 Acceso a red (2)
🔑 Variables de entorno (2)
Puntuación de calidad
Lo que puedes crear
Comparación de Modelos para Selección de Agentes
Compara múltiples modelos LLM para determinar cuál funciona mejor como agente OpenClaw para tus casos de uso específicos.
Monitoreo Continuo del Rendimiento
Rastrea el rendimiento del agente a lo largo del tiempo a medida que los modelos se actualizan o las configuraciones cambian.
Contribución de Evaluación Comunitaria
Envía tus resultados de evaluación al tablero de posiciones público para ayudar a la comunidad a comprender las capacidades de los modelos.
Prueba estos prompts
Ejecuta PinchBench con el modelo Claude Sonnet 4 en todas las tareas automatizadas. Muéstrame la puntuación general e identifica las 3 tareas con mejor y peor rendimiento.
Ejecuta la evaluación de PinchBench solo para task_01_calendar, task_02_stock y task_09_files. Compara los resultados entre los modelos anthropic/claude-sonnet-4 y anthropic/claude-3-5-sonnet.
Ejecuta el conjunto completo de PinchBench con el modelo anthropic/claude-opus-4. Valida el modelo primero, ejecuta las 23 tareas con 2 ejecuciones cada una para promediar, y envía los resultados al tablero de posiciones de PinchBench usando mi token API registrado.
Ejecuta las tareas automatizadas de PinchBench y genera un informe de eficiencia de tokens. Muestra la puntuación por token y la puntuación por dólar para cada tarea. Identifica qué tareas tienen las proporciones de eficiencia más altas y más bajas.
Mejores prácticas
- Ejecuta las evaluaciones con al menos 2-3 ejecuciones por tarea para tener en cuenta la varianza en las salidas de LLM
- Usa el indicador --no-upload durante el desarrollo para evitar contaminar el tablero de posiciones con resultados de prueba
- Regístrate para obtener un token API antes del primer envío y almacena OPENROUTER_API_KEY de forma segura en el entorno
Evitar
- No envíes resultados de evaluación de definiciones de tareas modificadas - los resultados serán rechazados
- Evita ejecutar el conjunto completo de evaluación sin --timeout-multiplier para modelos más lentos
- No compartas tokens API ni los guardes en el control de versiones
Preguntas frecuentes
¿Qué es PinchBench y qué mide?
¿Cómo envío resultados al tablero de posiciones?
¿Puedo ejecutar evaluaciones sin conexión a internet?
¿Cuánto tiempo toma una ejecución completa de evaluación?
¿Qué modelos son compatibles?
¿Cómo se califican las tareas?
Detalles del desarrollador
Estructura de archivos