📦

pinchbench

Name: pinchbench
Author: pinchbench

Riesgo bajo ⚙️ Comandos externos🌐 Acceso a red🔑 Variables de entorno

Evalúa el Rendimiento del Agente OpenClaw en 23 Tareas del Mundo Real

Probar modelos LLM como agentes de IA requiere una evaluación consistente y medible. PinchBench proporciona 23 tareas diversas que abarcan gestión de calendarios, manejo de correos, investigación, programación y flujos de trabajo de múltiples pasos con calificación automatizada y envío al tablero de posiciones público.

Soporta: Claude Codex Code(CC)

🥉 75 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "pinchbench". Ejecuta PinchBench con claude-sonnet-4 en tareas automatizadas

Resultado esperado:

Evaluación completada: 15/23 tareas ejecutadas. Puntuación general: 0.78. Mejores resultados: task_00_sanity (0.95), task_01_calendar (0.89), task_07_email (0.85). Tareas que requieren revisión: task_16_email_triage (0.42), task_18_market_research (0.38). Tiempo total de ejecución: 47 minutos. Eficiencia de tokens: 2.3 puntos de puntuación por cada 1000 tokens.

Usando "pinchbench". Compara claude-sonnet-4 vs claude-opus-4 en tareas de programación

Resultado esperado:

Resultados de comparación de modelos: promedio de claude-sonnet-4: 0.72, promedio de claude-opus-4: 0.84. Opus-4 muestra mejora significativa en task_04_weather (+0.25) y task_10_workflow (+0.18). Sonnet-4 tiene un rendimiento comparable en task_00_sanity. Análisis de costos: Opus-4 cuesta 2.3x más por tarea pero ofrece puntuaciones un 17% más altas.

Auditoría de seguridad

Riesgo bajo

v1 • 3/19/2026

Static analysis flagged 573 potential issues, but evaluation confirms most are false positives. Critical findings (recursive delete, pipe-to-shell) reference standard Docker installation patterns from trusted sources. High-severity 'weak crypto' findings detect MD5 used for checksums, not security. Markdown documentation backticks were misidentified as shell execution. True positives (subprocess, network, env access) are expected for benchmark functionality and properly scoped.

Archivos escaneados

7,944

Líneas analizadas

hallazgos

Auditorías totales

Problemas de riesgo medio (1)

scripts/benchmark.py:277-284

Subprocess Execution for External Commands

Python subprocess.run used to execute git commands and OpenClaw CLI. Arguments are hardcoded or validated, but subprocess execution always carries injection risk if inputs are not properly sanitized.

Problemas de riesgo bajo (2)

scripts/lib_agent.py:59-67

Environment Variable Access for API Keys

Script reads OPENROUTER_API_KEY from environment for model validation. This is standard practice but requires users to properly secure their API keys.

scripts/lib_agent.py:68-93

Network Requests to External APIs

HTTP requests made to openrouter.ai for model validation and pinchbench.com for result uploads. All endpoints are official and documented.

Factores de riesgo

⚙️ Comandos externos (2)

scripts/benchmark.py:277-284 scripts/lib_agent.py:136

🌐 Acceso a red (2)

scripts/lib_agent.py:68-93 scripts/lib_upload.py:19

🔑 Variables de entorno (2)

scripts/lib_agent.py:59-67 scripts/benchmark.py:270

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Comparación de Modelos para Selección de Agentes

Compara múltiples modelos LLM para determinar cuál funciona mejor como agente OpenClaw para tus casos de uso específicos.

Monitoreo Continuo del Rendimiento

Rastrea el rendimiento del agente a lo largo del tiempo a medida que los modelos se actualizan o las configuraciones cambian.

Contribución de Evaluación Comunitaria

Envía tus resultados de evaluación al tablero de posiciones público para ayudar a la comunidad a comprender las capacidades de los modelos.

Prueba estos prompts

Ejecución Rápida de Evaluación

Ejecuta PinchBench con el modelo Claude Sonnet 4 en todas las tareas automatizadas. Muéstrame la puntuación general e identifica las 3 tareas con mejor y peor rendimiento.

Prueba de Tareas Específicas

Ejecuta la evaluación de PinchBench solo para task_01_calendar, task_02_stock y task_09_files. Compara los resultados entre los modelos anthropic/claude-sonnet-4 y anthropic/claude-3-5-sonnet.

Evaluación Completa con Envío al Tablero de Posiciones

Ejecuta el conjunto completo de PinchBench con el modelo anthropic/claude-opus-4. Valida el modelo primero, ejecuta las 23 tareas con 2 ejecuciones cada una para promediar, y envía los resultados al tablero de posiciones de PinchBench usando mi token API registrado.

Análisis de Eficiencia de Tokens

Ejecuta las tareas automatizadas de PinchBench y genera un informe de eficiencia de tokens. Muestra la puntuación por token y la puntuación por dólar para cada tarea. Identifica qué tareas tienen las proporciones de eficiencia más altas y más bajas.

Mejores prácticas

Ejecuta las evaluaciones con al menos 2-3 ejecuciones por tarea para tener en cuenta la varianza en las salidas de LLM
Usa el indicador --no-upload durante el desarrollo para evitar contaminar el tablero de posiciones con resultados de prueba
Regístrate para obtener un token API antes del primer envío y almacena OPENROUTER_API_KEY de forma segura en el entorno

Evitar

No envíes resultados de evaluación de definiciones de tareas modificadas - los resultados serán rechazados
Evita ejecutar el conjunto completo de evaluación sin --timeout-multiplier para modelos más lentos
No compartas tokens API ni los guardes en el control de versiones

Preguntas frecuentes

¿Qué es PinchBench y qué mide?

PinchBench es un conjunto de evaluación con 23 tareas del mundo real que evalúan qué tan bien los modelos LLM funcionan como el cerebro de un agente OpenClaw. Mide la finalización de tareas en categorías como gestión de calendarios, manejo de correos, investigación, programación y flujos de trabajo de múltiples pasos.

¿Cómo envío resultados al tablero de posiciones?

Primero regístrate para obtener un token API usando 'uv run benchmark.py --register'. Luego ejecuta tu evaluación normalmente - los resultados se suben automáticamente si tienes un token válido. Ve los resultados en pinchbench.com.

¿Puedo ejecutar evaluaciones sin conexión a internet?

Sí, usa el indicador --no-upload para omitir el envío al tablero de posiciones. Sin embargo, la validación del modelo requiere acceso a internet para verificar la disponibilidad del modelo en OpenRouter.

¿Cuánto tiempo toma una ejecución completa de evaluación?

Una ejecución completa de las 23 tareas típicamente toma entre 30 y 60 minutos dependiendo de la velocidad del modelo y la configuración de tiempo de espera. Usa --suite automated-only para ejecuciones más rápidas, o --timeout-multiplier para ajustar los tiempos de espera para modelos más lentos.

¿Qué modelos son compatibles?

Cualquier modelo disponible a través de OpenRouter es compatible. Las opciones comunes incluyen anthropic/claude-sonnet-4, anthropic/claude-opus-4 y varios modelos de código abierto. Usa la función de validación de modelos para verificar la disponibilidad antes de ejecutar.

¿Cómo se califican las tareas?

Cada tarea tiene criterios de calificación automatizada definidos en su archivo markdown. La calificación produce una puntuación media entre 0 y 1, donde 1 indica la finalización perfecta de la tarea. Algunas tareas incluyen múltiples verificaciones que se promedian en la puntuación final.