技能 pinchbench
📦

pinchbench

低风险 ⚙️ 外部命令🌐 网络访问🔑 环境变量

قياس أداء وكيل OpenClaw عبر 23 مهمة من العالم الحقيقي

اختبار نماذج LLM كوكلاء ذكاء اصطناعي يتطلب تقييماً متسقاً وقابلاً للقياس. يوفر PinchBench 23 مهمة متنوعة تشمل إدارة التقويم، والتعامل مع البريد الإلكتروني، والبحث، والبرمجة، وسير العمل متعدد الخطوات مع تصحيح تلقائي وإرسال إلى لوحة المتصدرين العامة.

支持: Claude Codex Code(CC)
🥉 75 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“pinchbench”。 شغّل PinchBench مع claude-sonnet-4 على المهام الآلية

预期结果:

اكتمل القياس: تم تنفيذ 15/23 مهمة. النتيجة الإجمالية: 0.78. الأفضل أداءً: task_00_sanity (0.95)، task_01_calendar (0.89)، task_07_email (0.85). مهام تتطلب مراجعة: task_16_email_triage (0.42)، task_18_market_research (0.38). وقت التنفيذ الإجمالي: 47 دقيقة. كفاءة التوكنز: 2.3 نقطة نتيجة لكل 1000 توكن.

正在使用“pinchbench”。 قارن claude-sonnet-4 مع claude-opus-4 على مهام البرمجة

预期结果:

نتائج مقارنة النماذج: claude-sonnet-4 متوسط: 0.72، claude-opus-4 متوسط: 0.84. يُظهر Opus-4 تحسناً ملحوظاً في task_04_weather (+0.25) وtask_10_workflow (+0.18). Sonnet-4 يؤدي بشكل مماثل في task_00_sanity. تحليل التكلفة: Opus-4 يكلف 2.3x أكثر لكل مهمة لكنه يقدم نتائج أعلى بنسبة 17%.

安全审计

低风险
v1 • 3/19/2026

Static analysis flagged 573 potential issues, but evaluation confirms most are false positives. Critical findings (recursive delete, pipe-to-shell) reference standard Docker installation patterns from trusted sources. High-severity 'weak crypto' findings detect MD5 used for checksums, not security. Markdown documentation backticks were misidentified as shell execution. True positives (subprocess, network, env access) are expected for benchmark functionality and properly scoped.

40
已扫描文件
7,944
分析行数
6
发现项
1
审计总数
中风险问题 (1)
Subprocess Execution for External Commands
Python subprocess.run used to execute git commands and OpenClaw CLI. Arguments are hardcoded or validated, but subprocess execution always carries injection risk if inputs are not properly sanitized.
低风险问题 (2)
Environment Variable Access for API Keys
Script reads OPENROUTER_API_KEY from environment for model validation. This is standard practice but requires users to properly secure their API keys.
Network Requests to External APIs
HTTP requests made to openrouter.ai for model validation and pinchbench.com for result uploads. All endpoints are official and documented.
审计者: claude

质量评分

73
架构
100
可维护性
87
内容
23
社区
81
安全
91
规范符合性

你能构建什么

مقارنة النماذج لاختيار الوكيل

قارن نماذج LLM متعددة لتحديد أيها يؤدي أفضل كوكيل OpenClaw لحالات الاستخدام الخاصة بك.

المراقبة المستمرة للأداء

تتبع أداء الوكيل بمرور الوقت عند تحديث النماذج أو تغيير التكوينات.

المساهمة في معايير المجتمع

أرسل نتائج قياسك الخاصة إلى لوحة المتصدرين العامة لمساعدة المجتمع على فهم قدرات النماذج.

试试这些提示

تشغيل سريع للقياس
شغّل PinchBench مع نموذج Claude Sonnet 4 على جميع المهام الآلية. أعطني النتيجة الإجمالية وحدد أفضل 3 مهام وأسوأ 3 مهام أداءً.
اختبار مهام محددة
شغّل معيار PinchBench للمهام task_01_calendar وtask_02_stock وtask_09_files فقط. قارن النتائج بين anthropic/claude-sonnet-4 وanthropic/claude-3-5-sonnet.
قياس كامل مع إرسال للوحة المتصدرين
نفّذ مجموعة PinchBench الكاملة مع نموذج anthropic/claude-opus-4. تحقق من النموذج أولاً، شغّل جميع 23 مهمة مع تشغيلين لكل مهمة للمتوسط، وأرسل النتائج إلى لوحة متصدري PinchBench باستخدام رمز API المسجل.
تحليل كفاءة التوكنز
شغّل مهام PinchBench الآلية وأنشئ تقرير كفاءة التوكنز. اعرض النتيجة لكل توكن والنتيجة لكل دولار لكل مهمة. حدد المهام ذات نسب الكفاءة الأفضل والأسوأ.

最佳实践

  • شغّل معايير الأداء مع 2-3 تشغيلات على الأقل لكل مهمة لمراعاة التباين في مخرجات LLM
  • استخدم العلم --no-upload أثناء التطوير لتجنب تلويث لوحة المتصدرين بنتائج الاختبار
  • سجّل للحصول على رمز API قبل الإرسال الأول واحفظ OPENROUTER_API_KEY بشكل آمن في البيئة

避免

  • لا ترسل نتائج قياس من تعريفات مهام مُعدّلة - سيتم رفض النتائج
  • تجنب تشغيل مجموعة القياس الكاملة بدون --timeout-multiplier للنماذج الأبطأ
  • لا تشارك رموز API أو تلزمها في التحكم بالإصدار

常见问题

ما هو PinchBench وماذا يقيس؟
PinchBench هي مجموعة معايير مع 23 مهمة من العالم الحقيقي تقيّم مدى جودة أداء نماذج LLM كدماغ لوكيل OpenClaw. تقيس اكتمال المهام عبر فئات مثل إدارة التقويم، والتعامل مع البريد الإلكتروني، والبحث، والبرمجة، وسير العمل متعدد الخطوات.
كيف أرسل النتائج إلى لوحة المتصدرين؟
أولاً سجّل للحصول على رمز API باستخدام 'uv run benchmark.py --register'. ثم شغّل قياسك بشكل طبيعي - تُرفع النتائج تلقائياً إذا كان لديك رمز صالح. اعرض النتائج على pinchbench.com.
هل يمكنني تشغيل معايير الأداء بدون اتصال بالإنترنت؟
نعم، استخدم العلم --no-upload لتخطي إرسال لوحة المتصدرين. ومع ذلك، يتطلب التحقق من النموذج وصولاً للإنترنت للتحقق من توفر النموذج على OpenRouter.
كم تستغرق جولة القياس الكاملة؟
يستغرق التشغيل الكامل لجميع 23 مهمة عادةً 30-60 دقيقة اعتماداً على سرعة النموذج وإعدادات المهلة الزمنية. استخدم --suite automated-only للتشغيلات الأسرع، أو --timeout-multiplier لضبط المهل الزمنية للنماذج الأبطأ.
ما النماذج المدعومة؟
أي نموذج متاح عبر OpenRouter مدعوم. الخيارات الشائعة تشمل anthropic/claude-sonnet-4 وanthropic/claude-opus-4 ونماذج مفتوحة المصدر متنوعة. استخدم ميزة التحقق من النموذج للتحقق من التوفر قبل التشغيل.
كيف يتم تصحيح المهام؟
كل مهمة لديها معايير تصحيح آلية مُعرفة في ملف markdown الخاص بها. ينتج التصحيح نتيجة متوسطة بين 0 و1، حيث يشير 1 إلى اكتمال مثالي للمهمة. تتضمن بعض المهام تحققات متعددة تُحسب متوسطاً في النتيجة النهائية.