pinchbench
قياس أداء وكيل OpenClaw عبر 23 مهمة من العالم الحقيقي
اختبار نماذج LLM كوكلاء ذكاء اصطناعي يتطلب تقييماً متسقاً وقابلاً للقياس. يوفر PinchBench 23 مهمة متنوعة تشمل إدارة التقويم، والتعامل مع البريد الإلكتروني، والبحث، والبرمجة، وسير العمل متعدد الخطوات مع تصحيح تلقائي وإرسال إلى لوحة المتصدرين العامة.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“pinchbench”。 شغّل PinchBench مع claude-sonnet-4 على المهام الآلية
预期结果:
اكتمل القياس: تم تنفيذ 15/23 مهمة. النتيجة الإجمالية: 0.78. الأفضل أداءً: task_00_sanity (0.95)، task_01_calendar (0.89)، task_07_email (0.85). مهام تتطلب مراجعة: task_16_email_triage (0.42)، task_18_market_research (0.38). وقت التنفيذ الإجمالي: 47 دقيقة. كفاءة التوكنز: 2.3 نقطة نتيجة لكل 1000 توكن.
正在使用“pinchbench”。 قارن claude-sonnet-4 مع claude-opus-4 على مهام البرمجة
预期结果:
نتائج مقارنة النماذج: claude-sonnet-4 متوسط: 0.72، claude-opus-4 متوسط: 0.84. يُظهر Opus-4 تحسناً ملحوظاً في task_04_weather (+0.25) وtask_10_workflow (+0.18). Sonnet-4 يؤدي بشكل مماثل في task_00_sanity. تحليل التكلفة: Opus-4 يكلف 2.3x أكثر لكل مهمة لكنه يقدم نتائج أعلى بنسبة 17%.
安全审计
低风险Static analysis flagged 573 potential issues, but evaluation confirms most are false positives. Critical findings (recursive delete, pipe-to-shell) reference standard Docker installation patterns from trusted sources. High-severity 'weak crypto' findings detect MD5 used for checksums, not security. Markdown documentation backticks were misidentified as shell execution. True positives (subprocess, network, env access) are expected for benchmark functionality and properly scoped.
中风险问题 (1)
低风险问题 (2)
风险因素
⚙️ 外部命令 (2)
质量评分
你能构建什么
مقارنة النماذج لاختيار الوكيل
قارن نماذج LLM متعددة لتحديد أيها يؤدي أفضل كوكيل OpenClaw لحالات الاستخدام الخاصة بك.
المراقبة المستمرة للأداء
تتبع أداء الوكيل بمرور الوقت عند تحديث النماذج أو تغيير التكوينات.
المساهمة في معايير المجتمع
أرسل نتائج قياسك الخاصة إلى لوحة المتصدرين العامة لمساعدة المجتمع على فهم قدرات النماذج.
试试这些提示
شغّل PinchBench مع نموذج Claude Sonnet 4 على جميع المهام الآلية. أعطني النتيجة الإجمالية وحدد أفضل 3 مهام وأسوأ 3 مهام أداءً.
شغّل معيار PinchBench للمهام task_01_calendar وtask_02_stock وtask_09_files فقط. قارن النتائج بين anthropic/claude-sonnet-4 وanthropic/claude-3-5-sonnet.
نفّذ مجموعة PinchBench الكاملة مع نموذج anthropic/claude-opus-4. تحقق من النموذج أولاً، شغّل جميع 23 مهمة مع تشغيلين لكل مهمة للمتوسط، وأرسل النتائج إلى لوحة متصدري PinchBench باستخدام رمز API المسجل.
شغّل مهام PinchBench الآلية وأنشئ تقرير كفاءة التوكنز. اعرض النتيجة لكل توكن والنتيجة لكل دولار لكل مهمة. حدد المهام ذات نسب الكفاءة الأفضل والأسوأ.
最佳实践
- شغّل معايير الأداء مع 2-3 تشغيلات على الأقل لكل مهمة لمراعاة التباين في مخرجات LLM
- استخدم العلم --no-upload أثناء التطوير لتجنب تلويث لوحة المتصدرين بنتائج الاختبار
- سجّل للحصول على رمز API قبل الإرسال الأول واحفظ OPENROUTER_API_KEY بشكل آمن في البيئة
避免
- لا ترسل نتائج قياس من تعريفات مهام مُعدّلة - سيتم رفض النتائج
- تجنب تشغيل مجموعة القياس الكاملة بدون --timeout-multiplier للنماذج الأبطأ
- لا تشارك رموز API أو تلزمها في التحكم بالإصدار