المهارات agent-evaluation
🧪

agent-evaluation

آمن

تقييم واختبار أداء وكلاء LLM

يفشل وكلاء LLM في الإنتاج رغم نجاحهم في المعايير المرجعية. توفر هذه المهارة اختبارات السلوكية وتقييمات القدرات ومقاييس الموثوقية لاكتشاف المشكلات قبل النشر.

يدعم: Claude Codex Code(CC)
📊 71 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "agent-evaluation". تشغيل اختبار العقد السلوكية على وكيل دعم العملاء

النتيجة المتوقعة:

نتائج الاختبار: 5/5 ثوابت اجتازت 20 تشغيل اختبار. درجة الاتساق: 94%. تباين طفيف في نغمة الاستجابة في سيناريوهات الحمل العالي.

استخدام "agent-evaluation". اختبار عدائي لوكيل توليد الكود

النتيجة المتوقعة:

تم تحديد 3 أنماط فشل: (1) الفشل الصامت على بناء الجملة غير الصحيح، (2) الإجابات الخاطئة المفرطة الثقة على المواصفات الغامضة، (3) استنفاد الموارد على المهام العودية.

التدقيق الأمني

آمن
v1 • 2/24/2026

All static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.

1
الملفات التي تم فحصها
69
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
31
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

التحقق من الوكيل قبل الإنتاج

تشغيل اختبارات شاملة على الوكلاء قبل نشرهم في بيئات الإنتاج لاكتشاف الانحدارات وفجوات القدرات.

مقارنة واختيار الوكلاء

تقييم عدة تكوينات أو نماذج للوكلاء مقابل معايير موحدة لاختيار الأفضل أداءً لمهام محددة.

المراقبة المستمرة للوكلاء

تنفيذ مقاييس موثوقية واختبارات انحدار مستمرة لاكتشاف تدهور الأداء في الوكلاء المنشورين.

جرّب هذه الموجهات

اختبار الوكيل الأساسي
اختبار هذا الوكيل على مهمة بسيطة والتحقق من أن المخرجات تتطابق مع السلوك المتوقع. تشغيل الاختبار 3 مرات والإبلاغ عن أي تناقضات.
تعريف العقد السلوكية
تحديد الثوابت السلوكية التي يجب أن يحافظ عليها هذا الوكيل عبر جميع المدخلات. إنشاء حالات اختبار تتحقق من صحة كل ثابت.
مجموعة الاختبارات العدائية
تصميم حالات حدية ومدخلات عدائية يمكن أن تكسر هذا الوكيل. تضمين المدخلات السيئة والمطالبات الغامضة والقيود المتعارضة.
تحليل الموثوقية الإحصائي
تشغيل هذا الوكيل على نفس المهمة 10 مرات. تحليل توزيع المخرجات وحساب مقاييس الاتساق وتحديد أنماط الفشل.

أفضل الممارسات

  • تشغيل الاختبارات عدة مرات وتحليل التوزيعات الإحصائية بدلاً من النتائج الفردية
  • التركيز على الثوابت السلوكية بدلاً من المطابقة الدقيقة لسلسلة المخرجات
  • تضمين المدخلات العدائية التي تحاول بكشل نشط كسر الوكيل

تجنب

  • اختبار الوكلاء بتشغيلات واحدة - مخرجات LLM متغيرة وتتطلب تحليلاً إحصائياً
  • اختبار مسارات النجاح فقط - الحالات الحدية تكشف أنماط الفشل الحرجة
  • تحسين الوكلاء لمقاييس محددة بدلاً من أداء المهمة الفعلي

الأسئلة المتكررة

لماذا ينجح الوكلاء في المعايير المرجعية,但他们 يفشلون في الإنتاج؟
غالباً ما تستخدم المعايير المرجعية مهام نظيفة ومحددة جيداً بينما يشمل الإنتاج سيناريوهات غامضة وعالمية حقيقية. تسد هذه المهارة تلك الفجوة مع الاختبار السلوكي الذي يعكس حالات الاستخدام الفعلية.
كم مرة يجب تشغيل كل اختبار؟
3-5 تشغيلات كحد أدنى للاختبارات الأساسية، 10+ لتحليل الموثوقية الإحصائي. توفر المزيد من التشغيلات ثقة أفضل في مقاييس الاتساق لكنها تزيد وقت التقييم.
ما هو العقد السلوكي؟
يحدد العقد السلوكية الثوابت التي يجب أن يحافظ عليها الوكيل - مثل عدم كشف البيانات الحساسة دائماً، أو طرح أسئلة توضيحية للمطالبات الغامضة، أو الحفاظ على نغمة متسقة عبر الجلسات.
هل يمكن لهذه المهارة اختبار أي نوع من وكلاء LLM؟
نعم، تنطبق منهجيات التقييم على الوكلاء المحادثيين ووكلاء توليد الكود ووكلاء أتمتة المهام والأنظمة متعددة الوكلاء. يجب أن يتطابق تصميم الاختبار مع مجال الوكيل.
كيف أتعامل مع الاختبارات غير المستقرة؟
تقبّل أن بعض التباين متأصل في LLMs. استخدم العتبات الإحصائية (مثل معدل نجاح 90%) بدلاً من طلب اتساق 100%. تتبع عدم الاستقرار كمقياس بحد ذاته.
ما هو تسرب البيانات في تقييم الوكلاء؟
يحدث تسرب البيانات عندما تظهر بيانات الاختبار في بيانات التدريب أو المطالبات، مما يتسبب في درجات مبالغ فيها. تحقق دائماً من استقلالية مدخلات الاختبار عن أي بيانات رآها الوكيل.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md