agent-evaluation
تقييم واختبار أداء وكلاء LLM
يفشل وكلاء LLM في الإنتاج رغم نجاحهم في المعايير المرجعية. توفر هذه المهارة اختبارات السلوكية وتقييمات القدرات ومقاييس الموثوقية لاكتشاف المشكلات قبل النشر.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "agent-evaluation". تشغيل اختبار العقد السلوكية على وكيل دعم العملاء
Résultat attendu:
نتائج الاختبار: 5/5 ثوابت اجتازت 20 تشغيل اختبار. درجة الاتساق: 94%. تباين طفيف في نغمة الاستجابة في سيناريوهات الحمل العالي.
Utilisation de "agent-evaluation". اختبار عدائي لوكيل توليد الكود
Résultat attendu:
تم تحديد 3 أنماط فشل: (1) الفشل الصامت على بناء الجملة غير الصحيح، (2) الإجابات الخاطئة المفرطة الثقة على المواصفات الغامضة، (3) استنفاد الموارد على المهام العودية.
Audit de sécurité
SûrAll static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.
Score de qualité
Ce que vous pouvez construire
التحقق من الوكيل قبل الإنتاج
تشغيل اختبارات شاملة على الوكلاء قبل نشرهم في بيئات الإنتاج لاكتشاف الانحدارات وفجوات القدرات.
مقارنة واختيار الوكلاء
تقييم عدة تكوينات أو نماذج للوكلاء مقابل معايير موحدة لاختيار الأفضل أداءً لمهام محددة.
المراقبة المستمرة للوكلاء
تنفيذ مقاييس موثوقية واختبارات انحدار مستمرة لاكتشاف تدهور الأداء في الوكلاء المنشورين.
Essayez ces prompts
اختبار هذا الوكيل على مهمة بسيطة والتحقق من أن المخرجات تتطابق مع السلوك المتوقع. تشغيل الاختبار 3 مرات والإبلاغ عن أي تناقضات.
تحديد الثوابت السلوكية التي يجب أن يحافظ عليها هذا الوكيل عبر جميع المدخلات. إنشاء حالات اختبار تتحقق من صحة كل ثابت.
تصميم حالات حدية ومدخلات عدائية يمكن أن تكسر هذا الوكيل. تضمين المدخلات السيئة والمطالبات الغامضة والقيود المتعارضة.
تشغيل هذا الوكيل على نفس المهمة 10 مرات. تحليل توزيع المخرجات وحساب مقاييس الاتساق وتحديد أنماط الفشل.
Bonnes pratiques
- تشغيل الاختبارات عدة مرات وتحليل التوزيعات الإحصائية بدلاً من النتائج الفردية
- التركيز على الثوابت السلوكية بدلاً من المطابقة الدقيقة لسلسلة المخرجات
- تضمين المدخلات العدائية التي تحاول بكشل نشط كسر الوكيل
Éviter
- اختبار الوكلاء بتشغيلات واحدة - مخرجات LLM متغيرة وتتطلب تحليلاً إحصائياً
- اختبار مسارات النجاح فقط - الحالات الحدية تكشف أنماط الفشل الحرجة
- تحسين الوكلاء لمقاييس محددة بدلاً من أداء المهمة الفعلي