llm-evaluation
إنشاء خطط تقييم موثوقة لنماذج اللغة الكبيرة
تحتاج إلى طرق متسقة لقياس جودة نماذج اللغة الكبيرة والكشف عن التراجع. توفر هذه المهارة مقاييس وإرشادات المراجعة البشرية وأطر اختبار لتقييم موثوق للذكاء الاصطناعي.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "llm-evaluation". اقترح خطة تقييم لمساعد الاسترجاع والتوليد.
النتيجة المتوقعة:
- المقاييس الآلية: MRR و NDCG و الدقة عند K
- التقييمات البشرية: الدقة والملاءمة والفائدة
- الحكم بنموذج اللغة الكبيرة: مقارنة ثنائية للإجابات النهائية
- قاعدة التراجع: فشل إذا انخفضت الدقة أكثر من 5 بالمائة
استخدام "llm-evaluation". ما المقاييس التي يجب أن أستخدمها لتقييم نموذج التلخيص؟
النتيجة المتوقعة:
- ROUGE للتداخل n-gram مع ملخصات المرجع
- BERTScore للتشابه الدلالي باستخدام التضمينات
- درجة الواقعية للتحقق من الادعاءات مقابل النص المصدر
- تقييم قابلية القراءة البشرية للاتساق والسلاسة
استخدام "llm-evaluation". كيف أكتشف إذا كان نموذج يتراجع؟
النتيجة المتوقعة:
- خزن درجات خط الأساس من نموذج مرجع أو إصدار سابق
- قارن درجات النموذج الجديد مع خط الأساس على نفس مجموعة الاختبار
- علم المقاييس حيث يتجاوز التغيير النسبي عتبتك
- أجرِ اختبار الأهمية الإحصائية لتأكيد الاختلافات الحقيقية
التدقيق الأمني
آمنThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
عوامل الخطر
🌐 الوصول إلى الشبكة (1)
⚙️ الأوامر الخارجية (23)
درجة الجودة
ماذا يمكنك بناءه
بوابة التراجع في التكامل المستمر
صمم قائمة تحقق للتقييم وعتبات لحظر تغييرات النموذج التي تقلل الجودة.
ملخص مقارنة النماذج
قارن بين خيارين من النماذج باستخدام التقييمات البشرية والدرجات الآلية لمذكرة قرار.
خطة دراسة المعايير
أنشئ خطة معيارية مع مجموعات البيانات والمقاييس وهيكل التقارير.
جرّب هذه الموجهات
أنشئ خطة تقييم أساسية مع 3 مقاييس آلية ومعيارين بشريين لروبوت دردشة دعم العملاء.
أوصِ بمقاييس للتلخيص واشرح ما يلتقطه كل منها وحدد قيدًا واحدًا لكل مقياس.
صغ مطلب حكم ثنائي المقارنة لنموذج اللغة الكبيرة لمقارنة الاستجابة أ وب من حيث الدقة والفائدة والوضوح.
صف خطة الاختبار الإحصائي للتقييم المقارن، بما في ذلك إرشادات حجم العينة وتقارير حجم الأثر.
أفضل الممارسات
- استخدم مقاييس متعددة والمراجعة البشرية معًا
- اختبر ببيانات تمثيلية ومتنوعة
- تتبع خطوط الأساس والأهمية الإحصائية
تجنب
- الاعتماد على مقياس واحد
- الاختبار على بيانات التدريب
- تجاهل التباين في العينات الصغيرة
الأسئلة المتكررة
هل هذا متوافق مع كلود وكوديكس؟
ما حدود هذه المهارة؟
كيف أتكامل مع مجموعتي التقنية؟
هل يصل إلى بياناتي أو يخزنها؟
ماذا لو كانت الدرجات غير مستقرة؟
كيف يختلف هذا عن قائمة المعايير؟
تفاصيل المطور
المؤلف
wshobsonالترخيص
MIT
المستودع
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationمرجع
main
بنية الملفات
📄 SKILL.md