المهارات llm-evaluation
🧪

llm-evaluation

آمن 🌐 الوصول إلى الشبكة⚙️ الأوامر الخارجية

إنشاء خطط تقييم موثوقة لنماذج اللغة الكبيرة

تحتاج إلى طرق متسقة لقياس جودة نماذج اللغة الكبيرة والكشف عن التراجع. توفر هذه المهارة مقاييس وإرشادات المراجعة البشرية وأطر اختبار لتقييم موثوق للذكاء الاصطناعي.

يدعم: Claude Codex Code(CC)
📊 69 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "llm-evaluation". اقترح خطة تقييم لمساعد الاسترجاع والتوليد.

النتيجة المتوقعة:

  • المقاييس الآلية: MRR و NDCG و الدقة عند K
  • التقييمات البشرية: الدقة والملاءمة والفائدة
  • الحكم بنموذج اللغة الكبيرة: مقارنة ثنائية للإجابات النهائية
  • قاعدة التراجع: فشل إذا انخفضت الدقة أكثر من 5 بالمائة

استخدام "llm-evaluation". ما المقاييس التي يجب أن أستخدمها لتقييم نموذج التلخيص؟

النتيجة المتوقعة:

  • ROUGE للتداخل n-gram مع ملخصات المرجع
  • BERTScore للتشابه الدلالي باستخدام التضمينات
  • درجة الواقعية للتحقق من الادعاءات مقابل النص المصدر
  • تقييم قابلية القراءة البشرية للاتساق والسلاسة

استخدام "llm-evaluation". كيف أكتشف إذا كان نموذج يتراجع؟

النتيجة المتوقعة:

  • خزن درجات خط الأساس من نموذج مرجع أو إصدار سابق
  • قارن درجات النموذج الجديد مع خط الأساس على نفس مجموعة الاختبار
  • علم المقاييس حيث يتجاوز التغيير النسبي عتبتك
  • أجرِ اختبار الأهمية الإحصائية لتأكيد الاختلافات الحقيقية

التدقيق الأمني

آمن
v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

2
الملفات التي تم فحصها
649
الأسطر التي تم تحليلها
2
النتائج
4
إجمالي عمليات التدقيق
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
85
المحتوى
21
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

بوابة التراجع في التكامل المستمر

صمم قائمة تحقق للتقييم وعتبات لحظر تغييرات النموذج التي تقلل الجودة.

ملخص مقارنة النماذج

قارن بين خيارين من النماذج باستخدام التقييمات البشرية والدرجات الآلية لمذكرة قرار.

خطة دراسة المعايير

أنشئ خطة معيارية مع مجموعات البيانات والمقاييس وهيكل التقارير.

جرّب هذه الموجهات

خطة تقييم أولية
أنشئ خطة تقييم أساسية مع 3 مقاييس آلية ومعيارين بشريين لروبوت دردشة دعم العملاء.
دليل اختيار المقاييس
أوصِ بمقاييس للتلخيص واشرح ما يلتقطه كل منها وحدد قيدًا واحدًا لكل مقياس.
مطلب الحكم بنموذج اللغة الكبيرة
صغ مطلب حكم ثنائي المقارنة لنموذج اللغة الكبيرة لمقارنة الاستجابة أ وب من حيث الدقة والفائدة والوضوح.
تحليل الاختبار المقارن
صف خطة الاختبار الإحصائي للتقييم المقارن، بما في ذلك إرشادات حجم العينة وتقارير حجم الأثر.

أفضل الممارسات

  • استخدم مقاييس متعددة والمراجعة البشرية معًا
  • اختبر ببيانات تمثيلية ومتنوعة
  • تتبع خطوط الأساس والأهمية الإحصائية

تجنب

  • الاعتماد على مقياس واحد
  • الاختبار على بيانات التدريب
  • تجاهل التباين في العينات الصغيرة

الأسئلة المتكررة

هل هذا متوافق مع كلود وكوديكس؟
نعم، التوجيه محايد للنموذج وينطبق على كلود وكوديكس وكلود كود ونماذج اللغة الكبيرة الأخرى.
ما حدود هذه المهارة؟
يوفر التوجيه والأمثلة ولكن لا يوجد خط تقييم قابل للتنفيذ في هذا الدليل.
كيف أتكامل مع مجموعتي التقنية؟
اعكس المقاييس وسير العمل على أدوات التقييم أو التكامل المستمر الموجودة لديك.
هل يصل إلى بياناتي أو يخزنها؟
لا، إنه وثائق ثابتة ولا يقرأ أو ينقل البيانات.
ماذا لو كانت الدرجات غير مستقرة؟
قم بزيادة حجم العينة وراجع التباين وأضف التحقق البشري قبل اتخاذ القرارات.
كيف يختلف هذا عن قائمة المعايير؟
يجمع بين المقاييس والمراجعة البشرية واستراتيجية الاختبار بدلاً من مجرد سرد المعايير.

تفاصيل المطور

بنية الملفات

📄 SKILL.md