🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

آمن 🌐 الوصول إلى الشبكة⚙️ الأوامر الخارجية

إنشاء خطط تقييم موثوقة لنماذج اللغة الكبيرة

متاح أيضًا من: sickn33

تحتاج إلى طرق متسقة لقياس جودة نماذج اللغة الكبيرة والكشف عن التراجع. توفر هذه المهارة مقاييس وإرشادات المراجعة البشرية وأطر اختبار لتقييم موثوق للذكاء الاصطناعي.

يدعم: Claude Codex Code(CC)

📊 69 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "llm-evaluation". اقترح خطة تقييم لمساعد الاسترجاع والتوليد.

النتيجة المتوقعة:

المقاييس الآلية: MRR و NDCG و الدقة عند K
التقييمات البشرية: الدقة والملاءمة والفائدة
الحكم بنموذج اللغة الكبيرة: مقارنة ثنائية للإجابات النهائية
قاعدة التراجع: فشل إذا انخفضت الدقة أكثر من 5 بالمائة

استخدام "llm-evaluation". ما المقاييس التي يجب أن أستخدمها لتقييم نموذج التلخيص؟

النتيجة المتوقعة:

ROUGE للتداخل n-gram مع ملخصات المرجع
BERTScore للتشابه الدلالي باستخدام التضمينات
درجة الواقعية للتحقق من الادعاءات مقابل النص المصدر
تقييم قابلية القراءة البشرية للاتساق والسلاسة

استخدام "llm-evaluation". كيف أكتشف إذا كان نموذج يتراجع؟

النتيجة المتوقعة:

خزن درجات خط الأساس من نموذج مرجع أو إصدار سابق
قارن درجات النموذج الجديد مع خط الأساس على نفس مجموعة الاختبار
علم المقاييس حيث يتجاوز التغيير النسبي عتبتك
أجرِ اختبار الأهمية الإحصائية لتأكيد الاختلافات الحقيقية

التدقيق الأمني

آمن

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

الملفات التي تم فحصها

649

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

عوامل الخطر

🌐 الوصول إلى الشبكة (1)

skill-report.json:6

⚙️ الأوامر الخارجية (23)

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

بوابة التراجع في التكامل المستمر

صمم قائمة تحقق للتقييم وعتبات لحظر تغييرات النموذج التي تقلل الجودة.

ملخص مقارنة النماذج

قارن بين خيارين من النماذج باستخدام التقييمات البشرية والدرجات الآلية لمذكرة قرار.

خطة دراسة المعايير

أنشئ خطة معيارية مع مجموعات البيانات والمقاييس وهيكل التقارير.

جرّب هذه الموجهات

خطة تقييم أولية

أنشئ خطة تقييم أساسية مع 3 مقاييس آلية ومعيارين بشريين لروبوت دردشة دعم العملاء.

دليل اختيار المقاييس

أوصِ بمقاييس للتلخيص واشرح ما يلتقطه كل منها وحدد قيدًا واحدًا لكل مقياس.

مطلب الحكم بنموذج اللغة الكبيرة

صغ مطلب حكم ثنائي المقارنة لنموذج اللغة الكبيرة لمقارنة الاستجابة أ وب من حيث الدقة والفائدة والوضوح.

تحليل الاختبار المقارن

صف خطة الاختبار الإحصائي للتقييم المقارن، بما في ذلك إرشادات حجم العينة وتقارير حجم الأثر.

أفضل الممارسات

استخدم مقاييس متعددة والمراجعة البشرية معًا
اختبر ببيانات تمثيلية ومتنوعة
تتبع خطوط الأساس والأهمية الإحصائية

تجنب

الاعتماد على مقياس واحد
الاختبار على بيانات التدريب
تجاهل التباين في العينات الصغيرة

الأسئلة المتكررة

هل هذا متوافق مع كلود وكوديكس؟

نعم، التوجيه محايد للنموذج وينطبق على كلود وكوديكس وكلود كود ونماذج اللغة الكبيرة الأخرى.

ما حدود هذه المهارة؟

يوفر التوجيه والأمثلة ولكن لا يوجد خط تقييم قابل للتنفيذ في هذا الدليل.

كيف أتكامل مع مجموعتي التقنية؟

اعكس المقاييس وسير العمل على أدوات التقييم أو التكامل المستمر الموجودة لديك.

هل يصل إلى بياناتي أو يخزنها؟

لا، إنه وثائق ثابتة ولا يقرأ أو ينقل البيانات.

ماذا لو كانت الدرجات غير مستقرة؟

قم بزيادة حجم العينة وراجع التباين وأضف التحقق البشري قبل اتخاذ القرارات.

كيف يختلف هذا عن قائمة المعايير؟

يجمع بين المقاييس والمراجعة البشرية واستراتيجية الاختبار بدلاً من مجرد سرد المعايير.

تفاصيل المطور

المؤلف

wshobson

الترخيص

MIT

المستودع

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

مرجع

main

بنية الملفات

📄 SKILL.md