هندسة الأنظمة الذكية — إتقان5 / 9

خطوط أنابيب التقييم كبنية تحتية

في أنظمة الذكاء الاصطناعي، التقييم ليس ضمان جودة تجريه في النهاية — بل هو بنية تحتية تبنيها أولاً. بدونها، كل تغيير هو صلاة.

نُشر بتاريخ 13 مايو 20261 دقيقة قراءةهيثم رحومة · Claude Mastery

في البرامج العادية، الاختبارات إما تنجح أو تفشل وتكتبها أثناء التقدم. في أنظمة الذكاء الاصطناعي، "الصحيح" غامض والمخرجات متغيرة — لذلك يتوقف التقييم عن كونه ضمان جودة ويصبح بنية تحتية تقيمها قبل تحسين أي شيء.

غير متصل: مجموعة التقييم

مجموعة منتقاة من المدخلات الممثلة مع إجابات مرجعية أو معايير. شغّلها على كل تغيير للمطالبة، أو تبديل نموذج، أو تعديل استرجاع وستحصل على رقم — هل ساعد هذا أم أضر؟ أدرج الحالات الصعبة والخارجة عن النطاق، وليس فقط الحالات السعيدة.

متصل: مقاييس الإنتاج

الغير متصل لا يمكنه اكتشاف كل شيء. تتبع الإشارات المتصلة — الإبهام للأعلى/للأسفل، إكمال المهمة، معدل التصعيد، معدل إعادة التوليد — وأرجع الحالات المفاجئة من الإنتاج إلى مجموعة التقييم. مجموعة التقييم هي أصل حي.

LLM-as-judge، مع الحواجز

نموذج قوي يمكنه تصنيف الجودة على نطاق واسع، لكن:

أعطه معيار صارم، لا "هل هذا جيد؟"
اضبط ضد التسميات البشرية على عينة.
استخدم نموذج/عدسة مختلفة عن تلك التي يتم تصنيفها حيث يهم التحيز.

بوابة التغييرات في CI

يمكنك الآن القياس. التالي: جعل النظام ميسور التكلفة — هندسة التكلفة.

غير متصل: مجموعة التقييم

متصل: مقاييس الإنتاج

LLM-as-judge، مع الحواجز

بوابة التغييرات في CI

مهارات Claude ذات الصلة جاهزة للتثبيت

شارك هذا المقال

السلسلة — هندسة الأنظمة الذكية — إتقان

تابع التعلّم

دورة Claude Mastery