إتقان هندسة RAG7 / 10

التقييم — لا يمكنك تحسين ما لا تقيسه

بدون مجموعة تقييم، كل تغيير في RAG مجرد انطباع. مع واحدة، تضبط التقسيم والاسترجاع والإشارات برقم يخبرك إن كنت ساعدت أم أضررت.

نُشر بتاريخ 15 مايو 20261 دقيقة قراءةهيثم رحومة · Claude Mastery

هذا هو المقال الذي يحول RAG من التخمين إلى الهندسة. مجموعة التقييم قائمة ثابتة من الأسئلة بإجابات معروفة الجودة (أو مصادر معروفة الملاءمة). شغلها بعد كل تغيير وستحصل على رقم — هل ساعد هذا أم أضر؟

بناء المجموعة أولاً

اجمع 30–100 سؤال حقيقي (من المستخدمين، تذاكر الدعم، التوثيق). الحقيقي أفضل من المختلق.
لكل واحد، حدد قطعة(قطع) المصدر ذات الصلة وإجابة مرجعية.
أدرج الحالات الصعبة: الأسئلة الغامضة والمتعددة المراحل وخارج النطاق (يجب أن تكون الإجابة "لا أعرف").

المقاييس التي تهم

Retrieval recall@k — هل قطعة المصدر ذات الصلة ضمن أفضل k؟ هذا سقفك؛ أصلحه أولاً.
Faithfulness — هل كل ادعاء في الإجابة مدعوم بالسياق المسترجع؟ يكتشف الهلوسة.
Answer relevance — هل الإجابة تخاطب السؤال فعلاً؟

LLM-as-judge، بمسؤولية

نموذج قوي يمكنه أن يسجل الصدق والملاءمة على نطاق واسع. استخدمه — لكن معايرة ضد التسميات البشرية على عينة، أعط الحكم دليل صارم، ولا تدعه يقيم أسلوب مولده الخاص.

مع رقم لتحسينه، كل قرار لاحق — الحراس، التكلفة، البنية المعمارية — يصبح قابلاً للقياس بدلاً من أن يكون عقائدياً.

بناء المجموعة أولاً

المقاييس التي تهم

LLM-as-judge، بمسؤولية

مهارات Claude ذات الصلة جاهزة للتثبيت

شارك هذا المقال

السلسلة — إتقان هندسة RAG

تابع التعلّم

دورة Claude Mastery