Skip to content

إتقان هندسة RAG7 / 10

التقييم — لا يمكنك تحسين ما لا تقيسه

بدون مجموعة تقييم، كل تغيير في RAG مجرد انطباع. مع واحدة، تضبط التقسيم والاسترجاع والإشارات برقم يخبرك إن كنت ساعدت أم أضررت.

التقييم — لا يمكنك تحسين ما لا تقيسه

هذا هو المقال الذي يحول RAG من التخمين إلى الهندسة. مجموعة التقييم قائمة ثابتة من الأسئلة بإجابات معروفة الجودة (أو مصادر معروفة الملاءمة). شغلها بعد كل تغيير وستحصل على رقم — هل ساعد هذا أم أضر؟

بناء المجموعة أولاً

  • اجمع 30–100 سؤال حقيقي (من المستخدمين، تذاكر الدعم، التوثيق). الحقيقي أفضل من المختلق.
  • لكل واحد، حدد قطعة(قطع) المصدر ذات الصلة وإجابة مرجعية.
  • أدرج الحالات الصعبة: الأسئلة الغامضة والمتعددة المراحل وخارج النطاق (يجب أن تكون الإجابة "لا أعرف").

المقاييس التي تهم

  • Retrieval recall@k — هل قطعة المصدر ذات الصلة ضمن أفضل k؟ هذا سقفك؛ أصلحه أولاً.
  • Faithfulness — هل كل ادعاء في الإجابة مدعوم بالسياق المسترجع؟ يكتشف الهلوسة.
  • Answer relevance — هل الإجابة تخاطب السؤال فعلاً؟

LLM-as-judge، بمسؤولية

نموذج قوي يمكنه أن يسجل الصدق والملاءمة على نطاق واسع. استخدمه — لكن معايرة ضد التسميات البشرية على عينة، أعط الحكم دليل صارم، ولا تدعه يقيم أسلوب مولده الخاص.

مع رقم لتحسينه، كل قرار لاحق — الحراس، التكلفة، البنية المعمارية — يصبح قابلاً للقياس بدلاً من أن يكون عقائدياً.

شارك هذا المقال

#Eval #RAG #AI

LinkedInX / TwitterBlueskyThreadsRedditHacker NewsWhatsAppبريد إلكتروني

السلسلة — إتقان هندسة RAG

  1. الجزء 01لماذا يفشل نظام RAG البسيط في الإنتاجعرض البحث المتجه بـ 50 سطر الذي يبهر في دفتر الملاحظات ينهار في اللحظة التي يطرح فيها المستخدمون الحقيقيون أسئلتهم الحقيقية. إليك السبب — والخريطة للخروج منها.
  2. الجزء 02تقسيم النصوص — القرار الذي يحدد حدودك الأعلىلا يمكنك استرجاع ما قسمته بشكل سيء. تقسيم النصوص هو أكثر الأدوات التي لا تحظى بالتقدير في RAG — والأرخص لتطبيقها بشكل صحيح.
  3. الجزء 03التضمينات وقواعد البيانات الموجهة 101التضمين يحول المعنى إلى هندسة. قاعدة البيانات الموجهة تجعل تلك الهندسة قابلة للبحث في أجزاء من الثانية. احصل على كليهما بشكل صحيح وتصبح الاسترجاعية سهلة.
  4. الجزء 04الاسترجاع الهجين — الكلمات الرئيسية + المتجهاتالبحث المتجهي يفهم المعنى لكن يتعثر على المصطلحات الدقيقة والمعرّفات والكلمات النادرة. البحث بالكلمات الرئيسية يحققها ويفتقد إعادة الصياغة. استخدم كليهما.
  5. الجزء 05إعادة الترتيب — الفوز السريع بالجودةالاسترجاع يحضر لك 30 مقطعاً معقولاً. معيد الترتيب يقرأها مقابل السؤال الفعلي ويرفع الأجزاء الملائمة حقاً إلى الأعلى.
  6. الجزء 06توجيه المولّد — التأسيس والاستشهاداتالاسترجاع الممتاز يضيع إن تجاهله النموذج أو لم يستطع الإشارة إلى مصادره. التأسيس هو انضباط في تصميم المحفزات، وليس إضافة لاحقة.
  7. الجزء 07التقييم — لا يمكنك تحسين ما لا تقيسهأنت هنابدون مجموعة تقييم، كل تغيير في RAG مجرد انطباع. مع واحدة، تضبط التقسيم والاسترجاع والإشارات برقم يخبرك إن كنت ساعدت أم أضررت.
  8. الجزء 08التعامل مع الهلوسات والضمانات الأمنيةعندما لا يجد الاسترجاع شيئاً، ينسج النموذج الذكي إجابات من العدم. الضمانات الأمنية تحول "الخطأ الواثق" إلى "عدم التأكد الصادق" — الفرق الذي يثق به المستخدمون فعلاً.
  9. الجزء 09الانضباط في التكلفة والزمن الكامناستعلام RAG يلمس التضمينات وقاعدة بيانات المتجهات وإعادة الترتيب ونموذج اللغة. كل واحد يضيف الميلي ثواني والسنتات. في النطاق الكبير، الانضباط هنا هو الفرق بين الهامش والكارثة.
  10. الجزء 10معمارية مرجعية الـ RAG للإنتاجكل عنصر في مكانه: الاستيعاب، الاسترجاع الهجين، إعادة الترتيب، التوليد المدعوم بالمصادر، الضمانات، التقييم والتخزين المؤقت — الخطة التي يمكنك نشرها.

تابع التعلّم

الدورة

دورة Claude Mastery

12 وحدة · 5 لغات · شهادة · تجربة 3 أيام مجاناً.

الخطط ←
LinkedInX / TwitterBlueskyThreads