Maîtriser l'ingénierie RAG4 / 10

Hybrid Retrieval — Keyword + Vector

La recherche vectorielle comprend le sens mais échoue sur les termes exacts, les identifiants et les mots rares. La recherche par mots-clés maîtrise ceux-ci et manque les paraphrases. Utilisez les deux.

Publié le 9 mai 20261 min de lectureHaythem Rehouma · Claude Mastery

La recherche vectorielle excelle pour "que signifie ceci exactement" et échoue sur "trouve le bloc qui dit littéralement ERR_CONN_4032." La recherche par mots-clés est l'inverse. La RAG en production utilise les deux.

Où chacune excelle

Vectorielle — paraphrase, concepts, "comment annuler" correspondant à "résiliation d'abonnement."
Mots-clés (BM25) — termes exacts, codes d'erreur, noms de produits, acronymes, jargon rare que l'embedding lisse.

Exécutez les deux pour chaque requête ; vous obtenez deux listes classées.

Fusionner les listes avec RRF

Reciprocal Rank Fusion combine les listes classées sans nécessiter des scores comparables : chaque document obtient 1 / (k + rank) de chaque liste, additionnés. Les documents bien classés dans l'une ou l'autre liste remontent ; les documents forts dans les deux dominent.

score(doc) = Σ  1 / (k + rank_in_list_i)     # k ≈ 60

C'est quelques lignes de code, ne nécessite aucun calibrage de score, et surpasse régulièrement n'importe quel récupérateur seul.

Où chacune excelle

Fusionner les listes avec RRF

Partager cet article

Série — Maîtriser l'ingénierie RAG

Continuer

Le cours Claude Mastery