Maîtriser l'ingénierie RAG9 / 10

Discipline en matière de coût et de latence

Une requête RAG touche aux embeddings, une base de données vectorielle, un re-ranker et un LLM. Chacun ajoute des millisecondes et des centimes. À grande échelle, la discipline ici fait la différence entre une marge bénéficiaire et un désastre.

Publié le 19 mai 20262 min de lectureHaythem Rehouma · Claude Mastery

Chaque requête RAG est une petite chaîne d'approvisionnement : intégrer la question, chercher, re-classer, générer. Multipliez par le trafic et les choix insouciants deviennent coûteux. Le coût et la latence sont une discipline d'ingénierie, pas une réflexion a posteriori.

Sachez où cela va

La génération domine le coût — elle s'adapte à la taille du contexte. Fewer, better chunks (re-ranking) est une victoire en termes de coût, pas seulement de qualité.
Le re-ranking s'adapte à la largeur de votre récupération. Dimensionnez correctement le filet.
Les embeddings sont bon marché par requête mais s'accumulent lors des re-embeddings et de l'ingestion.

Mettez en cache de manière agressive

Cache d'embeddings — les requêtes identiques ne doivent pas être re-intégrées.
Cache de récupération — les questions populaires accèdent aux mêmes chunks ; mettez en cache le résultat de la récupération.
Cache de réponses — pour les questions stables et courantes, mettez en cache la réponse finale avec un TTL raisonnable.

Un cache hit transforme un pipeline multi-étapes en une recherche.

Dimensionnez correctement chaque étape

Utilisez un petit modèle rapide pour les étapes bon marché (réecriture de requête, vérification de la fidélité) et réservez le modèle puissant pour la réponse finale. Chaque étape n'a pas besoin de votre meilleur modèle.

Récupération nette, génération fondée, garde-fous et un modèle de coût. Le final les assemble en une architecture de référence.

Sachez où cela va

Mettez en cache de manière agressive

Dimensionnez correctement chaque étape

Skills Claude reliés à installer

Partager cet article

Série — Maîtriser l'ingénierie RAG

Continuer

Le cours Claude Mastery