Architecture des systèmes IA — Maîtrise6 / 9
Cost Engineering — Token Budgets That Hold
An AI feature that delights at 100 users can bankrupt you at 100,000. Cost is an architectural constraint, designed in — not discovered on the invoice.

Traditional software gets cheaper per user as you scale. AI software gets more expensive — every request costs tokens. If unit economics aren't designed in, growth is the thing that kills you.
Budget per request
Decide, per feature, a token budget the way you'd cap DB queries. Know the input + output token cost of a typical request and the worst case. "Cost per request × requests/month" is a spreadsheet you can fix before it's an invoice you can't.
Model tiering
Not every step needs your best model. Use a cheap, fast model for routing, classification, query rewriting, and faithfulness checks; reserve the expensive model for the step where quality is the product. This is often a 2–5x cost cut at equal quality.
Cache everything cacheable
- Prompt/response cache for stable, repeated requests.
- Prompt caching (provider-side) for the large, unchanging prefix of a prompt.
- Retrieval cache so popular queries don't re-search.
A cache hit is a near-free request.
Trade quality for cost deliberately
Coûts maîtrisés. Ensuite : faire vite — latence et débit à l'échelle.
Série — Architecture des systèmes IA — Maîtrise
- Partie 01Architecting AI Products — First PrinciplesAI systems fail differently from normal software: they're non-deterministic, costly per call, and hard to test. The architecture has to account for all three.
- Partie 02Agent unique vs. multi-agent — Choisir une topologieLe multi-agent est à la mode et généralement prématuré. Voici comment décider honnêtement — et pourquoi la plupart des produits doivent commencer avec un seul agent bien équipé.
- Partie 03Modèles d'orchestration — Pipelines, Routeurs, EssaimsUne fois que vous avez plusieurs étapes ou agents, leur interconnexion détermine le coût, la latence et la fiabilité. Quatre modèles couvrent presque tout.
- Partie 04Architecture du contexte et de la mémoireLa fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.
- Partie 05Les pipelines d'évaluation comme infrastructureDans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.
- Partie 06Cost Engineering — Token Budgets That Hold — vous êtes iciAn AI feature that delights at 100 users can bankrupt you at 100,000. Cost is an architectural constraint, designed in — not discovered on the invoice.
- Partie 07Latence et débit à l'échelleL'inférence est lente et imprévisible. Le streaming, le parallélisme et la limite asynchrone sont ce qui maintient un produit IA réactif sous charge réelle.
- Partie 08Fiabilité — Retries, Fallbacks, GuardrailsLes modèles retournent des résultats mal formés, les fournisseurs s'arrêtent, et la qualité des outputs dérive. Un système d'IA fiable s'attend aux trois et continue de fonctionner malgré tout.
- Partie 09The Reference Architecture in ProductionTopology, orchestration, memory, eval, cost, latency and reliability — composed into one blueprint for an AI system that survives real users.