Architecture des systèmes IA — Maîtrise1 / 9
Architecting AI Products — First Principles
AI systems fail differently from normal software: they're non-deterministic, costly per call, and hard to test. The architecture has to account for all three.

Architecting an AI product is not architecting a CRUD app with a model bolted on. Three properties change the rules — and ignoring them is how AI products die in production.
What's actually different
- Non-determinism. The same input can yield different outputs. Your system must tolerate variance, not assume a fixed answer.
- Cost per call. Every inference costs money and time. Compute is no longer "free once deployed" — it's a per-request line item.
- Fuzzy correctness. There's rarely one right answer. "Correct" is a distribution you measure, not a unit test that passes.
Principles that follow
- Design for variance. Validate, constrain, and retry model output; never trust a single call's shape blindly.
- Make cost a first-class metric. Budget tokens per request the way you'd budget DB queries. (Article 6.)
- Evaluation is infrastructure, not QA. If you can't measure quality, you can't change the system safely. (Article 5.)
- Keep humans on the irreversible. Let the system act freely on the reversible; gate the costly and permanent.
Cette série parcourt les décisions dans l'ordre : topology, orchestration, memory, evaluation, cost, latency, reliability — et l'architecture de référence qui les compose.
Série — Architecture des systèmes IA — Maîtrise
- Partie 01Architecting AI Products — First Principles — vous êtes iciAI systems fail differently from normal software: they're non-deterministic, costly per call, and hard to test. The architecture has to account for all three.
- Partie 02Agent unique vs. multi-agent — Choisir une topologieLe multi-agent est à la mode et généralement prématuré. Voici comment décider honnêtement — et pourquoi la plupart des produits doivent commencer avec un seul agent bien équipé.
- Partie 03Modèles d'orchestration — Pipelines, Routeurs, EssaimsUne fois que vous avez plusieurs étapes ou agents, leur interconnexion détermine le coût, la latence et la fiabilité. Quatre modèles couvrent presque tout.
- Partie 04Architecture du contexte et de la mémoireLa fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.
- Partie 05Les pipelines d'évaluation comme infrastructureDans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.
- Partie 06Cost Engineering — Token Budgets That HoldAn AI feature that delights at 100 users can bankrupt you at 100,000. Cost is an architectural constraint, designed in — not discovered on the invoice.
- Partie 07Latence et débit à l'échelleL'inférence est lente et imprévisible. Le streaming, le parallélisme et la limite asynchrone sont ce qui maintient un produit IA réactif sous charge réelle.
- Partie 08Fiabilité — Retries, Fallbacks, GuardrailsLes modèles retournent des résultats mal formés, les fournisseurs s'arrêtent, et la qualité des outputs dérive. Un système d'IA fiable s'attend aux trois et continue de fonctionner malgré tout.
- Partie 09The Reference Architecture in ProductionTopology, orchestration, memory, eval, cost, latency and reliability — composed into one blueprint for an AI system that survives real users.