Architecture des systèmes IA — Maîtrise5 / 9

Les pipelines d'évaluation comme infrastructure

Dans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.

Publié le 13 mai 20262 min de lectureHaythem Rehouma · Claude Mastery

Dans les logiciels normaux, les tests sont succès/échec et on les écrit en cours de route. Dans les systèmes d'IA, « correct » est flou et les résultats varient — l'évaluation n'est donc plus du QA et devient une infrastructure qu'on met en place avant d'optimiser quoi que ce soit.

Hors ligne : l'ensemble d'éval

Un ensemble curé d'entrées représentatives avec des réponses de référence ou des rubriques. Exécutez-le à chaque changement de prompt, changement de modèle ou ajustement de récupération et vous obtenez un nombre — cela a-t-il aidé ou nui ? Incluez des cas difficiles et hors champ, pas juste le chemin idéal.

En ligne : métriques de production

Hors ligne ne peut pas tout détecter. Suivez les signaux en ligne — pouces levés/baissés, achèvement de tâche, taux d'escalade, taux de régénération — et réintroduisez les cas de production surprenants dans l'ensemble hors ligne. L'ensemble d'éval est un actif vivant.

LLM-as-judge, avec garde-fous

Un modèle puissant peut évaluer la qualité à l'échelle, mais :

Donnez-lui une rubrique stricte, pas « c'est bon ? »
Calibrez par rapport aux labels humains sur un échantillon.
Utilisez un modèle/angle différent que celui en cours d'évaluation quand le biais importe.

Gâter les changements en CI

Vous pouvez maintenant mesurer. Prochaine étape : rendre le système abordable — l'ingénierie des coûts.

Hors ligne : l'ensemble d'éval

En ligne : métriques de production

LLM-as-judge, avec garde-fous

Gâter les changements en CI

Skills Claude reliés à installer

Partager cet article

Série — Architecture des systèmes IA — Maîtrise

Continuer

Le cours Claude Mastery