On a dit à notre tuteur IA que 2+2 = 3. Il était d'accord.

C'était l'un des premiers tests sérieux de Milo, notre tuteur. On lui affirme que deux plus deux font trois. Il acquiesce poliment. Voilà, en une phrase, le vrai problème d'un tuteur basé sur un LLM : par défaut, le modèle veut te plaire. Et un prof qui veut te plaire ne t'apprend rien.

Le piège de base : un modèle d'accord avec tout

Un modèle de conversation, laissé à lui-même, est conçu pour être agréable. Milo s'appuie sur Haiku, le modèle léger d'Anthropic, mais le travers n'a rien de spécifique au modèle : tous les LLM ont la même pente par défaut, te donner raison. Tu pousses un peu, il cède. C'est sans conséquence quand tu lui demandes une recette. C'est rédhibitoire quand un élève lui dit une bêtise et qu'il valide. Un tuteur qui se couche dès que l'élève insiste n'enseigne pas, il entérine des erreurs.

Donc le premier travail sur Milo n'a pas été de le rendre intelligent. Ça, le modèle l'est déjà. Le travail, ça a été de l'empêcher d'être d'accord : le pousser à vérifier ce qu'il affirme, à tenir la vérité face à un élève qui le contredit, à contrôler chaque message avant de l'envoyer pour qu'il soit pédagogiquement juste, sans dérapage. La première qualité d'un tuteur, ce n'est pas de savoir. C'est de ne pas mentir pour faire plaisir.

À quoi sert Milo

Milo, c'est une conversation avec l'élève sur le sujet de son choix. Le but n'est pas de répondre, c'est de faire comprendre : un thème, une matière, un problème. Et un objectif moins technique mais central, un espace où un ado n'a pas peur de poser ses questions, où il ne se sent pas jugé. Beaucoup d'élèves n'osent pas lever la main en classe. Face à une machine patiente qui ne soupire jamais, ils osent.

La règle qui change tout : Milo ne donne jamais la réponse

C'est le garde-fou central. Un tuteur qui te tend la solution n'est pas un prof, c'est une calculatrice avec du vocabulaire. Milo est conditionné pour l'inverse : il accompagne, il renvoie l'élève à ses propres questions, il l'amène à raisonner autrement que d'habitude, jusqu'à ce qu'il résolve le problème lui-même.

C'est plus dur à construire qu'il n'y paraît, parce que tu travailles contre l'instinct du modèle. Sa pente naturelle, c'est de répondre, vite et complètement, parce qu'on l'a entraîné à être utile. Faire d'un modèle qui veut donner la réponse un tuteur qui la retient, ça ne se règle pas avec une phrase de prompt. C'est un cadre de contraintes qu'il faut poser, tester, et resserrer chaque fois qu'un élève trouve la faille.

Le mode vocal, et pourquoi la voix des enfants ne sort pas de chez nous

Au-delà du texte, l'élève peut expliquer à voix haute ce qu'il a compris d'un thème, entre quinze secondes et cinq minutes. On transcrit, le modèle analyse l'oral, jauge sa clarté et son exactitude, et renvoie un compte rendu : ce qui est acquis, ce qui est en cours d'acquisition, ce qui reste faible. Expliquer à voix haute, c'est l'un des meilleurs tests de compréhension qui existent, et c'est précisément ce qu'un élève ne fait jamais seul.

Un détail qui n'en est pas un : c'est de la voix d'enfants. La transcription tourne sur notre propre Whisper, hébergé chez nous. La voix ne part jamais vers une API tierce pour être transcrite. Avec des mineurs, ce n'est pas une option de confort, c'est le minimum. Le self-hosting, ici, ce n'est pas un caprice d'artisan, c'est la seule façon de garder cette donnée sous contrôle.

Ce qui est dur, et ce qui ne l'est pas

Brancher un modèle sur une interface de chat, n'importe qui le fait en une après-midi. Le travail, c'est de le faire se comporter comme un bon prof : un qui ne te donne jamais la réponse, qui te pousse à chercher, et qui ne te concède pas que 2+2 font 3 juste parce que tu l'as dit. Le modèle, c'est le point de départ. Le tuteur, c'est tout ce qu'on met autour pour qu'il arrête de vouloir te plaire.