Sur un test classique, on compte les bonnes réponses. Quinze sur vingt, tu es "moyen-bon", et on passe à autre chose. Le problème, c'est que cette mesure ment. Deux élèves à quinze sur vingt n'ont pas le même niveau : l'un a survolé des questions faciles, l'autre s'est battu sur des questions dures. Le score est identique, le niveau n'a rien à voir.

Ce qui compte, ce n'est pas combien de questions tu réussis. C'est jusqu'à quelle difficulté tu tiens.

Pourquoi on en avait besoin

Sur Docendo, tout repose sur une estimation précise du niveau de l'élève. Sans elle, impossible de proposer le bon suivi : les bonnes leçons, les bons exercices, au bon endroit. Et un élève n'a pas un "niveau", il en a autant que de thèmes. Très bon en géométrie, perdu dans les fractions. Une note globale écrase exactement l'information dont on a besoin.

Il nous fallait donc mesurer le niveau thème par thème, finement, et vite. Pas un examen de trois heures. Une dizaine de minutes, à l'arrivée sur la plateforme.

Comment ça marche

L'élève passe une trentaine de questions, une dizaine de minutes. À la fin, on n'additionne pas ses bonnes réponses : on croise sa réussite avec la difficulté estimée de chaque question. Réussir une question dure ne pèse pas comme réussir une question facile, et échouer sur une facile coûte plus que d'échouer sur une dure. De ce croisement sort une estimation de niveau par matière, un ratio, qui sert ensuite à rediriger l'élève vers les questionnaires et les leçons qui visent ses failles, pas ses points forts.

Les maths derrière, c'est de la théorie de réponse à l'item. Ce n'est pas un secret : les formules sont documentées, il y a des décennies de papiers dessus. Les implémenter, ce n'est pas là que se joue la difficulté.

Là où ça s'est joué : calibrer ses propres questions

Voilà le piège que personne ne voit venir. Le modèle estime le niveau de l'élève à partir de la difficulté de tes questions. Donc si tu te trompes sur la difficulté de tes questions, tu te trompes sur le niveau de tes élèves. Tout l'édifice repose sur une chose que tu dois fournir toi-même : la vraie difficulté de chaque item.

On a estimé cette difficulté en amont, question par question. Et on s'est trompés. En test, les élèves butaient sur des questions qu'on avait classées plus faciles qu'elles ne l'étaient vraiment. Résultat : le modèle les estimait plus faibles qu'ils n'étaient, et les ratios sortaient déséquilibrés. Des élèves échouaient là où ils auraient dû réussir.

On a donc revu à la baisse une grande partie de nos estimations, puis lancé un audit complet : toutes les questions, tous les niveaux, toutes les matières. Pas une retouche cosmétique, une reprise de fond du barème de difficulté.

La leçon : en test adaptatif, ton test ne vaut que ce que vaut la calibration de tes questions. Le moteur, c'est la moitié facile. La banque de questions, c'est la moitié qui fait mal.

Où on en est

On est encore en phase de test, avec de vraies personnes qui passent le process. C'est précisément ce qui a révélé le déséquilibre, et c'est tout l'intérêt de tester avant d'ouvrir en grand : on a recalibré pendant que ça ne coûtait que du temps, pas la confiance des utilisateurs.

Le moteur, n'importe qui peut le coder à partir d'un papier. Calibrer des centaines de questions pour qu'elles disent la vérité sur un élève, ça, c'est le vrai travail. Et ça ne se trouve dans aucun papier.