
Une nouvelle étude de recherche d’Apple fait le tour des réseaux, et si les réactions sont à la hauteur, on pourrait croire qu’elle a ébranlé toute l’industrie des LLM. Cependant, cette analyse semble aller dans le sens d’une discussion déjà bien rodée au sein de la communauté du machine learning. Voici pourquoi ce texte mérite notre attention.
Le document en question, intitulé Illusion de la pensée : comprendre les forces et les limites des modèles de raisonnement à travers la complexité des problèmes, examine de manière systématique les soi-disant Large Reasoning Models (LRM), tels que Claude 3.7 et DeepSeek-R1, en s’appuyant sur des casse-têtes contrôlés (comme le Tower of Hanoi ou Blocks World), et non sur des benchmarks mathématiques classiques souvent contaminés par des données.
Les résultats de l’étude
Il en ressort que les LRM surpassent leurs cousins LLM lors de tâches de complexité moyenne, mais échouent tout aussi durement sur des problèmes plus complexes. Pire encore, au fur et à mesure que la difficulté des tâches augmente, ces modèles de « raisonnement » semblent moins réfléchir, même lorsqu’ils disposent encore de ressources de calcul.
Les enseignements de cette recherche
Le constat principal est que ces modèles lancés comme étant capables de « raisonner » échouent sur des problèmes qu’un enfant patient pourrait résoudre. Par exemple, dans le Tower of Hanoi, des modèles comme Claude et o3-mini s’effondrent après sept ou huit disques. Même lorsqu’on leur fournit l’algorithme de solution à suivre, leurs performances ne s’améliorent pas.
Autrement dit, ils ne raisonnent pas ; ils étendent simplement les schémas d’inférence LLM de manière plus élaborée. Cette distinction est essentielle et constitue la réelle valeur de l’étude d’Apple. Les auteurs remettent en question des termes chargés comme « raisonnement » et « pensée » qui suggèrent une inférence symbolique, alors qu’il s’agit plus d’une extension de schémas. Le modèle exécute plusieurs passes d’inférence jusqu’à tomber sur quelque chose de plausible.
Une problématique plus profonde
Le point le plus préoccupant de l’étude est sans doute le suivant : lorsque la complexité augmente, les modèles semblent littéralement abandonner. Ils réduisent leur propre « pensée » interne face à des défis, en dépit d’un budget de calcul suffisant. Ce n’est pas juste un échec technique, mais bel et bien un échec conceptuel.
Ce que clarifie l’étude d’Apple, c’est que beaucoup de LLM échouent non pas parce qu’ils « n’ont pas été suffisamment entraînés » ou « ont besoin de plus de données », mais parce qu’ils manquent fondamentalement de moyens pour représenter et exécuter une logique algorithmiquement structurée. Ce n’est pas quelque chose que des chaînes de réflexion ou un affinage par renforcement peuvent surmonter.
Pour citer le document lui-même : « Les LRM échouent à utiliser des algorithmes explicites et raisonnent de manière incohérente d’un casse-tête à l’autre ». Même lorsqu’on leur remet un plan de solution, ils trébuchent.
Conclusion : pas de nouvelles mauvaises nouvelles
Ces résultats ne surprennent guère ceux qui sont profondément ancrés dans la recherche en machine learning. Toutefois, le bruit qu’ils ont généré souligne quelque chose de plus intéressant : le public pourrait enfin être prêt à comprendre des distinctions que le monde du machine learning évoque depuis des années, en particulier concernant ce que ces modèles peuvent ou ne peuvent pas faire.
Cela est fondamental. Lorsque les gens qualifient ces systèmes de « pensants », nous commençons à les considérer comme capables de remplacer des tâches qu’ils ne savent actuellement pas effectuer. C’est à ce moment-là que les hallucinations et les échecs logiques deviennent des angles morts dangereux. L’apport d’Apple est significatif, non pas parce qu’il « expose » les LLM, mais parce qu’il aide à dessiner des contours plus clairs de ce qu’ils sont réellement.








