
À l’approche de la WWDC, les chercheurs d’Apple contestent les affirmations selon lesquelles les modèles d’intelligence artificielle (IA) pourraient réellement effectuer un raisonnement. Dans un nouvel article, ils remettent en question les déclarations à propos des derniers modèles d’IA, soutenant que leurs tests montrent que ce n’est tout simplement pas le cas.
Bien qu’il soit reconnu que les modèles génératifs d’IA classiques, connus sous le nom de modèles de langage de grande taille (LLMs), n’ont aucune capacité de raisonnement, certaines entreprises d’IA affirment qu’une nouvelle génération de modèles pourrait en être capable. Ces derniers sont appelés modèles de raisonnement de grande taille (LRMs).
De nouvelles approches
Ces progrès ont découlé des tentatives de forcer les LLMs à ‘montrer leur travail’, c’est-à-dire à exposer les étapes individuelles qu’ils suivent pour arriver à leurs conclusions. L’idée est que si une IA peut être amenée à développer une chaîne de pensée, elle éviterait ainsi de créer des informations fictives ou de s’écarter du chemin à un moment donné.
Les limites des LRMs révélées
Cependant, un article de recherche d’Apple qualifie cela d’« illusion de la pensée ». Il soutient que les tests de divers LRMs montrent que leur ‘raisonnement’ s’effondre rapidement même face à des défis logiques relativement simples, tels que le puzzle de la tour de Hanoï.
Pour ceux qui ne connaissent pas le jeu, il consiste à déplacer tous les disques d’une première tige à une troisième en respectant certaines règles. Pourtant, les résultats des chercheurs d’Apple révèlent que les LRMs se montrent moins efficaces que les LLMs sur les versions les plus simples du puzzle.
Des résultats inquiétants
Ils ont constaté que les LRM échouent complètement dès que le nombre de disques dépasse huit. Les résultats montrent que même avec des algorithmes fournis pour les résoudre, les modèles ne parviennent pas à générer des solutions correctes. Ces résultats mettent en lumière les limitations fondamentales des modèles actuels d’IA :
- Les problèmes simples (N=1-3) subissent une baisse de précision dans le temps (surcharge de réflexion).
- Les problèmes modérés (N=4-7) montrent une légère amélioration de la précision avec un raisonnement continu.
- Les problèmes complexes (N≥8) affichent une précision proche de zéro, indiquant un échec total de raisonnement.
Les attentes à revoir
Le professeur émérite de psychologie et des sciences neuronales à l’Université de New York, Gary Marcus, qui défend depuis longtemps l’idée que les LRMs sont incapables de raisonnement, déclare que ces résultats montrent qu’il est nécessaire d’aller au-delà de l’espoir que des LLMs de plus en plus performants aboutissent à une intelligence véritable.
Pour lui, quiconque pense que les LLMs peuvent mener vers un AGI capable de transformer fondamentalement la société se trompe. Ses propos soulignent que, même si le domaine des réseaux neuronaux et de l’apprentissage profond reste pertinent, les LLMs ne représentent qu’une facette de ce champ, et d’autres approches pourraient émerger à l’avenir.








