Les avancées récentes des grands modèles de langage (LLMs) ont suscité un vif intérêt, notamment pour leurs capacités de “raisonnement” sur des tâches complexes comme les mathématiques. Toutefois, une étude menée par des chercheurs d’Apple, intitulée GSM‐Symbolic : Understanding the Limitations of Mathematical Reasoning in Large Language Models, et relayer par arstechnica révèle des lacunes majeures des LLMs lorsqu’il s’agit de raisonnement formel.
“Nous n’avons trouvé aucune preuve de raisonnement formel dans les modèles de langage. Leur comportement s’explique mieux par un système sophistiqué de comparaison de motifs – si fragile, en réalité, qu’une modification de noms dans une question peut modifier les résultats de ~10%.”
https://x.com/mfarajtabar/status/1844456880971858028
Les conclusions de ce nouvel article sur GSM‐Symbolic ne sont pas entièrement nouvelles dans la recherche sur l’IA. D’autre travaux ont également montré que les grands modèles de langage (LLMs) ne réalisent pas de raisonnement formel, mais reproduisent ce raisonnement en s’appuyant sur une correspondance probabiliste avec les données similaires issues de leur vaste corpus d’entraînement.
Des modèles sensibles aux légères variations dans les questions
Les chercheurs ont constaté que les performances des LLMs sur des tâches de raisonnement mathématique, évaluées à l’aide du benchmark GSM8K, fluctuent considérablement face à de petites modifications des questions. En utilisant un nouveau benchmark (GSM‐Symbolic), basé sur des templates permettant de générer des variations de questions existantes, l’équipe a pu évaluer les capacités des modèles de manière plus précise.
Les résultats montrent qu’une simple modification des valeurs numériques dans une question peut entraîner une baisse importante des performances des LLMs. Ces observations suggèrent que ces modèles ne font pas de véritable raisonnement logique, mais se contentent de reproduire des schémas observés dans leurs données d’entraînement.
L’effet des informations inutiles
Pour approfondir leurs recherches, les chercheurs ont introduit des informations non pertinentes dans un nouveau jeu de données, GSM‐NoOp, afin de tester la capacité des LLMs à se concentrer sur le problème à résoudre. Les performances des modèles ont chuté jusqu’à 65 % lorsque ces détails inutiles étaient ajoutés. Cela met en évidence l’incapacité des LLMs à ignorer les distractions et à raisonner de manière stricte.
Conséquences pour l’avenir des LLMs
Cette étude révèle la fragilité des LLMs actuels et pose la question de leur capacité à accomplir des tâches de raisonnement formel. Bien que ces modèles brillent dans certaines applications, ils dépendent encore largement de correspondances probabilistes et non d’une réelle compréhension des concepts.
Dans son analyse, l’expert en IA Gary Marcus affirme que l’améliorations substantiel des capacités de l’IA ne sera possible que lorsque les réseaux neuronaux intégreront une manipulation symbolique réelle, comme en algèbre ou en programmation : “symbol manipulation, in which some knowledge is represented truly abstractly in terms of variables and operations over those variables, much as we see in algebra and traditional computer programming…””.
Sans cela, l’IA continuera de produire un raisonnement fragile, susceptible d’échouer à des tests mathématiques où une simple calculatrice réussirait.
Implications
The fish doesn’t think, because the fish knows, everything.
Goran Bregović, this is a film (feat. Iggy Pop) – 1993
Ces résultats montrent que les approches probabilistes perdent en efficacité lorsque les consignes s’éloignent des données d’entraînement et soulignent les difficultés du raisonnement sans appui sur un modèle logique ou une compréhension concrète du monde réel.
Reconnaître les limites des LLM actuels permet non seulement d’ajuster nos attentes, mais aussi de favoriser une utilisation plus critique et réfléchie de ces outils. Leurs réponses, bien que convaincantes par la forme, peuvent donner l’illusion d’une compréhension qu’ils n’ont pas.
Il est essentiel de comprendre que, si les LLM excellent dans la détection et la reproduction de motifs, ils n’ont pas de véritable capacité de raisonnement formel. Cela doit guider la manière dont nous collaborons avec ces outils : concentrons‐nous sur le fond, et laissons‐leur la forme ?