Apple vient de publier un article au titre accablant : *L’illusion de la pensée *. Et ce n’est pas une métaphore. Cet article démontre que les modèles d’IA que nous utilisons quotidiennement , des modèles comme ChatGPT , ne pensent pas. Absolument pas. Ils ne font qu’imiter la pensée.
Titre : The Illusion of Thinking — Comprendre forces et limites des modèles de raisonnement (LRMs) à travers la complexité des problèmesAuteurs : Équipe Apple (dont Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, etc.)Message central : Les Large Reasoning Models (o1, o3, DeepSeek-R1, Claude Thinking, Gemini Thinking, etc.) qui génèrent de longues chaînes de réflexion (« thinking » ou Chain-of-Thought étendu) donnent l’illusion d’un raisonnement profond, mais leurs capacités réelles sont très limitées dès que la complexité augmente.Résultats principaux :
- Scaling limité
Même en augmentant énormément le nombre de tokens de réflexion, la performance s’effondre au-delà d’un certain niveau de complexité → il existe une barrière de complexité que ces modèles ne franchissent pas. - Trois régimes de complexité identifiés :
- Faible complexité → les modèles normaux (sans long thinking) sont souvent aussi bons ou meilleurs
- Complexité moyenne → les LRM avec thinking montrent un avantage clair
- Haute complexité → effondrement complet des LRM → ils ne raisonnent pas vraiment mieux, même avec beaucoup plus de calcul
- Problèmes observés dans les traces de raisonnement :
- Les modèles n’utilisent pas la profondeur de façon cohérente
- Ils explorent des solutions de manière inconsistante et superficielle
- Ils répètent des patterns inefficaces
- Ils ne parviennent pas à reconnaître et corriger leurs propres erreurs de façon systématique
- Conclusion forte : Les progrès actuels des LRM reposent beaucoup sur l’illusion d’un raisonnement structuré et profond.
En réalité, ils atteignent vite leurs limites fondamentales face à des problèmes vraiment compositionnels et complexes → ils ne « pensent » pas comme on l’imagine.
En résumé (phrase choc) :
Plus on leur donne de tokens pour « réfléchir », moins on voit de véritable raisonnement émerger quand la difficulté augmente vraiment.C’est une critique assez dure et très documentée (expériences contrôlées sur des puzzles gradés en complexité) venant d’une équipe Apple sur les modèles de raisonnement 2024-2025.
