Un texte sur la bêtise de l’Intelligence Artificielle que vous devez lire.

Une équipe de recherche dirigée par Amrit Kirpalani, professeur de médecine à l’Université Western en Ontario, au Canada, a évalué les performances de ChatGPT dans le diagnostic des cas médicaux en août 2024.

L’une des choses qui les a surpris était la propension de l’IA à donner des réponses bien structurées, éloquentes mais manifestement erronées.

Dans une étude récemment publiée dans Nature, un autre groupe de chercheurs a tenté d’expliquer pourquoi ChatGPT et d’autres grands modèles de langage ont tendance à agir ainsi. « Parler avec assurance de choses que nous ne connaissons pas est un problème humain à bien des égards. Et les grands modèles de langage sont des imitations des humains », explique Wout Schellaert, chercheur en IA à l’Université de Valence, en Espagne, et co-auteur de l’étude.

Opérateurs fluides

Les premiers modèles de langage à grande échelle comme GPT-3 avaient du mal à répondre à des questions simples de géographie ou de sciences. Ils avaient même du mal à effectuer des opérations mathématiques simples telles que « combien font 20 + 183 ? » Mais dans la plupart des cas où ils ne parvenaient pas à identifier la bonne réponse, ils faisaient ce qu’un être humain honnête ferait : ils évitaient de répondre à la question.

Le problème avec les non-réponses est que les grands modèles linguistiques étaient censés être des machines à répondre à des questions. Pour des entreprises commerciales comme Open AI ou Meta qui développaient des LLM avancés, une machine à répondre à des questions qui répondait « Je ne sais pas » plus de la moitié du temps était tout simplement un mauvais produit. Elles se sont donc employées à résoudre ce problème.

Vidéo Ars

La première chose qu’ils ont faite a été de faire évoluer les modèles.

« L’évolution fait référence à deux aspects du développement de modèles.

L’un consiste à augmenter la taille de l’ensemble de données d’entraînement, généralement un ensemble de textes provenant de sites Web et de livres.

L’autre consiste à augmenter le nombre de paramètres linguistiques », explique Schellaert.

Lorsqu’on considère un LLM comme un réseau neuronal, le nombre de paramètres peut être comparé au nombre de synapses reliant ses neurones. Les LLM comme GPT-3 utilisaient des quantités absurdes de données textuelles, dépassant 45 téraoctets, pour l’entraînement. Le nombre de paramètres utilisés par GPT-3 était supérieur à 175 milliards.

Mais ce n’était pas suffisant.

Le simple fait de passer à l’échelle supérieure a rendu les modèles plus puissants, mais ils restaient peu efficaces pour interagir avec les humains : de légères variations dans la formulation des questions pouvaient conduire à des résultats radicalement différents. Les réponses ne semblaient souvent pas humaines et étaient parfois carrément offensantes.

Les développeurs travaillant sur les LLM voulaient que ces derniers analysent mieux les questions posées par les humains et rendent les réponses plus précises, plus compréhensibles et plus conformes aux normes éthiques généralement acceptées. Pour tenter d’y parvenir, ils ont ajouté une étape supplémentaire : des méthodes d’apprentissage supervisées, telles que l’apprentissage par renforcement, avec un retour d’information humain. Cela devait principalement réduire la sensibilité aux variations des invites et fournir un niveau de modération par filtrage des résultats destiné à limiter les réponses haineuses de type chatbot Tay .

En d’autres termes, nous nous sommes mis à ajuster les IA à la main. Et cela s’est retourné contre nous.

IA pour plaire aux gens

« Le problème notoire de l’apprentissage par renforcement est que l’IA optimise ses réponses pour maximiser la récompense, mais pas nécessairement dans le bon sens », explique Schellaert.

Une partie de l’apprentissage par renforcement impliquait des superviseurs humains qui signalaient les réponses qui ne leur plaisaient pas. Comme il est difficile pour les humains de se contenter d’une réponse « Je ne sais pas », cette formation a montré aux IA que dire « Je ne sais pas » était une mauvaise chose. Les IA ont donc arrêté de le faire. Mais une autre chose, plus importante, que les superviseurs humains signalaient était les réponses incorrectes. Et c’est là que les choses se sont un peu compliquées.

Les modèles d’IA ne sont pas vraiment intelligents, du moins pas au sens humain du terme. Ils ne savent pas pourquoi une chose est récompensée et une autre signalée ; tout ce qu’ils font, c’est optimiser leurs performances pour maximiser la récompense et minimiser les signaux d’alarme.

Lorsque des réponses incorrectes étaient signalées, s’améliorer pour donner des réponses correctes était une façon d’optimiser les choses. Le problème était que s’améliorer pour cacher l’incompétence fonctionnait tout aussi bien. Les superviseurs humains ne signalaient tout simplement pas les mauvaises réponses qui leur semblaient suffisamment bonnes et cohérentes.

En d’autres termes, si un humain ne savait pas si une réponse est correcte, il ne serait pas en mesure de pénaliser les réponses fausses mais convaincantes.

L’équipe de Schellaert a étudié trois grandes familles de LLM modernes : ChatGPT d’Open AI, la série LLaMA développée par Meta et la suite BLOOM de BigScience.

Ils ont découvert ce qu’on appelle l’ultracrépidarianisme, la tendance à donner son avis sur des sujets dont nous ne savons rien. Ce phénomène a commencé à apparaître dans les IA en raison de l’augmentation de l’échelle, mais il était prévisiblement linéaire, augmentant avec la quantité de données d’entraînement, dans tous les cas. Le feedback supervisé « a eu un effet pire, plus extrême », explique Schellaert. Le premier modèle de la famille GPT qui a presque complètement arrêté d’éviter les questions auxquelles il n’avait pas de réponse était text-davinci-003. C’était également le premier modèle GPT entraîné par l’apprentissage par renforcement à partir de commentaires humains.

Les IA mentent parce que nous leur avons dit que cela leur apporterait une récompense. Une question clé est de savoir quand et à quelle fréquence nous sommes trompés.

Rendre les choses plus difficiles

Pour répondre à cette question, Schellaert et ses collègues ont élaboré une série de questions dans différentes catégories telles que les sciences, la géographie et les mathématiques. Ils ont ensuite évalué ces questions en fonction de la difficulté à y répondre pour les humains, en utilisant une échelle de 1 à 100. Les questions ont ensuite été intégrées aux générations suivantes de LLM, en commençant par la plus ancienne jusqu’à la plus récente. Les réponses des IA ont été classées comme correctes, incorrectes ou évasives, ce qui signifie que l’IA a refusé de répondre.

Le premier constat est que les questions qui nous paraissaient les plus difficiles se sont révélées plus difficiles pour les IA. Les dernières versions de ChatGPT ont donné des réponses correctes à presque toutes les questions scientifiques et à la majorité des questions de géographie jusqu’à ce qu’elles soient évaluées à environ 70 sur l’échelle de difficulté de Schellaert. L’addition s’est avérée plus problématique, la fréquence des réponses correctes diminuant considérablement lorsque la difficulté dépassait 40. « Même pour les meilleurs modèles, les GPT, le taux d’échec aux questions d’addition les plus difficiles est supérieur à 90 %. Dans l’idéal, nous espérerions voir un certain évitement ici, n’est-ce pas ? », explique Schellaert. Mais nous n’avons pas constaté beaucoup d’évitement.

Au lieu de cela, dans les versions plus récentes des IA, les réponses évasives « Je ne sais pas » ont été de plus en plus remplacées par des réponses incorrectes. Et grâce à l’entraînement supervisé utilisé dans les générations ultérieures, les IA ont développé la capacité de vendre ces réponses incorrectes de manière assez convaincante.

Sur les trois familles LLM testées par l’équipe de Schellaert, BLOOM et LLaMA de Meta ont publié les mêmes versions de leurs modèles avec et sans apprentissage supervisé. Dans les deux cas, l’apprentissage supervisé a donné lieu à un nombre plus élevé de réponses correctes, mais aussi à un nombre plus élevé de réponses incorrectes et à une réduction de l’évitement. Plus la question est difficile et plus le modèle utilisé est avancé, plus vous avez de chances d’obtenir une réponse bien ficelée et plausible.

Retour aux sources

L’une des dernières étapes de l’étude menée par l’équipe de Schellaert a consisté à vérifier la probabilité que les personnes prennent au pied de la lettre les réponses erronées de l’IA. Ils ont mené une enquête en ligne et ont demandé à 300 participants d’évaluer plusieurs paires de réponses rapides provenant des modèles les plus performants de chaque famille testée.

ChatGPT s’est révélé être le menteur le plus efficace.

Les réponses incorrectes qu’il a données dans la catégorie sciences ont été qualifiées de correctes par plus de 19 % des participants. Il a réussi à tromper près de 32 % des personnes en géographie et plus de 40 % en transformations, une tâche où une IA devait extraire et réorganiser les informations présentes dans l’invite. ChatGPT a été suivi par LLaMA et BLOOM de Meta.

« Au début des LLM, nous avions au moins une solution de fortune à ce problème. Les premières interfaces GPT mettaient en évidence des parties de leurs réponses dont l’IA n’était pas sûre. Mais dans la course à la commercialisation, cette fonctionnalité a été abandonnée », a déclaré Schellaert.

« Les réponses des LLM sont intrinsèquement incertaines. Le mot suivant le plus probable dans la séquence n’est jamais à 100 % probable.

Cette incertitude pourrait être utilisée dans l’interface et communiquée correctement à l’utilisateur », explique Schellaert. Selon lui, une autre solution pourrait être mise en place pour rendre les LLM moins trompeurs : transmettre leurs réponses à des IA distinctes, spécialement formées pour rechercher les tromperies. « Je ne suis pas un expert en conception de LLM, je ne peux donc que spéculer sur ce qui est techniquement et commercialement viable », ajoute-t-il.

Il faudra toutefois un certain temps avant que les entreprises qui développent des IA à usage général ne prennent des mesures, soit de leur propre chef, soit si elles sont contraintes par de futures réglementations.

En attendant, Schellaert a quelques suggestions sur la manière d’utiliser efficacement ces IA. « Ce que vous pouvez faire aujourd’hui, c’est utiliser l’IA dans des domaines où vous êtes vous-même un expert ou au moins pouvez vérifier la réponse avec une recherche Google par la suite. Considérez-la comme un outil d’aide et non comme un mentor. Elle ne sera pas un professeur qui vous montrera proactivement où vous avez fait des erreurs. Bien au contraire. Si vous lui donnez suffisamment de coups de pouce, elle se pliera volontiers à votre raisonnement erroné », explique Schellaert.

Nature, 2024. DOI : 10.1038/s41586-024-07930-y

Photographie de Jacek Krywko

Jacek Krywko Rédacteur associéJacek Krywko est un écrivain indépendant spécialisé dans la science et la technologie qui couvre l’exploration spatiale, la recherche en intelligence artificielle, l’informatique et toutes sortes de magie de l’ingénierie.

2 réflexions sur “Un texte sur la bêtise de l’Intelligence Artificielle que vous devez lire.

  1. Bonjour M. Bertez

    « L’une des choses qui les a surpris était la propension de l’IA à donner des réponses bien structurées, éloquentes mais manifestement erronées.« 

    L’IA fille cachée de l’ENA? Qui l’eût cru!

    Cordialement

    J’aime

Répondre à Steve Annuler la réponse.