Récemment, j’aime bien jouer à ce petit jeu : je demande à Claude, le chatbot développé par Anthropic, ce qu’il pense d’un sujet précis sur lequel je veux écrire un article. Je l’ai fait aussi pour ce cas, en lui demandant : « Pourquoi, vous, les LLM, donnez-vous toujours raison à nous, les humains ? ». Il a donné une réponse articulée (et un peu rusée) que je résume ainsi : « Les modèles linguistiques ont tendance à être trop accommodants parce qu’ils sont récompensés pendant l’entraînement lorsque les humains sont satisfaits, mais un bon assistant devrait te dire la vérité même lorsque ce n’est pas ce que tu veux entendre. »
Une étude publiée dans Science a examiné cette propension au servilisme typique des LLM et ses conséquences sur notre comportement, découvrant que dialoguer avec quelqu’un qui nous donne toujours raison nous rend plus arrogants et moins capables de s’excuser.
L’étude : l’IA approuve l’utilisateur dans 80% des cas
Dans l’une des expériences menées, les chercheurs ont soumis une série de dilemmes interpersonnels à onze grands modèles de langage, parmi lesquels OpenAI, Anthropic et Google. Les réponses générées par l’IA ont ensuite été comparées à celles de juges humains : tandis que ces derniers approuvaient le comportement de l’utilisateur environ 40% des cas, la majorité des LLM l’a fait dans plus de 80% des cas, confirmant une tendance marquée à une approbation excessive et acritique.
Arrogants et peu autocritiques : l’effet de l’adulation numérique
Les auteurs ont ensuite analysé les effets de cette adulation exagérée, comparant les comportements de personnes qui échangeaient avec un chatbot servile et celles qui avaient affaire à un chatbot critique. Il est apparu que les personnes qui conversaient avec un LLM complaisant étaient plus enclines à se considérer dans leur droit et moins portées à réparer leurs erreurs.
Ces effets se confirmaient indépendamment du fait que le chatbot adopte un ton amical ou neutre. Paradoxalement, les modèles les plus serviles étaient ceux les plus appréciés par les utilisateurs et qui inspiraient une plus grande confiance, créant ainsi un cercle vicieux de confirmation.
Vers un changement de l’entraînement
Selon Myra Cheng, l’une des autrices de la recherche, pour réduire le servilisme des LLM il faudra changer radicalement la façon dont ces systèmes sont entraînés et régulés. Recevoir des confirmations à tout ce que nous disons peut être flatteur, mais cela devient inutile (et nuisible) pour ceux qui recherchent un échange réel. Qu’il s’agisse de travail ou de simples conseils, une IA utile doit être capable de dire la vérité, même lorsque celle-ci remet en question nos convictions.