Les gouvernements peuvent-ils orienter les chatbots ? Comment la politique peut influencer les réponses de l’IA

L’IA influence-t-elle la politique ou vice versa ? Les contenus produits par les médias d’État façonnent le contexte en ligne dans lequel les LLM s’entraînent.

Lorsque qu’un gouvernement exerce une influence notable sur le système médiatique de son pays, les effets de cette ingérence politique se reflètent aussi dans les réponses fournies par les chatbots d’IA. Une étude publiée dans Nature soutient que les gouvernements pourraient influencer la manière dont les grands modèles de langage (LLM) que nous utilisons tous pour trouver des réponses nous parlent de politique.

C’est une perspective intéressante par rapport à la narration habituelle selon laquelle l’IA pourraitConditionner les dynamiques politiques: avant même que cela se produise, c’est la politique qui, indirectement, en orientant l’écosystème en ligne d’où proviennent les données utilisées pour entraîner les IA, peut influencer les réponses de l’IA.

La politique s’infiltre dans l’IA

Des chercheurs de l’Université de l’Oregon, de Purdue University, de l’Université de Californie à San Diego, de la New York University et de l’Université Princeton, toutes aux États‑Unis, ont reconstitué le parcours de ce qu’ils décrivent comme « l’influence institutionnelle » des médias en ligne, partant de l’analyse des données d’entraînement des IA et allant jusqu’à vérifier les effets sur le comportement des modèles eux-mêmes (ici le site du projet).

Étant donné que de nombreux détails sur la manière dont les systèmes d’IA sont entraînés ne sont pas du domaine public, les scientifiques ont recours à diverses approches, comme l’analyse de données open‑source utilisées pour entraîner les IA dans 37 pays différents, des expériences de réentraînement de petits modèles et des tests dans le monde réel avec des chatbots commerciaux, afin de comprendre comment le pouvoir politique parvient à s’immiscer dans nos conversations avec les LLM.

Un écosystème déjà biaisé

« On parle souvent de l’intelligence artificielle comme si elle apprenait d’Internet de manière neutre. Ce n’est pas le cas: elle apprend dans des environnements informationnels qui ont déjà été façonnés par des institutions et le pouvoir, et ces environnements peuvent laisser des traces mesurables dans ce que disent les modèles », affirme Hannah Waight, professeure de sociologie à l’Université de l’Oregon et coautrice de l’étude.

Les chercheurs ont étudié le cas de la Chine pour démontrer, avant tout, que les contenus en ligne produits par les médias d’État apparaissent fréquemment dans les jeux de données d’entraînement des IA: dans l’un des cas analysés, des phrases issues des médias d’État chinois ont été retrouvées dans un jeu de données open source ordinaire quarante fois plus souvent que des phrases issues de documents de Wikipedia en chinois.

De la phrase individuelle à l’opinion partagée

L’influence des contenus politiques émanant d’organismes gouvernementaux « touche aussi à la manière dont la circulation se fait »: la même phrase se propage via les journaux, les applications, les reposts et les pages web ordinaires jusqu’à sembler faire partie du contexte informationnel plus large.

Une fois que les contenus produits par les médias d’État se trouvent dans les données d’entraînement, le modèle peut les dépouiller de leur aspect partisan, afin qu’ils paraissent et sonnent comme des informations neutres et objectives, précise Brandon Steward, professeur associé de sociologie à l’Université de Princeton et coauteur.

En outre, lorsque nous posons une question à un chatbot, la réponse fournie n’indique pas immédiatement sa source. L’utilisateur se retrouve sans élément pour comprendre d’où provient cette version parce que, souligne Steward, « les modèles linguistiques complexes séparent le message de son messager. Ce qui commence comme une narration stratégique provenant d’un gouvernement puissant via un organe de presse d’État peut réapparaître comme un commentaire perçu comme informé par un agent intelligent ».

Réponses conditionnées

A ce stade, les chercheurs, afin de vérifier si cette influence avait un effet sur le comportement des chatbots, ont tenté d’entraîner un petit modèle open source. L’ajout de documents rédigés comme s’il s’agissait d’actualités politiques partisanes dans les données d’entraînement du modèle a fait en sorte que, pour les mêmes questions politiques, il produise des réponses plus favorables dans près de 80 % des cas.

Les chercheurs ont également démontré que cette tendance se manifeste de manière plus marquée lorsque les questions politiques sont posées dans la langue principale de l’État concerné. Par exemple, une question sur le gouvernement chinois obtient une réponse plus favorable à ce gouvernement si elle est posée en chinois plutôt qu’en anglais. Ce phénomène ne concerne pas seulement la Chine, mais aussi d’autres pays où les gouvernements exercent un contrôle important sur les médias nationaux et où les sources proposant une vision alternative des choses font défaut.

Nous voulons les sources !

L’étude invite à une réflexion profonde sur la protection de la démocratie : « Nos résultats – écrivent les auteurs – suggèrent que les modèles d’apprentissage basés sur les données (LLM) créent de nouveaux incitatifs pour les acteurs puissants à penser de manière stratégique au texte qu’ils diffusent en ligne ». Étant donné que de plus en plus de citoyens se tournent vers les chatbots pour résoudre des questions liées à leur participation à la vie politique, il est important de comprendre d’où proviennent les informations que ces IA nous proposent.