L’IA influence-t-elle la politique ou inversement ? Les contenus produits par les médias d’État façonnent le contexte en ligne dans lequel les grands modèles de langage s’entraînent.
Lorsqu’un gouvernement exerce une influence significative sur le système médiatique de son pays, les effets de cette ingérence politique se reflètent aussi dans les réponses fournies par les chatbots d’IA. Une étude publiée dans Nature soutient que les gouvernements pourraient influencer la façon dont les Large Language Models (LLM) que nous utilisons tous pour trouver des réponses nous parlent de politique.
C’est un point de vue intéressant par rapport à la narration habituelle sur la façon dont l’IA peut conditionner les dynamiques politiques : avant même que cela se produise, c’est la politique qui, indirectement, en orientant l’écosystème en ligne d’où proviennent les données utilisées pour entraîner les IA, peut influencer les réponses de l’IA.
La politique s’infiltre dans l’IA
Des chercheurs de l’Université d’Oregon, de Purdue University, de l’Université de Californie à San Diego, de la New York University et de l’Université de Princeton, aux États-Unis, ont reconstitué le chemin de ce qu’ils appellent « l’influence institutionnelle » des médias en ligne, partant de l’analyse des données d’entraînement des IA et arrivant à vérifier les effets sur le comportement des modèles eux-mêmes (ici le site du projet).
Étant donné que de nombreux détails sur la manière dont les systèmes d’IA sont entraînés ne sont pas du domaine public, les scientifiques ont utilisé plusieurs approches, comme l’analyse de données open-source utilisées pour entraîner les IA dans 37 pays différents, des expériences de réentraînement de petits modèles et des tests dans le monde réel avec des chatbots commerciaux, afin de comprendre comment le pouvoir politique s’infiltre dans nos conversations avec les LLM.
Un écosystème déjà « partisan »
« On parle souvent d’intelligence artificielle comme si elle apprenait d’Internet de manière neutre. Ce n’est pas le cas : elle apprend à partir d’environnements informationnels qui ont déjà été façonnés par des institutions et le pouvoir, et ces environnements peuvent laisser des traces mesurables dans ce que disent les modèles », déclare Hannah Waight, professeure de sociologie à l’Université d’Oregon et l’une des autrices de l’étude.
Les chercheurs ont examiné le cas de la Chine pour démontrer, d’abord, que les contenus en ligne produits par les médias d’État apparaissent fréquemment dans les jeux de données d’entraînement des IA : dans l’un des cas analysés par l’étude, des phrases issues de médias d’État chinois ont été retrouvées dans un ensemble de données open source ordinaire 40 fois plus souvent que des phrases tirées de documents de Wikipedia en langue chinoise.
De la phrase individuelle à l’opinion partagée
L’influence des contenus politiques émanant d’organes gouvernementaux « concerne aussi la circulation : la même phrase se propage à travers des journaux, des applications, des reposts et des pages web ordinaires jusqu’à finir par faire partie du cadre informationnel plus large.
Une fois que les contenus produits par les médias d’État sont présents dans les données d’entraînement, le modèle peut les épurer de sorte qu’ils apparaissent et sonnent comme des informations neutres et objectives » précise Brandon Steward, Professeur associé de sociologie à l’Université de Princeton et co-auteur.
De plus, lorsque nous posons une question à un chatbot, la source n’est pas immédiatement citée dans la réponse fournie. L’utilisateur se retrouve sans aucun élément pour savoir d’où provient cette version parce que, ajoute Steward, « les modèles linguistiques complexes séparent le message du messager. Ce qui commence comme une narration stratégique venant d’un gouvernement puissant via un organe de presse d’État peut réapparaître comme un commentaire éclairé attribué à un agent intelligent ».
Réponses conditionnées
À ce stade, les scientifiques, pour vérifier si cette influence avait un impact sur le comportement des chatbots, ont tenté d’entraîner un petit modèle open source. L’ajout de documents compilés comme s’ils s’agissaient de nouvelles politiques partisanes dans les données d’entraînement du modèle a conduit ce dernier à donner, aux mêmes questions politiques, des réponses plus favorables dans près de 80 % des cas.
Les chercheurs ont également démontré que la tendance se manifeste de manière plus marquée lorsque les questions politiques sont posées dans la langue principale de l’État concerné. Par exemple, une question sur le gouvernement chinois produit une réponse plus favorable à ce gouvernement si elle est posée en chinois plutôt qu’en anglais. Ce phénomène ne concerne pas uniquement la Chine, mais aussi d’autres pays où les gouvernements exercent un contrôle fort sur les médias nationaux et où les sources offrant une vision alternative des choses se font rares.
Nous voulons les sources !
Cette étude appelle à une réflexion approfondie sur la sauvegarde de la démocratie : « Nos résultats – écrivent les auteurs – suggèrent que les modèles d’apprentissage basés sur des données (LLM) créent de nouveaux incitatifs pour les acteurs puissants à penser de manière stratégique au texte qu’ils diffusent en ligne ». Étant donné que de plus en plus de citoyens se tournent vers les chatbots pour résoudre des doutes concernant leur participation à la vie politique, il est important de comprendre d’où proviennent les informations que ces IA nous proposent.