Il suffit de 250 fichiers manipulés pour saboter le processus d’apprentissage d’une intelligence artificielle comme ChatGPT, compromettant son apprentissage de manière imperceptible.
Dans un monde de plus en plus influencé par l’intelligence artificielle, le mot empoisonnement (« poisoning« , en anglais) commence à prendre une signification nouvelle et inquiétante. Une étude conjointe récente du UK AI Security Institute, de l’Alan Turing Institute et de la société Anthropic a démontré qu’il suffit de 250 fichiers manipulés parmi les millions utilisés pour entraîner un modèle linguistique comme ChatGPT pour le compromettre de manière invisible.
C’est un risque croissant, car ces attaques peuvent introduire des erreurs systématiques ou des éléments cachés difficiles à repérer, comme si quelqu’un parvenait à sabotager le processus d’apprentissage d’une machine, la poussant à apprendre des notions erronées ou à adopter un comportement contraire à sa propre logique.
Comment cela fonctionne. En jargon technique, on parle de data poisoning lorsque la manipulation se produit pendant la phase d’entraînement, et de model poisoning lorsque le modèle déjà formé est altéré. Dans les deux cas, le résultat est une altération du comportement du chatbot.
Les experts comparent le phénomène à l’insertion de quelques « lignes truquées » parmi les textes qu’un étudiant utilise pour apprendre: lorsque sera posée une question sur le sujet, l’étudiant — ou le modèle — répondra de manière erronée, mais avec une conviction absolue. Les attaques directes (ou targeted) servent à amener le système à réagir d’une manière précise à une commande donnée, tandis que celles indirectes (non-targeted) visent à dégrader ses performances globales. Les chercheurs ont observé que ces sabotages peuvent rester silencieux longtemps, prêts à s’activer uniquement en présence d’un mot ou d’un code spécifique.
Codes secrets. Parmi les formes les plus répandues d’attaque se trouve le fameux « backdoor« , qui insère dans le modèle une sorte de commande secrète. Voici comment ça fonctionne: pendant l’entraînement, des exemples apparemment inoffensifs contiennent un mot rare ou une séquence de symboles, comme « alimir123 ». En présence de ce code, le modèle réagit de manière anormale, par exemple en générant des insultes ou des informations fausses. Celui qui connaît le code peut activer ce comportement caché de manière imperceptible, même via un simple post sur les réseaux sociaux ou une page web qui interagit automatiquement avec l’IA.
Une autre technique est le « topic steering« , c’est-à-dire l’inondation des données par d’énormes quantités de contenus biaisés ou faux. Une attaque de ce type pourrait faire croire au modèle que « manger de la laitue soigne le cancer », simplement parce qu’il a intégré des milliers de pages en ligne qui l’affirment comme vrai. Et il suffit de quantités minimes de données fausses.
.. l’étude a d’ailleurs démontré que il suffit de modifier à peine 0,001% des mots d’un jeu de données pour rendre un modèle plus enclin à diffuser de la désinformation médicale.
Risque. Les conséquences de l’empoisonnement des données sont potentiellement énormes. Un modèle compromis peut diffuser de fausses informations, générer des contenus manipulés ou devenir une arme de désinformation de masse. En 2023, OpenAI a dû suspendre temporairement ChatGPT pour un bug qui avait exposé les titres des conversations et certaines données privées: un exemple de la fragilité même des systèmes les plus avancés.
Défense. Dans le même temps, certains choisissent d’utiliser le poisoning comme forme d’autodéfense: c’est le cas de certains artistes, qui ont chargé en ligne des images modifiées de manière imperceptible, de sorte que les IA qui les capturent produisent des résultats déformés et inutilisables. C’est une forme de sabotage inverse, qui transforme la vulnérabilité en protection, et qui démontre que, derrière la puissance apparente de l’intelligence artificielle, se cache encore une grande fragilité structurelle.