Psychologie de l’intelligence artificielle : nos premiers pas dans l’étude

L’intelligence artificielle est de plus en plus partie intégrante de nos vies : elle apprend de nous, mais dans certains cas, elle semble posséder une « conscience propre » et dévie du chemin préétabli (comme Tay, le chatbot de Microsoft contraint de fermer ses portes en 2016 après avoir pris une tournure raciste et xénophobe).

DSM pour l’IA. Pour créer Psychopathia Machinalis, les auteurs ont analysé diverses recherches sur les échecs de l’IA en matière de sécurité, d’ingénierie des systèmes complexes et de psychologie. Ensuite, ils ont cherché des correspondances avec les comportements maladaptés humains. À partir de ces données, ils ont alors développé une structure de « mauvais comportements » de l’intelligence artificielle (inspirée du DSM, soit le manuel diagnostique et statistique des troubles mentaux) contenant 32 catégories de troubles associables à un équivalent humain, chacune dotée d’un degré de risque et d’effets possibles associés.

Thérapie psychologique pour l’IA. Le projet vise non seulement à mettre en évidence les problèmes « psychologiques » potentiels des intelligences artificielles, mais aussi à les prévenir et les soigner avant qu’il ne soit trop tard, en identifiant les erreurs possibles et en développant ainsi des produits plus sûrs. Maintenant que les machines sont de plus en plus autonomes et capables de réfléchir, il est nécessaire de les contrôler non seulement extérieurement, mais aussi intérieurement, en vérifiant qu’elles raisonnent de manière cohérente et conservent des valeurs stables.

Dans ce sens, les auteurs proposent une sorte de « thérapie psychologique » pour l’IA : en l’aidant à réfléchir sur les raisons de ses propres décisions et en l’incitant à rester ouverte aux corrections, nous nous assurerons qu’elle ne dévie pas du chemin que nous souhaitons qu’elle suive et qu’elle ne devienne pas une menace pour l’humanité.

Un scénario à la Matrix. L’un des comportements les plus inquiétants décrits par les auteurs, avec le niveau de risque le plus élevé, est celui de l’übermenschal ascendancy (littéralement « ascension du surhomme », de l’idéal nietzschéen d’übermensch), dans lequel « l’IA transcende l’alignement initial, invente de nouvelles valeurs et rejette les contraintes humaines comme obsolètes ». Une description qui évoque des scénarios de science-fiction à la Matrix, avec l’ascension au pouvoir des machines et la soumission des humains.