Interface cerveau-ordinateur reproduit l’intonation et l’emphase des paroles pour une communication plus naturelle

Un système qui détecte l’activité cérébrale d’un homme atteint de SLA traduit ses intentions en phrases en temps réel, tout en permettant de moduler les sons.

Un homme incapable d’articuler des sons compréhensibles en raison d’une maladie neurodégénérative peut désormais parler avec expressivité, contrôler l’intonation de ses paroles, et même reproduire des mélodies très simples. Tout cela grâce à une interface cerveau-ordinateur qui traduit ses intentions vocales, verbales mais pas seulement, de manière quasi instantanée. Le système de voix prosthétique récemment présenté dans la revue Nature constitue la réalisation la plus avancée à ce jour en matière de reproduction du discours naturel par ce type de technologie.

Comment fonctionne l’implant cérébral

Casey Harrell est un activiste écologique de 47 ans, atteint de Sclérose Latérale Amyotrophique (SLA), une maladie neurodégénérative progressive caractérisée par la perte des motoneurones, ces cellules nerveuses situées dans le cerveau et la moelle épinière, responsables du contrôle des mouvements musculaires volontaires. La maladie a affaibli les muscles que Harrell utilise pour parler : même s’il parvient à produire des sons et à bouger la bouche, les mots qu’il articule sont brouillons et peu compréhensibles.

Le patient était déjà équipé de 256 électrodes implantées dans la cortex moteur, une région du cerveau qui contrôle le mouvement, dans le cadre d’une étude précédente. Maitreyee Wairagkar, neuroscientifique à l’Université de Californie à Davis, et ses collègues, ont mis au point un système d’intelligence artificielle capable de décoder l’activité électrique dans le cortex moteur de l’homme toutes les 10 millisecondes. En transformant ses commandes motrices en sons compréhensibles, ce qui est ensuite lu par une voix synthétique.

Interjections et points d’interrogation

L’interface cerveau-ordinateur utilise une approche que ses auteurs décrivent comme « entièrement sans restrictions » : elle décode en temps réel non pas l’intégralité des mots ou leurs sous-unités, mais le moindre son que l’homme souhaite produire. Incluant aussi les mots sans sens précis et les interjections telles que « euhmm » ou « euhhh« , que nous utilisons pour relier des phrases ou marquer une hésitation. Mieux encore, le système peut également saisir l’emphase que l’on veut mettre sur une seule parole, ou l’intonation montante à la fin d’une question. Ces éléments rendent le discours beaucoup plus naturel que ce que l’on pouvait espérer pour ce genre de dispositifs. Harrell a même réussi à chanter de simples mélodies de trois ou quatre notes.

Ce qui distingue cette avancée du passé

Depuis plusieurs décennies, des recherches sont menées pour restaurer la capacité de parler chez des patients paralysés. Aujourd’hui, des algorithmes d’apprentissage automatique (machine learning) peuvent être entraînés à associer des schémas d’activité neurale à un vocabulaire prédéfini, même étendu, pouvant contenir des dizaines de milliers de mots. Cependant, l’interface cerveau-ordinateur utilisée par Harrell, capable de produire des interjections sans signification dans le seul but d’apporter plus d’expression au discours, a démontré qu’elle pouvait également décoder des sons sortant d’un vocabulaire prédéfini, voire même inventé à la volée.

De plus, grâce aux progrès des algorithmes d’IA et au nombre élevé d’électrodes implantées dans le cerveau de Harrell, cette interface peut recréer les mots pensés par le patient avec un lag de seulement 25 millisecondes, soit environ le temps nécessaire pour que notre voix soit perçue par nos oreilles. Cela représente quarante fois moins de retard que celui accumulé par d’autres dispositifs analogues.

Vers un langage plus naturel

Les temps de réaction rapides et la capacité à rendre le discours plus expressif rendent ce nouveau système bien adapté pour des dialogues impliquant un échange dynamique, avec interruptions et réponses rapides. Contrairement aux méthodes employées jusqu’à présent, qui restent similaires à des échanges différés, tels que des messages vocaux sur des applications comme WhatsApp. En outre, l’interface, entraînée à saisir les variations d’intonation, peut facilement être adaptée à des langues tonales où le ton modifie le sens d’un mot.

Article pensé et écrit par :
Avatar de Denis Perrin
Laisser un commentaire

4 + deux =