Le russe, le finlandais, l’italien et le japonais semblent être des langues qui ont peu ou pas de points communs. Or, une étude publiée récemment dans Proceedings of the Royal Society B a révélé que ces langues et dix-huit autres évoluent de façon étonnamment similaire, et que les mots se forment et se réorganisent selon quatre règles universelles.
La découverte a été rendue possible grâce à l’aide de l’intelligence artificielle.
Word embedding et IA
L’idée de l’étude, menée sur sept ans, visait à comprendre comment les langues évoluaient à grande échelle, en cherchant à identifier des règles universelles dans la formation de nouveaux mots (néologismes comme apericena ou social detox). Pour ce faire, les chercheurs se sont appuyés sur le word embedding, une technique qui transforme les mots en nombres permettant aux systèmes d’IA de comparer la sémantique entre les langues : « Avec les word embeddings, chaque mot du vocabulaire est associé à un point précis dans un espace, et les mots ayant des significations similaires sont représentés par des points proches les uns des autres », explique à la testata The Debrief Steven Skiena, l’un des auteurs.
Pour être clair : « chien » et « oiseau » sont des points proches, « chien » et « vélo » loin.
Ils ont ensuite alimenté l’IA avec d’immenses quantités de données concernant 22 langues (dont l’italien), incluant dans certains cas des groupes de vocabulaire utilisés autrefois, remontant même à l’époque médiévale, afin de vérifier l’existence de règles universelles de formation et de distribution des mots, valables indépendamment du type de langue.
Quatre règles universelles
L’analyse a fait émerger quatre règles universelles. La première est que les mots les plus populaires ont tendance à se regrouper entre eux, loin de ceux qui sont les plus rares; ils s’organisent en groupes hiérarchisés, qui se fondent progressivement de manière similaire dans toutes les langues à mesure que le niveau de généralisation du terme augmente (par exemple en allant de « chien » et « chiot », termes presque identiques, à « animal » et « être vivant ») ; les néologismes se forment presque toujours dans les mêmes domaines sémantiques où apparaissent de nouveaux mots récemment.
Enfin, la variabilité dans la création de nouveaux mots suit la loi de Taylor (Taylor’s power law), une règle bien connue en écologie et en biologie selon laquelle plus le nombre moyen d’individus dans une zone est élevé, plus les fluctuations de ce nombre sont importantes. Appliquée à la linguistique, et plus précisément à la naissance de mots, cela signifie que dans les zones où naissent en moyenne beaucoup de mots, les fluctuations sont importantes (par exemple, dans un siècle 200 mots naissent, le siècle suivant 2), tandis que dans les zones où naissent en moyenne peu de mots, la variabilité est minimale.
À l’avenir, les word embeddings pourraient devenir un outil précieux pour étudier l’histoire des langues et des cultures, et l’intelligence artificielle un allié pour comprendre plus finement les mécanismes de développement du langage, éclairant de nouveaux aspects de l’évolution linguistique et culturelle, y compris en France.