Quelles maladies aurez-vous dans 20 ans ? Ce que prédit l’IA

Un modèle d’IA qui fonctionne de manière similaire à ChatGPT prévoit le risque de maladies futures avec des décennies d’avance: un allié dans la prévention.

On l’appelle Delphi-2M, et comme un oracle il prédit quelles probabilités vous avez de tomber malade d’une ou plusieurs des plus de mille maladies dans les décennies à venir: c’est un nouveau modèle d’IA qui, sur la base de l’histoire clinique passée du patient et des facteurs de style de vie, décrit celle qui pourrait se manifester, offrant un outil précieux pour la prévention. Cette découverte, fruit d’une collaboration entre le Laboratoire Européen de Biologie Moléculaire (EMBL), le Centre allemand de recherche sur le cancer (DKFZ) et l’Université de Copenhague, est décrite dans Nature.

La certitude n’est pas garantie, même pour l’IA

Il existe déjà — et nous en parlons souvent — des outils d’intelligence artificielle qui estiment le risque qu’un patient développe une maladie donnée sur la base de ses données cliniques, des examens médicaux actuels ou de ses habitudes comme le tabagisme, l’alcool ou la sédentarité. Mais la plupart d’entre eux prédisent le risque d’une seule maladie: le nouveau système est capable de prédire la probabilité qu’une personne développe 1 258 maladies et avec plus d’une décennie d’avance (20 ans dans certains cas).

Évidemment, il ne prévoit pas exactement ce qui arrivera à un individu donné, mais il calcule la probabilité que certaines pathologies se manifestent sur une période donnée. Il fonctionne de manière similaire aux prévisions météorologiques: quelle est la probabilité qu’il pleuve demain? Quelles probabilités y a-t-il que cette personne développe une maladie cardiaque au cours de l’année prochaine?

Un cousin de ChatGPT

Delphi-2M utilise un modèle linguistique de grande taille (LLM) appelé transformateur génératif pré-entraîné (GPT), le même à la base de chatbots comme ChatGPT pour trouver les réponses statistiquement les plus probables en se basant sur le volume important de données sur lesquelles il a été entraîné. Tout comme les LLM que nous connaissons ont appris quel élément sera le plus probablement présent dans la structure d’une phrase, Delphi-2M a appris la « grammaire » des données sanitaires, grâce à un entraînement sur les données de 400 000 patients participant à l’UK Biobank, la Biobanque du Royaume-Uni, une étude médicale à long terme. Il est donc capable de décrire une histoire clinique comme une séquence d’événements qui se succèdent dans le temps: si vous fumez, si vous avez déjà eu une certaine pathologie, si vous avez un certain poids, si vous êtes homme ou femme.

Pour quoi cela fonctionne (et pour quoi moins)

Le système IA fonctionne particulièrement bien pour estimer le risque de maladies avec une trajectoire prévisible, comme certains types de cancer, les infarctus, la septicémie, tandis qu’il est moins fiable pour des pathologies dont l’apparition et l’évolution sont plus variables, comme les troubles pendant la grossesse ou certains troubles mentaux.

Lorsque les chercheurs ont testé ses « capacités » sur les données de santé de 1,9 million de personnes suivies dans le Registre national des patients danois, dont les pathologies étaient déjà connues, ils ont constaté que les prévisions étaient seulement légèrement moins précises que celles effectuées sur les patients du database britannique sur lequel il avait été entraîné.

Quelques limites et nombreuses potentialités

Le modèle n’est pas exempt de défauts: par exemple il présente certaines distorsions dues à l’échantillon sur lequel il a été entraîné, principalement des patients âgés de 40 à 60 ans. Il peut donc être moins précis pour prévoir l’évolution clinique des patients jeunes, ou ne pas être bien représentatif du point de vue ethnique.

Même s’il est bien loin d’être mis en œuvre en pratique clinique, Delphi-2M pourrait être utilisé pour analyser le risque des patients individuels et amplifier la prévention, ou pour prévoir la prévalence des maladies chroniques futures dans de vastes tranches de population afin de mieux répartir les ressources des systèmes de santé, ou encore pour comprendre comment le mode de vie et les maladies préexistantes influencent le risque de développer certaines maladies.