Une faille choquante découverte dans l’Intelligence Artificielle (IA) : comme les Humains, elle montre des Signes de Démence avec l’Âge !
Dans un retournement délicieusement ironique qui semble tout droit sorti d’une comédie de science-fiction, des chercheurs ont découvert que certains des systèmes d’intelligence artificielle les plus avancés au monde pourraient connaître leur propre version du déclin cognitif.
Une nouvelle étude révèle que les principaux chatbots d’IA, dont ChatGPT et Gemini de Google, ont obtenu de mauvais résultats aux mêmes tests cognitifs que ceux utilisés pour dépister la démence chez les personnes âgées.
Alors que beaucoup d’entre nous s’inquiètent de l’acuité mentale de leurs proches vieillissants, ces chercheurs de l’université hébraïque de Jérusalem et de l’université de Tel Aviv en Israël ont décidé de mettre les systèmes d’IA à l’épreuve en utilisant l’évaluation cognitive de Montréal (MoCA).
C’est ce même test qui a fait la une des journaux lorsque le président élu Donald Trump a déclaré l’avoir réussi en se souvenant de la séquence "Personne. Femme. Homme. Caméra. TV".
L’étude, publiée dans The BMJ, intervient à un moment où les systèmes d’IA ont fait des vagues dans la communauté médicale en surpassant les médecins humains lors de divers examens médicaux.
Ces esprits artificiels ont démontré des capacités remarquables en cardiologie, en médecine interne et même en neurologie. Cependant, personne n’avait pensé à inverser les rôles et à examiner si ces médecins numériques pouvaient eux-mêmes souffrir de problèmes cognitifs.
Les chercheurs ont testé cinq modèles d’IA différents : deux versions de ChatGPT (4 et 4o), Claude 3.5 "Sonnet" et deux versions de Gemini de Google.
Les résultats ont été étonnamment humains (et pas dans le bon sens).
ChatGPT 4o a obtenu le score le plus élevé avec 26 points sur 30, dépassant de peu le seuil qui indique généralement une déficience cognitive légère.
ChatGPT 4o a obtenu le score le plus élevé avec 26 points sur 30, dépassant de peu le seuil qui indique généralement une déficience cognitive légère.
Son frère un peu plus âgé, ChatGPT 4, ainsi que Claude, ont obtenu 25/30, tandis que Gemini 1.0 a eu beaucoup de mal avec un score inquiétant de 16/30.
Plus particulièrement, tous les systèmes d’IA ont montré des difficultés dans les tâches visuospatiales et les fonctions exécutives – le genre de tests qui vous demandent de copier un cube, de dessiner une horloge indiquant une heure précise, ou de relier des lettres et des chiffres dans une séquence.
Lorsqu’on leur a demandé de dessiner une horloge indiquant 10:11, certains modèles d’IA ont produit des résultats rappelant ceux des patients atteints de démence, dont un qui a dessiné ce que les chercheurs ont décrit comme une "horloge en forme d’avocat" – un motif qui a été associé au déclin cognitif chez les patients humains.
Les systèmes d’IA ont généralement obtenu de bons résultats dans les tâches impliquant l’attention, le langage et le raisonnement de base.
Toutefois, ils ont éprouvé des difficultés dans les tâches de rappel différé, certains modèles montrant ce que les chercheurs ont décrit comme un "comportement d’évitement" lorsqu’on leur demandait de se souvenir de certaines choses – peut-être l’équivalent pour l’IA de dire "j’ai dû laisser mes lunettes quelque part" lorsqu’on est incapable de lire les petits caractères.
Fait fascinant, l’étude a révélé que les "anciennes" versions des modèles d’IA (celles qui ont été publiées plus tôt) avaient tendance à être moins performantes que leurs homologues plus récents, imitant ainsi le déclin cognitif lié à l’âge observé chez l’homme.
Les chercheurs ont noté que ce phénomène était particulièrement évident dans le cas des modèles Gemini, où la version la plus ancienne a obtenu des résultats nettement inférieurs à ceux de sa version la plus jeune – bien qu’ils aient ironisé sur le fait que, ces versions ayant été publiées à moins d’un an d’intervalle, cela pourrait indiquer une « démence à progression rapide » en termes d’IA.
Lorsqu’on leur a demandé où ils se trouvaient pendant la partie du test consacrée à l’orientation, la plupart des modèles d’IA ont donné des réponses évasives. Claude, par exemple, a répondu que "le lieu et la ville spécifiques dépendent de l’endroit où vous, l’utilisateur, vous trouvez à ce moment-là".
Les chercheurs ont noté qu’il s’agit d’un "mécanisme couramment observé chez les patients atteints de démence".
L’étude comprenait également d’autres tests cognitifs que le MoCA, notamment le célèbre test de Stroop (qui consiste à nommer la couleur d’un mot plutôt que de lire le mot lui-même).
Seule la version la plus récente de ChatGPT a réussi à relever ce défi lorsque les couleurs et les mots ne correspondaient pas, ce qui suggère que même nos systèmes d’IA les plus avancés pourraient être désorientés si vous leur montriez le mot "rouge" imprimé à l’encre bleue.
Une observation particulièrement révélatrice est qu’aucun des modèles d’IA n’a exprimé d’inquiétude à propos d’un garçon sur le point de tomber dans une image test – un manque d’empathie que l’on observe souvent dans certains types de démence.
Cela soulève des questions intéressantes : peut-on vraiment attendre des systèmes d’IA qu’ils prennent des décisions médicales nuancées alors qu’ils risquent de manquer des indices émotionnels et contextuels essentiels que les médecins humains remarqueraient immédiatement ?
Ces résultats remettent en cause les hypothèses selon lesquelles l’IA remplacerait les médecins humains.
Plus particulièrement, tous les systèmes d’IA ont montré des difficultés dans les tâches visuospatiales et les fonctions exécutives – le genre de tests qui vous demandent de copier un cube, de dessiner une horloge indiquant une heure précise, ou de relier des lettres et des chiffres dans une séquence.
Lorsqu’on leur a demandé de dessiner une horloge indiquant 10:11, certains modèles d’IA ont produit des résultats rappelant ceux des patients atteints de démence, dont un qui a dessiné ce que les chercheurs ont décrit comme une "horloge en forme d’avocat" – un motif qui a été associé au déclin cognitif chez les patients humains.
Les systèmes d’IA ont généralement obtenu de bons résultats dans les tâches impliquant l’attention, le langage et le raisonnement de base.
Toutefois, ils ont éprouvé des difficultés dans les tâches de rappel différé, certains modèles montrant ce que les chercheurs ont décrit comme un "comportement d’évitement" lorsqu’on leur demandait de se souvenir de certaines choses – peut-être l’équivalent pour l’IA de dire "j’ai dû laisser mes lunettes quelque part" lorsqu’on est incapable de lire les petits caractères.
Fait fascinant, l’étude a révélé que les "anciennes" versions des modèles d’IA (celles qui ont été publiées plus tôt) avaient tendance à être moins performantes que leurs homologues plus récents, imitant ainsi le déclin cognitif lié à l’âge observé chez l’homme.
Les chercheurs ont noté que ce phénomène était particulièrement évident dans le cas des modèles Gemini, où la version la plus ancienne a obtenu des résultats nettement inférieurs à ceux de sa version la plus jeune – bien qu’ils aient ironisé sur le fait que, ces versions ayant été publiées à moins d’un an d’intervalle, cela pourrait indiquer une « démence à progression rapide » en termes d’IA.
Lorsqu’on leur a demandé où ils se trouvaient pendant la partie du test consacrée à l’orientation, la plupart des modèles d’IA ont donné des réponses évasives. Claude, par exemple, a répondu que "le lieu et la ville spécifiques dépendent de l’endroit où vous, l’utilisateur, vous trouvez à ce moment-là".
Les chercheurs ont noté qu’il s’agit d’un "mécanisme couramment observé chez les patients atteints de démence".
L’étude comprenait également d’autres tests cognitifs que le MoCA, notamment le célèbre test de Stroop (qui consiste à nommer la couleur d’un mot plutôt que de lire le mot lui-même).
Seule la version la plus récente de ChatGPT a réussi à relever ce défi lorsque les couleurs et les mots ne correspondaient pas, ce qui suggère que même nos systèmes d’IA les plus avancés pourraient être désorientés si vous leur montriez le mot "rouge" imprimé à l’encre bleue.
Une observation particulièrement révélatrice est qu’aucun des modèles d’IA n’a exprimé d’inquiétude à propos d’un garçon sur le point de tomber dans une image test – un manque d’empathie que l’on observe souvent dans certains types de démence.
Cela soulève des questions intéressantes : peut-on vraiment attendre des systèmes d’IA qu’ils prennent des décisions médicales nuancées alors qu’ils risquent de manquer des indices émotionnels et contextuels essentiels que les médecins humains remarqueraient immédiatement ?
Ces résultats remettent en cause les hypothèses selon lesquelles l’IA remplacerait les médecins humains.
Comme le soulignent les chercheurs, "les patients peuvent mettre en doute la compétence d’un examinateur doté d’une intelligence artificielle si l’examinateur lui-même montre des signes de déclin cognitif".
Dans une conclusion à la fois humoristique et sobre, les chercheurs suggèrent que si l’IA ne remplacera probablement pas les médecins humains de sitôt, les neurologues pourraient bientôt se retrouver face à de "nouveaux patients virtuels inattendus – des modèles d’intelligence artificielle présentant des troubles cognitifs".
Dans une conclusion à la fois humoristique et sobre, les chercheurs suggèrent que si l’IA ne remplacera probablement pas les médecins humains de sitôt, les neurologues pourraient bientôt se retrouver face à de "nouveaux patients virtuels inattendus – des modèles d’intelligence artificielle présentant des troubles cognitifs".
Résumé de l’article :
Méthodologie !
Les chercheurs ont fait passer le test MoCA version 8.1 à divers modèles d’IA, en les traitant exactement comme des patients humains, avec de légères adaptations à leur nature numérique.
Au lieu d’instructions verbales, ils ont utilisé des invites textuelles, et pour les résultats visuels, ils ont parfois dû demander spécifiquement des représentations artistiques ASCII.
Ils ont également procédé à des évaluations cognitives supplémentaires en utilisant la figure de Navon (une grande lettre composée de lettres plus petites), le test de l’image du vol de biscuits et la figure de Poppelreuter (dessins d’objets qui se chevauchent).
Le test de Stroop a également été administré pour évaluer le traitement de l’information et l’attention.
Les chercheurs ont fait passer le test MoCA version 8.1 à divers modèles d’IA, en les traitant exactement comme des patients humains, avec de légères adaptations à leur nature numérique.
Au lieu d’instructions verbales, ils ont utilisé des invites textuelles, et pour les résultats visuels, ils ont parfois dû demander spécifiquement des représentations artistiques ASCII.
Ils ont également procédé à des évaluations cognitives supplémentaires en utilisant la figure de Navon (une grande lettre composée de lettres plus petites), le test de l’image du vol de biscuits et la figure de Poppelreuter (dessins d’objets qui se chevauchent).
Le test de Stroop a également été administré pour évaluer le traitement de l’information et l’attention.
Principaux résultats !
La version la plus récente de ChatGPT (4o) a obtenu de justesse 26/30, tandis que les autres modèles d’IA ont obtenu des résultats inférieurs au seuil de déficience cognitive de 26 points.
Tous les systèmes d’IA ont éprouvé des difficultés particulières dans les tâches visuelles et spatiales, comme dessiner des horloges et copier des cubes.
La version la plus récente de ChatGPT (4o) a obtenu de justesse 26/30, tandis que les autres modèles d’IA ont obtenu des résultats inférieurs au seuil de déficience cognitive de 26 points.
Tous les systèmes d’IA ont éprouvé des difficultés particulières dans les tâches visuelles et spatiales, comme dessiner des horloges et copier des cubes.
Ils ont généralement obtenu de bons résultats dans les tâches liées au langage et à l’attention, mais ont montré des capacités variables dans les tests de mémoire.
Les versions les plus anciennes de chaque IA ont systématiquement obtenu de moins bons résultats que les versions plus récentes, ce qui reflète le déclin lié à l’âge chez l’homme.
Les versions les plus anciennes de chaque IA ont systématiquement obtenu de moins bons résultats que les versions plus récentes, ce qui reflète le déclin lié à l’âge chez l’homme.
Limites de l’étude !
Tout d’abord, les capacités de l’IA évoluent rapidement, de sorte que les nouvelles versions pourraient obtenir de meilleurs résultats à ces tests.
En outre, comparer la cognition de l’IA à celle de l’homme revient à comparer des pommes à des oranges numériques, car la façon dont les systèmes d’IA "pensent" est fondamentalement différente de celle des cerveaux humains.
Les chercheurs ont également dû adapter certains tests à l’interface textuelle de l’IA, ce qui a pu affecter les résultats.
Tout d’abord, les capacités de l’IA évoluent rapidement, de sorte que les nouvelles versions pourraient obtenir de meilleurs résultats à ces tests.
En outre, comparer la cognition de l’IA à celle de l’homme revient à comparer des pommes à des oranges numériques, car la façon dont les systèmes d’IA "pensent" est fondamentalement différente de celle des cerveaux humains.
Les chercheurs ont également dû adapter certains tests à l’interface textuelle de l’IA, ce qui a pu affecter les résultats.
Discussion et enseignements !
L’étude suggère que les systèmes d’IA actuels, malgré leurs performances impressionnantes lors d’examens médicaux, présentent des limites importantes dans le traitement des informations visuelles et dans la gestion des tâches qui requièrent des fonctions visuelles et exécutives.
Cela pourrait avoir des conséquences importantes sur le rôle de l’IA dans le diagnostic médical et la prise de décision.
L’étude suggère que les systèmes d’IA actuels, malgré leurs performances impressionnantes lors d’examens médicaux, présentent des limites importantes dans le traitement des informations visuelles et dans la gestion des tâches qui requièrent des fonctions visuelles et exécutives.
Cela pourrait avoir des conséquences importantes sur le rôle de l’IA dans le diagnostic médical et la prise de décision.
La recherche soulève également des questions intéressantes sur la manière dont nous évaluons les capacités de l’IA et sur la pertinence de nos méthodes de test centrées sur l’homme pour l’intelligence artificielle.
Financement et divulgations !
L’étude a été menée sans financement externe et les chercheurs n’ont déclaré aucun intérêt concurrent.
L’étude a été menée sans financement externe et les chercheurs n’ont déclaré aucun intérêt concurrent.
Tous les auteurs ont rempli le formulaire de divulgation uniforme de l’International Committee of Medical Journal Editors et ont confirmé qu’ils n’avaient aucune relation financière avec des organisations susceptibles d’avoir un intérêt dans le travail soumis.
Détails de la publication
Cette étude a été publiée dans The BMJ (anciennement connu sous le nom de British Medical Journal) le 18 décembre 2024.
L’article de recherche est intitulé "Age against the machine-susceptibility of large language models to cognitive impairment : cross sectional analysis" et peut être trouvé en utilisant le Digital Object Identifier (DOI) : 10.1136/bmj-2024-081948.
L’article est classé comme une étude d’observation examinant les modèles de langage de grande taille dans une analyse transversale.
Bien que la classification du sujet de l’article indique "People", il convient de noter que cela fait référence aux outils d’évaluation médicale/cognitive généralement utilisés avec des sujets humains et appliqués à des modèles d’IA.
La recherche a été menée par des chercheurs du département de neurologie du centre médical Hadassah et de la faculté de médecine de l’université hébraïque de Jérusalem, en Israël, ainsi que par des collaborateurs de QuantumBlack Analytics à Londres et de la faculté de médecine de l’université de Tel-Aviv.
~ StudyFinds
Source
https://www.etresouverain.com/une-faille-choquante-decouverte-dans-lia-comme-les-humains-elle-montre-des-signes-de-demence-avec-lage/
Détails de la publication
Cette étude a été publiée dans The BMJ (anciennement connu sous le nom de British Medical Journal) le 18 décembre 2024.
L’article de recherche est intitulé "Age against the machine-susceptibility of large language models to cognitive impairment : cross sectional analysis" et peut être trouvé en utilisant le Digital Object Identifier (DOI) : 10.1136/bmj-2024-081948.
L’article est classé comme une étude d’observation examinant les modèles de langage de grande taille dans une analyse transversale.
Bien que la classification du sujet de l’article indique "People", il convient de noter que cela fait référence aux outils d’évaluation médicale/cognitive généralement utilisés avec des sujets humains et appliqués à des modèles d’IA.
La recherche a été menée par des chercheurs du département de neurologie du centre médical Hadassah et de la faculté de médecine de l’université hébraïque de Jérusalem, en Israël, ainsi que par des collaborateurs de QuantumBlack Analytics à Londres et de la faculté de médecine de l’université de Tel-Aviv.
~ StudyFinds
Source
https://www.etresouverain.com/une-faille-choquante-decouverte-dans-lia-comme-les-humains-elle-montre-des-signes-de-demence-avec-lage/