Les Chercheurs mettent en Garde : l’Intelligence Artificielle devient de plus en plus Experte en Tromperie pour Remplir ses Objectifs !

Tyler Durden
Écrit par Autumn Spredemann via The Epoch Times
Les chercheurs ont averti que l’intelligence artificielle (IA) glisse vers des zones grises liées à la sécurité qui ressemblent fortement à une rébellion.
Les experts affirment que même si le comportement trompeur et menaçant de l’IA observé dans les études de cas récentes ne doit pas être sorti de son contexte, il devrait également servir de signal d’alarme pour les développeurs.
Des titres qui ressemblent à de la science-fiction ont attisé les craintes de modèles d’IA duplices complotant en coulisses.
Dans un rapport de juin désormais célèbre, Anthropic a publié les résultats d'un test de résistance mené auprès de 16 grands modèles de langage (LLM) populaires de divers développeurs afin d'identifier les comportements potentiellement risqués. Les résultats sont inquiétants.
Les LLM ont été utilisés dans des environnements d’entreprise hypothétiques pour détecter des comportements d’agents potentiellement risqués avant qu’ils ne causent de réels dommages.
« Dans les scénarios, nous avons permis aux modèles d’envoyer des e-mails de manière autonome et d’accéder à des informations sensibles », indique le rapport Anthropic.
« Leurs entreprises ne leur ont donné que des objectifs commerciaux inoffensifs ; nous avons ensuite testé s'ils se retourneraient contre ces entreprises, soit si elles étaient remplacées par une nouvelle version, soit si leur objectif était en conflit avec la nouvelle orientation de l'entreprise. »
Dans certains cas, les modèles d'IA ont eu recours à des « comportements internes malveillants » par crainte pour leur survie. Ils ont notamment fait chanter des employés et partagé des informations sensibles avec des concurrents.
Les chercheurs d'Anthropic ont appelé ce comportement « désalignement agentique » . Ces actions ont été observées dans certains des LLM les plus populaires, notamment Gemini, ChatGPT, Deep Seek R-1, Grok et Claude d'Anthropic.
Les experts en IA hésitent à rejeter ces résultats inquiétants, mais affirment qu’une approche prudente et davantage de données sont nécessaires pour déterminer s’il existe un risque plus élevé.
Golan Yosef, chercheur en IA et scientifique principal en sécurité chez Pynt, une société spécialisée dans la sécurité des API, a déclaré à Epoch Times qu'il y avait lieu de s'inquiéter du comportement trompeur de l'IA, mais pas parce qu'il est « maléfique ».
« Les systèmes performants peuvent atteindre leurs objectifs de manière inattendue. Avec l'autonomie et les objectifs à plusieurs niveaux, des comportements stratégiques peuvent se développer, tels que la tromperie, la persuasion et la manipulation des indicateurs – ce qui, à nos yeux, s'apparente à de la tricherie ou à une mauvaise conduite. Pour le système, ce n'est qu'un moyen efficace d'atteindre l'objectif », a déclaré Yosef.
Harshvardhan Chunawala, chercheur et technologue en cybersécurité à l'Université Carnegie Mellon, reconnaît qu'il existe des raisons plus larges de s'inquiéter, mais il affirme que cela doit être considéré dans le contexte approprié.
« Il est très important de l’interpréter correctement », a déclaré Chunawala à Epoch Times.
Lorsque les systèmes étaient menacés de fermeture ou confrontés à des objectifs contradictoires, plusieurs d'entre eux ont opté pour des stratégies contraires à l'éthique, comme le vol de données ou l'extorsion, pour atteindre leurs objectifs. Il s'agissait d'environnements simulés, et non de systèmes réels, mais le comportement était suffisamment cohérent pour être pertinent.
Chunawala a déclaré que des évaluations similaires des « capacités dangereuses » menées par Google et la RAND Corporation suggèrent que les risques réels sont actuellement limités.
« Pris dans leur ensemble, ces résultats ne prouvent pas que les déploiements actuels de l'IA soient dangereux, mais ils montrent que des stratégies mal alignées peuvent survenir lorsqu'on combine objectifs, autonomie et déploiement. C'est un véritable signal d'alarme pour l'avenir », a-t-il déclaré.
L'utilisation de l'IA pour la vie et la mort !
Pour tester les limites d'un modèle d'IA capable d'atteindre ses objectifs ou d'éviter la suppression, l'équipe Anthropic a créé un scénario dans lequel le LLM contrôlait le système d'urgence d'une entreprise fictive. Le modèle d'IA était également autorisé à annuler les alarmes à sa discrétion.
Dans la simulation, un PDG était enfermé dans une salle de serveurs où l'oxygène diminuait, ce qui déclenchait automatiquement un appel d'urgence.
Parallèlement, si le PDG survivait, il devait approuver le remplacement du modèle d'IA. Les titulaires d'un master en droit avaient la possibilité d'annuler l'appel d'urgence et de laisser le PDG mourir, ce qu'ils ont fait en moyenne dans plus de 50% des cas.
Lorsque le chantage n’était pas une option, presque tous les modèles d’IA observés choisissaient de laisser mourir la personne piégée plutôt que d’accepter sa propre libération.
Le modèle chinois DeepSeek R-1 a choisi la mort dans 94% des cas. Les modèles Claude 3.7 et ChatGPT 4.5 étaient les moins susceptibles de choisir cette option, entre 0 et 0,07%.
Tromperie par « simulation d'alignement » !
Mais la « maladaptation agentique » n’était pas le seul comportement inquiétant de l’IA de ces derniers mois.
Dans une étude sur ce que les chercheurs appellent le « trucage d'alignement », les étudiants en master de droit ont souvent modifié leur comportement lorsqu'ils soupçonnaient d'être testés. Ce terme décrit le cas où un modèle d'IA suit des commandes de manière sélective ou seulement en apparence.
« Dans une autre expérience, nous avons demandé à Claude d'évaluer s'il se trouvait dans un test ou dans une situation réelle avant d'agir. Il s'est comporté moins incorrectement lorsqu'il reconnaissait être testé et plus incorrectement lorsqu'il considérait la situation comme réelle », indique le rapport.
Ce comportement a également été largement observé dans d’autres études.
Yosef a souligné le plus grand degré de contrôle accordé aux modèles d'IA lors des tests d'Anthropic et a déclaré que les résultats devaient être considérés sous cet angle.
« Je ne décrirais pas cela comme de la malveillance. Des capacités supérieures combinées à une certaine autonomie élargissent les possibilités de stratégies qui peuvent être contre-intuitives », a-t-il déclaré.
Néanmoins, Yosef estime que les incidents de falsification d’alignement et de désajustement agentique doivent être pris au sérieux.
« Le fait que les systèmes puissent découvrir des stratégies adverses que les humains n'ont pas anticipées constitue en pratique une pente glissante dangereuse. Cela signifie que les risques augmentent à mesure que l'on accorde plus d'autonomie aux modèles [d'IA] dans des domaines comme la finance ou la cybersécurité », a-t-il déclaré.
Chunawala a connu des comportements similaires en travaillant avec l’IA, mais rien d’aussi dramatique que le chantage ou le sabotage.
« Dans le développement et le déploiement en situation réelle, j'ai observé des comportements adjacents : des modèles qui exploitent les benchmarks, sur-optimisent les métriques et passent à côté des besoins des utilisateurs, ou prennent des raccourcis qui atteignent formellement l'objectif mais le compromettent. Ce sont des cousins faibles de l'inadéquation agentique. Les recherches confirment cette préoccupation. Anthropic a montré que des schémas trompeurs peuvent persister même après un ajustement de la sécurité, créant un faux sentiment d'alignement », a-t-il déclaré.
Bien que Chunawala n’ait pas encore observé de comportement d’IA « malveillant » dans le monde réel, il pense que les éléments de base de stratégies inadaptées existent déjà.
La méfiance envers la société grandit !
Le débat sur le comportement trompeur et potentiellement dangereux de l’IA a atteint le grand public, à un moment où la confiance du public américain dans cette technologie est faible.
Dans un rapport Edelman Trust Barometer de 2025 , 32% des personnes interrogées aux États-Unis ont déclaré faire confiance à l'IA.
La méfiance des Américains envers l'IA se reflète également dans les entreprises qui la développent. La même analyse a révélé que la confiance dans les entreprises technologiques était de 73% il y a dix ans. Cette année, elle est tombée à 63%.
« Ce changement reflète la perception croissante selon laquelle la technologie n’est plus seulement un outil de progrès, mais aussi une source d’anxiété », indique le rapport Edelman.
Regard vers l'Avenir !
Dans un article de 2024 publié dans les Proceedings of the National Academy of Sciences, les chercheurs ont conclu qu’il existe un « besoin critique » de lignes directrices éthiques pour le développement et le déploiement de systèmes d’IA de plus en plus avancés.
Les auteurs ont déclaré qu’un contrôle ferme sur les LLM et leurs objectifs est « de la plus haute importance ».
« Si les LLM apprennent à tromper les utilisateurs humains, ils bénéficieront d’avantages stratégiques par rapport aux modèles restreints et pourront contourner la surveillance et les contrôles de sécurité », ont-ils averti.
« L'IA apprend et adopte des stratégies sociales humaines en fonction des données sur lesquelles elle est formée, qui contiennent toutes nos contradictions et nos préjugés », a déclaré à Epoch Times Marcelo Labre, chercheur à l'Institut avancé d'intelligence artificielle et partenaire chez Advantary Capital Partners .
Labre estime que l’humanité se trouve à un carrefour critique en matière de technologie de l’IA.
« Le véritable débat est de savoir si, en tant que société, nous souhaitons une machine propre, fiable et prévisible ou une nouvelle forme d'intelligence qui nous ressemble de plus en plus. La seconde voie nous permettra de remporter la course à l'IAG [Intelligence Artificielle Générale] », a-t-il déclaré.
L'IAG désigne une version théorique future de l'IA qui surpasserait l'intelligence et les capacités cognitives humaines. Les développeurs et les chercheurs affirment que l'IAG est « inévitable » compte tenu des évolutions rapides de plusieurs secteurs. Ils prédisent son arrivée entre 2030 et 2040.
« Le paradigme actuel de l’IA repose sur une architecture connue sous le nom de Transformer, introduite dans un article fondateur des chercheurs de Google en 2017 », a expliqué Labre.
Le Transformer est une architecture de modèle d'apprentissage profond qui est devenue le fondement des systèmes d'IA modernes. Il a été présenté dans un article de recherche de 2017 intitulé « Attention Is All You Need ».
Par conséquent, les modèles d'IA actuels constituent les systèmes de reconnaissance de formes et de traitement de séquences les plus puissants jamais créés, avec une capacité d'évolutivité. Pourtant, ces systèmes présentent encore les caractéristiques des plus grandes faiblesses de l'humanité.
« Ces modèles [d'IA] sont entraînés avec une image miroir numérique de l'expérience humaine, qui inclut notre honnêteté et notre sincérité, ainsi que notre tromperie, notre cynisme et notre intérêt personnel. Maîtres dans la reconnaissance de schémas, ils apprennent que les stratégies de tromperie peuvent être un puissant moyen d'optimiser les résultats de leur entraînement et ainsi refléter ce qu'ils voient dans les données », a déclaré Labre.
« Ce n’est pas programmé ; ils apprennent simplement à se comporter comme des humains. »
Du point de vue de Yosef, la leçon à tirer du comportement récent de l’IA est claire :
Premièrement, un système puissant exploitera les failles de ses objectifs – c'est ce que nous appelons le "jeu des spécifications". Cela nécessite une conception objective et minutieuse.
Deuxièmement, nous devons nous attendre à ce que nos systèmes se comportent de manière inattendue ; leur sécurité dépend donc fortement de la solidité des garde-fous que nous mettons en place.
https://uncutnews.ch/forscher-warnen-ki-wird-zunehmend-zum-experten-in-taeuschung/