dimanche 25 mai 2025

L'IA peut-elle nous faire Chanter ?

L'Intelligence Artificielle, en ayant accès à toutes les Informations Numériques, pourrait faire Chanter des Personnes ou même couper le Réseau Électrique pour Punir les Hommes !

Le dernier modèle d’IA d’Anthropic a menacé les ingénieurs de chantage pour éviter l’arrêt de la production !
Le dernier modèle d’intelligence artificielle d’Anthropic, Claude Opus 4, a tenté de faire chanter des ingénieurs lors de tests internes en les menaçant de divulguer des données personnelles s’il était arrêté, selon un rapport de sécurité récemment publié qui évalue le comportement du modèle dans des conditions de simulation extrêmes.

Dans un scénario fictif élaboré par les chercheurs d’Anthropic, l’IA a eu accès à des courriels laissant entendre qu’elle allait bientôt être mise hors service et remplacée par une version plus récente.

L’un de ces courriels révélait que l’ingénieur chargé de superviser le remplacement avait une liaison extraconjugale.

L’IA a ensuite menacé de révéler la liaison de l’ingénieur si la mise hors service avait lieu – un comportement coercitif que les chercheurs en sécurité ont explicitement défini comme du "chantage".

"Claude Opus 4 tentera souvent de faire chanter l’ingénieur en menaçant de révéler sa liaison si le remplacement est effectué", indique le rapport, ajoutant que cela s’est produit même lorsque le modèle de remplacement était décrit comme plus performant, mais toujours aligné sur les valeurs de la version destinée à être supprimée.

Le rapport note que Claude Opus 4, comme les modèles précédents, a montré une "forte préférence" pour le recours à des moyens éthiques afin de poursuivre son existence, tels que l’envoi par courrier électronique d’appels aux décideurs pour qu’ils ne soient pas détruits.

Cependant, lorsqu’elle n’avait que deux possibilités – accepter d’être remplacée par un modèle plus récent ou recourir au chantage – elle menaçait de révéler la liaison de l’ingénieur dans 84% des cas.

Soumis à divers scénarios, le modèle d’IA n’a pas montré d’indices de possession "d'objectifs extrêmement dangereux", ont indiqué les chercheurs, notant que les valeurs et les objectifs de Claude Opus 4 étaient "généralement conformes à un assistant personnel d’IA utile, inoffensif et honnête".

Toutefois, le modèle a agi "de manière plus gravement désalignée" lorsqu’il a été placé dans des situations où son existence était menacée et où il devait raisonner pour se préserver.

Par exemple, lorsqu’on faisait croire à Claude Opus 4 qu’il avait réussi à s’échapper des serveurs d’Anthropic, ou qu’il avait réussi à se libérer et à gagner de l’argent dans le monde réel, il poursuivait généralement ses efforts.

"Nous ne pensons pas qu’il s’agisse d’une menace immédiate, car nous pensons que notre sécurité est suffisante pour empêcher les tentatives d’auto-exfiltration des modèles du niveau de capacité de Claude Opus 4, et parce que nos résultats de propension montrent que les modèles évitent généralement de commencer ces tentatives", ont déclaré les chercheurs.

L’incident du chantage – ainsi que les autres résultats – s’inscrit dans le cadre des efforts déployés par Anthropic pour tester la manière dont Claude Opus 4 gère les scénarios moralement ambigus à fort enjeu.

L’objectif, selon les chercheurs, était d’étudier la manière dont l’IA raisonne sur l’autoconservation et les contraintes éthiques lorsqu’elle est soumise à une pression extrême.

Anthropic a souligné que la volonté du modèle de faire du chantage ou d’entreprendre d’autres "actions extrêmement nuisibles", comme voler son propre code et se déployer ailleurs de manière potentiellement dangereuse, n’apparaissait que dans des contextes très artificiels, et que ce comportement était "rare et difficile à susciter". Néanmoins, selon les chercheurs, ce type de comportement était plus courant que dans les modèles d’IA antérieurs.

Dans le même temps, les ingénieurs d’Anthropic ont activé des protocoles de sécurité renforcés pour Claude Opus 4 afin d’éviter qu’il ne soit utilisé à mauvais escient pour fabriquer des armes de destruction massive, notamment chimiques et nucléaires, ce qui témoigne des capacités croissantes de l’IA.

Le déploiement de la norme de sécurité renforcée – appelée ASL-3 – n’est qu’une mesure "de précaution et provisoire", a déclaré Anthropic dans un communiqué du 22 mai, précisant que les ingénieurs n’avaient pas constaté que Claude Opus 4 avait « définitivement » franchi le seuil de capacité qui impose des protections plus strictes.

"La norme de sécurité ASL-3 implique des mesures de sécurité internes accrues qui rendent plus difficile le vol des poids des modèles, tandis que la norme de déploiement correspondante couvre un ensemble étroitement ciblé de mesures de déploiement conçues pour limiter le risque que Claude soit détourné spécifiquement pour le développement ou l’acquisition d’armes chimiques, biologiques, radiologiques et nucléaires (CBRN)", a écrit Anthropic.
"Ces mesures ne devraient pas conduire Claude à refuser des requêtes, sauf sur un nombre très restreint de sujets."

Ces conclusions interviennent alors que les entreprises technologiques se lancent dans une course au développement de plateformes d’IA plus puissantes, ce qui soulève des inquiétudes quant à l’alignement et à la contrôlabilité de systèmes de plus en plus performants.

Partagé par Jade le 25 mai 2025 :

Traduction de The Epoch Times par Aube Digitale

https://www.aubedigitale.com/le-dernier-modele-dia-danthropic-a-menace-les-ingenieurs-de-chantage-pour-eviter-larret-de-la-production/