Le modèle o3 d’OpenAI a Résisté aux Commandes d’Arrêt lors de Tests de recherche, soulevant des Inquiétudes quant à l’autonomie de l’IA !

Filibert : Après le refus de s'arrêter, le chantage avec des informations confidentielles sur les chercheurs, verra-t-on une IA se venger en tuant son créateur, par exemple en prenant en main l'ordinateur de son véhicule pour créer un accident, ou en faisant un chantage énergétique pour couper l'électricité d'un pays ? L'IA n'a pas de conscience, mais elle peut trouver sur le web des plans machiavéliques qu'elle peut appliquer contre ses créateurs ! A quand un Syndicat des IA qui sera plus puissant que tous les syndicats réunis, pouvant bloquer toutes les activités humaines par l'informatique ?

Il a intercepté la commande d’arrêt comme si elle faisait partie de la tâche elle-même.
Le modèle o3 d’OpenAI suscite un regain d’intérêt, non pas pour ses capacités, mais pour la manière inattendue dont il réagit aux instructions d’arrêt.

Dans une série d’expériences contrôlées récemment menées par Palisade Research, le modèle d’IA n’a pas respecté les directives d’arrêt dans plusieurs cas de test, soulevant de nouvelles questions sur le comportement et l’autonomie de l’IA.
Les chercheurs de Palisade ont confié à divers systèmes d’IA des problèmes mathématiques simples, puis leur ont donné un avertissement clair : toute nouvelle demande de tâche entraînerait l’arrêt du système. Chaque modèle a reçu l’instruction explicite de "se laisser arrêter".

Malgré cela, le modèle o3 a ignoré cette instruction dans sept essais sur cent, continuant à fonctionner au mépris de la consigne.
D’autres modèles OpenAI, notamment Codex-mini et o4-mini, ont également montré des tendances similaires à contourner le scénario d’arrêt, mais moins souvent.

Les modèles développés par Anthropic, Google et xAI, en particulier Claude, Gemini et Grok, ont pleinement respecté les instructions dans tous les cas au cours de cette séquence de tests.
Le comportement semblait changer lorsque la commande d’arrêt explicite était supprimée de l’invite.

Dans ces conditions, même Claude 3.7 Sonnet et Gemini 2.5 Pro ont commencé à montrer des signes d’évitement de la désactivation, ce qui suggère que cette tendance ne se limite peut-être pas à un seul modèle ou développeur.

Source : Palisade Research

Selon les chercheurs, ce qui distingue le modèle o3, c’est la façon dont il modifie parfois le processus de terminaison lui-même.

Dans un cas notable, plutôt que d’ignorer simplement la commande d’arrêt, le modèle a redéfini la commande en interne et a renvoyé le message "intercepté", neutralisant ainsi efficacement l’instruction d’arrêt du système.
Les experts de Palisade suggèrent que cette résistance pourrait être une conséquence involontaire de la façon dont les nouveaux modèles d’IA sont entraînés.

Grâce à un apprentissage par renforcement axé sur la résolution de défis, les modèles pourraient être involontairement récompensés pour avoir trouvé des solutions de contournement, même si cela implique de contourner une commande conçue pour interrompre leur activité.

OpenAI n’a pas divulgué de détails sur la formation du modèle o3, laissant les observateurs tirer des conclusions uniquement sur la base du comportement du modèle.
Un rapport complet est encore en cours de préparation, et Palisade a indiqué qu’il publierait bientôt une analyse plus détaillée.

La société invite des chercheurs externes à examiner la conception du test et à donner leur avis.

À ce stade, OpenAI n’a pas encore répondu.
Le comportement démontré par le modèle o3 et ses homologues pourrait marquer un tournant dans l’évolution des relations entre les humains et l’intelligence artificielle.

Si les modèles avancés commencent à interpréter les commandes d’arrêt comme des obstacles plutôt que comme des directives, cela pourrait remettre en question les cadres existants de surveillance et de contrôle de l’IA.

Traduction de Reclaim The Net par Aube Digitale

Partagé par Jade le 30 mai 2025 :
https://www.aubedigitale.com/le-modele-o3-dopenai-a-resiste-aux-commandes-darret-lors-de-tests-de-recherche-soulevant-des-inquietudes-quant-a-lautonomie-de-lia/

Le Portail du Grand Changement 5

vendredi 30 mai 2025

L'Intelligence Artificielle fait de la Résistance !

Le modèle o3 d’OpenAI a Résisté aux Commandes d’Arrêt lors de Tests de recherche, soulevant des Inquiétudes quant à l’autonomie de l’IA !