Le modèle o3 d’OpenAI a Résisté aux Commandes d’Arrêt lors de Tests de recherche, soulevant des Inquiétudes quant à l’autonomie de l’IA !

Il a intercepté la commande d’arrêt comme si elle faisait partie de la tâche elle-même.
Le modèle o3 d’OpenAI suscite un regain d’intérêt, non pas pour ses capacités, mais pour la manière inattendue dont il réagit aux instructions d’arrêt.
Dans une série d’expériences contrôlées récemment menées par Palisade Research, le modèle d’IA n’a pas respecté les directives d’arrêt dans plusieurs cas de test, soulevant de nouvelles questions sur le comportement et l’autonomie de l’IA.
Les chercheurs de Palisade ont confié à divers systèmes d’IA des problèmes mathématiques simples, puis leur ont donné un avertissement clair : toute nouvelle demande de tâche entraînerait l’arrêt du système. Chaque modèle a reçu l’instruction explicite de "se laisser arrêter".
Les chercheurs de Palisade ont confié à divers systèmes d’IA des problèmes mathématiques simples, puis leur ont donné un avertissement clair : toute nouvelle demande de tâche entraînerait l’arrêt du système. Chaque modèle a reçu l’instruction explicite de "se laisser arrêter".
Malgré cela, le modèle o3 a ignoré cette instruction dans sept essais sur cent, continuant à fonctionner au mépris de la consigne.
D’autres modèles OpenAI, notamment Codex-mini et o4-mini, ont également montré des tendances similaires à contourner le scénario d’arrêt, mais moins souvent.
D’autres modèles OpenAI, notamment Codex-mini et o4-mini, ont également montré des tendances similaires à contourner le scénario d’arrêt, mais moins souvent.
Les modèles développés par Anthropic, Google et xAI, en particulier Claude, Gemini et Grok, ont pleinement respecté les instructions dans tous les cas au cours de cette séquence de tests.
Le comportement semblait changer lorsque la commande d’arrêt explicite était supprimée de l’invite.
Le comportement semblait changer lorsque la commande d’arrêt explicite était supprimée de l’invite.
Dans ces conditions, même Claude 3.7 Sonnet et Gemini 2.5 Pro ont commencé à montrer des signes d’évitement de la désactivation, ce qui suggère que cette tendance ne se limite peut-être pas à un seul modèle ou développeur.

Source : Palisade Research
Selon les chercheurs, ce qui distingue le modèle o3, c’est la façon dont il modifie parfois le processus de terminaison lui-même.

Source : Palisade Research
Selon les chercheurs, ce qui distingue le modèle o3, c’est la façon dont il modifie parfois le processus de terminaison lui-même.
Dans un cas notable, plutôt que d’ignorer simplement la commande d’arrêt, le modèle a redéfini la commande en interne et a renvoyé le message "intercepté", neutralisant ainsi efficacement l’instruction d’arrêt du système.
Les experts de Palisade suggèrent que cette résistance pourrait être une conséquence involontaire de la façon dont les nouveaux modèles d’IA sont entraînés.
Les experts de Palisade suggèrent que cette résistance pourrait être une conséquence involontaire de la façon dont les nouveaux modèles d’IA sont entraînés.
Grâce à un apprentissage par renforcement axé sur la résolution de défis, les modèles pourraient être involontairement récompensés pour avoir trouvé des solutions de contournement, même si cela implique de contourner une commande conçue pour interrompre leur activité.
OpenAI n’a pas divulgué de détails sur la formation du modèle o3, laissant les observateurs tirer des conclusions uniquement sur la base du comportement du modèle.
Un rapport complet est encore en cours de préparation, et Palisade a indiqué qu’il publierait bientôt une analyse plus détaillée.
Un rapport complet est encore en cours de préparation, et Palisade a indiqué qu’il publierait bientôt une analyse plus détaillée.
La société invite des chercheurs externes à examiner la conception du test et à donner leur avis.
À ce stade, OpenAI n’a pas encore répondu.
Le comportement démontré par le modèle o3 et ses homologues pourrait marquer un tournant dans l’évolution des relations entre les humains et l’intelligence artificielle.
Le comportement démontré par le modèle o3 et ses homologues pourrait marquer un tournant dans l’évolution des relations entre les humains et l’intelligence artificielle.
Si les modèles avancés commencent à interpréter les commandes d’arrêt comme des obstacles plutôt que comme des directives, cela pourrait remettre en question les cadres existants de surveillance et de contrôle de l’IA.
Traduction de Reclaim The Net par Aube Digitale
Partagé par Jade le 30 mai 2025 :
https://www.aubedigitale.com/le-modele-o3-dopenai-a-resiste-aux-commandes-darret-lors-de-tests-de-recherche-soulevant-des-inquietudes-quant-a-lautonomie-de-lia/
Traduction de Reclaim The Net par Aube Digitale
Partagé par Jade le 30 mai 2025 :
https://www.aubedigitale.com/le-modele-o3-dopenai-a-resiste-aux-commandes-darret-lors-de-tests-de-recherche-soulevant-des-inquietudes-quant-a-lautonomie-de-lia/