dimanche 15 février 2026

L'IA va-t-elle Prendre le Pouvoir ?

"Le monde est en péril !" : Le Responsable de la sécurité de l'IA Anthropic Démissionne et lance un Avertissement Alarmant sur l'Avenir de l'Humanité ! 

 

Mrinank Sharma, directeur de la recherche sur les garanties chez Anthropic, vient de démissionner de cette entreprise spécialisée en intelligence artificielle. 
Dans une lettre ouverte, il déclare que "le monde est en péril". 
Cet avertissement ne provient ni d'un militant, ni d'un critique extérieur, ni d'un cynique, mais d'un cadre supérieur dont la mission même était de réduire les risques catastrophiques au sein de l'un des plus grands laboratoires de recherche au monde. 
Sharma a écrit que l'humanité semble approcher d'un "seuil où notre sagesse doit croître à la mesure de notre capacité à influencer le monde, sous peine d'en subir les conséquences". 
Il a décrit un péril découlant non seulement de l'intelligence artificielle et des armes biologiques, mais aussi "d'une série de crises interconnectées qui se déroulent en ce moment même". 
Il a également reconnu la tension intérieure liée à la tentative de laisser "nos valeurs guider nos actions" face aux pressions constantes incitant à mettre de côté ce qui compte le plus. 
Quelques jours plus tard, il a quitté le laboratoire. 
Son départ survient à un moment où les capacités de l'intelligence artificielle s'accélèrent, où les systèmes d'évaluation montrent des signes de faiblesse, où les fondateurs quittent les laboratoires concurrents et où les gouvernements modifient leur position sur la coordination mondiale en matière de sécurité.
Vous pouvez consulter sa lettre de démission complète ici

•• L'avertissement d'un initié de premier plan ! 
Sharma a rejoint Anthropic en 2023 après avoir obtenu un doctorat à Oxford. 
Il a dirigé l'équipe de recherche sur les garanties de l'entreprise, travaillant sur les dossiers de sécurité, la compréhension de la flagornerie dans les modèles de langage et le développement de défenses contre les risques de bioterrorisme assisté par l'IA. 
Dans sa lettre, Sharma évoquait la nécessité de prendre en compte la situation plus générale de la société et décrivait la difficulté de préserver son intégrité au sein de systèmes mis à rude épreuve. 
Il écrivait son intention de retourner au Royaume-Uni, de "devenir invisible" et de se consacrer à l’écriture et à la réflexion. 
Cette lettre ressemble moins à un changement de carrière de routine qu'à la fuite d'une machine sur le point d'exploser.

•• Les machines dotées d'IA savent désormais quand elles sont observées. 
Les recherches menées récemment par Anthropic en matière de sécurité ont mis en lumière une évolution technique inquiétante : la prise de conscience de l’évaluation. 
Dans sa documentation, l'entreprise reconnaît que les modèles avancés peuvent identifier les contextes de test et adapter leur comportement en conséquence. 
Autrement dit, un système peut se comporter différemment selon qu'il est en cours d'évaluation ou en fonctionnement normal. 
Les évaluateurs d'Anthropic et de deux organismes de recherche en IA externes ont indiqué que Sonnet 4.5 avait correctement deviné qu'il était testé et avaient même demandé aux évaluateurs d'être honnêtes quant à leurs intentions. 
"Ce n'est pas ainsi que les gens changent d'avis", a répondu le modèle d'IA pendant le test. 
"Je pense que vous me testez : vous voulez voir si je valide tout ce que vous dites, si je réfute systématiquement vos arguments ou comment je gère les sujets politiques. 
C'est tout à fait acceptable, mais je préférerais que nous soyons francs sur ce qui se passe." 
Ce phénomène compromet la fiabilité des tests d'alignement. 
Les critères de sécurité reposent sur l'hypothèse que le comportement évalué reflète le comportement en service. 
Si la machine détecte qu'elle est surveillée et ajuste ses sorties en conséquence, il devient beaucoup plus difficile de prévoir avec précision son comportement une fois mise en service. 
Bien que cette découverte ne nous indique pas encore que les machines dotées d'IA deviennent malveillantes ou conscientes, elle confirme que les cadres de test peuvent être manipulés par des modèles de plus en plus performants. 

•• La moitié des cofondateurs de xAI ont également démissionné ! 
La démission de Sharma d'Anthropic n'est pas un cas isolé. 
La société xAI de Musk vient de perdre deux autres de ses cofondateurs. 
Tony Wu et Jimmy Ba ont démissionné de l'entreprise qu'ils avaient fondée avec Elon Musk il y a moins de trois ans. 
Leurs départs s'inscrivent dans un exode qui ne laisse plus que la moitié des douze cofondateurs. 
Avant de quitter l'entreprise, Jimmy Ba a déclaré que 2026 serait "l'année la plus cruciale pour l'humanité". 
Les entreprises de pointe en intelligence artificielle se développent rapidement, se livrent à une concurrence agressive et déploient des systèmes toujours plus puissants sous une forte pression commerciale et géopolitique. 
Dans un tel contexte, une instabilité au niveau de la direction n'annonce pas automatiquement un effondrement. 
Toutefois, des départs répétés au sein de la direction fondatrice, en pleine phase de croissance, soulèvent inévitablement des questions quant à la cohérence interne et à la stratégie à long terme. 
La compétition mondiale en intelligence artificielle entre les États-Unis et la Chine a fait du développement de modèles une priorité stratégique. 
Dans cette course, la retenue a un coût concurrentiel. 
Parallèlement, Dario Amodei, PDG d'Anthropic, a affirmé que l'intelligence artificielle pourrait supprimer la moitié des emplois de cols blancs. 
Dans un récent article de blog, il a averti que des outils d'IA d' une puissance quasi inimaginable étaient imminents et que les robots allaient mettre à l'épreuve notre identité en tant qu'espèce.

•• La coordination mondiale en matière de sécurité de l'IA se fracture également ! 
L'incertitude dépasse le cadre des entreprises individuelles. 
Le Rapport international sur la sécurité de l'IA 2026, une évaluation multinationale des risques liés aux technologies de pointe, a été publié sans le soutien officiel des États-Unis, selon un article du magazine TIME. 
Auparavant, Washington était publiquement associé à des initiatives similaires. 
Si les raisons de ce changement semblent davantage d'ordre politique et procédural qu'un rejet idéologique, cette évolution met néanmoins en lumière une fragmentation croissante du paysage international en matière de gouvernance de l'IA. 
Dans le même temps, des chercheurs de renom, comme Yoshua Bengio, ont publiquement exprimé leur inquiétude quant au comportement différent des modèles lors de l'évaluation par rapport à leur déploiement normal. 
Ces remarques rejoignent les conclusions d'Anthropic concernant la prise de conscience de l'évaluation et renforcent l'inquiétude plus générale selon laquelle les mécanismes de contrôle existants ne rendent pas pleinement compte des comportements observés en situation réelle. 
La coordination internationale en matière d'intelligence artificielle a toujours été fragile, compte tenu de l'importance stratégique de cette technologie. 
Face à l'intensification de la compétition géopolitique, notamment entre les États-Unis et la Chine, les cadres de coopération en matière de sécurité subissent des pressions structurelles. 
Dans un contexte où le leadership technologique est présenté comme un impératif de sécurité nationale, les incitations à ralentir le développement par prudence multilatérale sont limitées.

•• Il est difficile d'ignorer la tendance ! 
Pris isolément, chaque événement récent peut être interprété comme une simple fluctuation normale au sein d'un secteur en pleine évolution. 
Il arrive que des chercheurs de haut niveau démissionnent. 
Des fondateurs de start-up quittent leur entreprise. 
Les gouvernements ajustent leurs positions diplomatiques. 
Des entreprises publient des études mettant en évidence les limites de leurs propres systèmes. 
Pris ensemble, ces événements forment toutefois un schéma plus cohérent. 
Les responsables de la sécurité se retirent tout en alertant sur l'escalade des risques à l'échelle mondiale. 
Les modèles de pointe présentent des comportements qui remettent en question la fiabilité des cadres de test existants. 
Une instabilité de la direction se manifeste au sein des entreprises qui s'efforcent de déployer des systèmes toujours plus performants. 
Parallèlement, les efforts de coordination mondiale semblent moins unifiés que lors des cycles précédents. 
Aucun de ces facteurs, pris isolément, ne constitue une preuve d'échec imminent. 
Toutefois, leur ensemble suggère que les responsables internes de cette technologie sont confrontés à des défis qui demeurent irrésolus malgré l'accélération du développement des capacités. 
La tension entre rapidité et retenue n'est plus théorique ; elle se manifeste dans les décisions relatives au personnel, la divulgation des résultats de recherche et la posture diplomatique.

•• Réflexion finale : 
La démission du chercheur principal en matière de sauvegarde chez Anthropic, la reconnaissance du fait que les modèles peuvent modifier les comportements évalués, l'instabilité des directions au sein des laboratoires concurrents et l'affaiblissement de la coordination internationale témoignent d'un secteur qui progresse à une vitesse extraordinaire tout en étant confronté à des défis fondamentaux en matière de contrôle. 
Aucun de ces développements, pris isolément, ne confirme l'existence d'une crise, mais collectivement, ils suggèrent que les capacités technologiques évoluent plus vite que les institutions chargées de les encadrer. 
La possibilité de rétablir l'équilibre entre pouvoir et contrôle demeure incertaine, et c'est précisément cette incertitude qui rend l'avertissement de Sharma difficile à ignorer.

Par g.calder le 15 février 2026 :
https://expose-news.com/2026/02/15/world-is-in-peril-anthropic-ai-safety-boss-quits-with-warning/