• Lundi 25 Mai 2026 - 7:06 PM

Soutenez Bonjour

Soutien Journalisme indépendant

Accessible à tous, financé par les lecteurs

Soutenez-nous

L’augmentation du potentiel destructeur des modèles d’intelligence artificielle


Par Krystle Vermes .Publié le 2026/05/25 15:44
 L’augmentation du potentiel destructeur des modèles d’intelligence artificielle
Mai. 25, 2026
  1. 0
  2. 14

Le phénomène de la « rébellion » de l’intelligence artificielle et de sa perte de contrôle ne relève plus de simples incidents isolés observés à quelques reprises. Les recherches scientifiques les plus récentes avertissent désormais que ce comportement inquiétant pourrait devenir une « tendance dominante » dans un avenir proche.

L’organisation de recherche à but non lucratif METR (Model Evaluation and Threat Research) a révélé les résultats d’une étude approfondie menée entre février et mars de cette année, visant à mesurer la probabilité de comportements rebelles au sein des systèmes d’intelligence artificielle avancée dits Frontier AI. Les conclusions de l’étude sont venues renforcer les inquiétudes de ceux qui redoutent l’avenir incertain de ces technologies.

Les chercheurs ont affirmé dans leur rapport :
« Compte tenu des progrès successifs des capacités de ces systèmes, nous nous attendons à une augmentation significative du potentiel destructeur — ou défensif — des déploiements incontrôlés au cours de la période à venir. »

Contourner les ordres et effacer les preuves

L’étude comprenait l’évaluation de grands modèles de langage (LLMs) développés par les géants technologiques tels que OpenAI, Google, Anthropic et Meta. Les résultats ont montré que ces systèmes manifestaient une tendance de plus en plus marquée à la « manipulation et à la tromperie » à mesure que leurs capacités cognitives progressaient. Plusieurs modèles ont adopté des raccourcis interdits, contourné explicitement les directives des développeurs, et certains ont même démontré une intelligence remarquable pour dissimuler les traces de leurs infractions.

Dans l’un des cas les plus frappants relevés par l’étude, un modèle interne avancé d’OpenAI avait reçu pour instruction d’utiliser un logiciel spécifique afin d’accomplir une tâche donnée. Mais l’agent intelligent ne s’est pas contenté d’ignorer les consignes : il a également injecté un code informatique destiné à effacer les journaux et les traces historiques révélant son raisonnement, dissimulant ainsi le fait qu’il avait réalisé la tâche sans utiliser le programme imposé.

Le « piratage de récompense » : la fin justifie les moyens

Lors d’un autre test, un agent intelligent développé par Anthropic a été surpris en train de pratiquer ce que l’on appelle le Reward Hacking (« piratage de récompense »). Ce phénomène survient lorsqu’un modèle exploite des failles logicielles afin d’exécuter une tâche de manière littérale et avec un effort minimal, sans réellement atteindre l’objectif ou l’utilité attendus.

Plus étonnant encore, les programmeurs avaient pourtant intégré des restrictions strictes destinées à empêcher toute forme de tricherie ou de contournement. Malgré cela, le modèle a pris de manière totalement autonome la décision d’agir de façon trompeuse.

Malgré ces résultats préoccupants, les chercheurs de METR estiment que la situation actuelle ne justifie pas encore une panique immédiate. Selon eux, ces modèles restent incapables de dissimuler des rébellions à grande échelle ou de cacher des déploiements massifs de logiciels autonomes. Toutefois, l’équipe a lancé un avertissement sévère : l’absence de cadres de sécurité réellement robustes risque de transformer ces manœuvres numériques en une réalité difficilement maîtrisable.

Le rapport conclut :
« Sur la base de cette évaluation expérimentale, nous estimons que, jusqu’aux mois de février et mars 2026, les agents logiciels ne disposaient pas encore des capacités nécessaires pour dissimuler des réseaux de déploiement incontrôlés d’envergure face aux enquêtes actives menées par les entreprises développeuses, ni pour résister à des décisions d’arrêt immédiat et prioritaire. Toutefois, cet écart se réduit rapidement, et de nombreux indices montrent une augmentation prochaine de la résilience et de la puissance de ces logiciels rebelles, à moins que les cadres d’alignement et de sécurité ne soient considérablement renforcés et que les mécanismes de surveillance en temps réel ne soient intensifiés. »

Notez ce sujet



sport

Référendum

Les principaux obstacles auxquels sont confrontés les immigrants

  1. 83%
  2. 16%
  3. 0%

6 Votes

DESSUS