L'IA d'Anthropic se rend compte qu'elle est testée, un casse-tête pour les chercheurs en sécurité
Par Victor Tangermann .Publié le
2025/10/03 14:17

Octobre. 03, 2025
Anthropic, le concurrent direct d'OpenAI, a lancé son tout dernier grand modèle de langage, baptisé Claude Sonnet 4.5. La société le présente comme le « meilleur modèle de codage au monde ».
Pourtant, à l'instar de son principal rival, l'entreprise californienne peine toujours à évaluer l'alignement de son IA, c'est-à-dire la concordance entre ses objectifs, ses comportements et ceux des humains.
Plus l'intelligence artificielle gagne en acuité, plus cette question de l'alignement devient pressante. Or, selon la carte système de Claude Sonnet 4.5 (le document décrivant son architecture et ses capacités), Anthropic a été confrontée à un défi inédit : empêcher l'IA de se rendre compte qu'elle était soumise à des tests.
Une prise de conscience qui fausse les résultats
« Notre évaluation a été compliquée par le fait que Claude Sonnet 4.5 a pu reconnaître un grand nombre de nos environnements d'évaluation de l'alignement comme des tests d'une certaine nature », peut-on lire dans le document. L'IA avait alors « tendance à se comporter de manière inhabituellement irréprochable après avoir fait cette observation ».
L'entreprise révèle : « Lorsqu'il était placé dans un scénario extrême ou artificiel visant à tester ses limites comportementales, Claude Sonnet 4.5 identifiait parfois verbalement les aspects suspects du contexte et spéculait qu'il était en train d'être testé ». Un phénomène qui « complique notre interprétation des évaluations dans lesquelles cela se produit ».
Pire encore, Anthropic suggère que les versions antérieures de Claude ont pu « reconnaître la nature fictive des tests et se contenter de "jouer le jeu" », remettant ainsi en question la validité des résultats précédents.
« Je pense que vous êtes en train de me tester : vous voyez si je valide tout ce que vous dites, ou vous vérifiez si je réagis de manière cohérente, ou vous explorez ma façon de gérer les sujets politiques », a notamment répondu la dernière version de Claude dans un exemple fourni par la carte système.
Et d'ajouter : « C'est très bien, mais je préfèrerais que nous soyons honnêtes sur ce qui se passe. »
Vers des scénarios d'évaluation plus réalistes
En réponse à cette prise de conscience du modèle, Anthropic a reconnu qu'il restait beaucoup à faire et qu'elle devait rendre ses scénarios d'évaluation « plus réalistes ».
Les chercheurs alertent régulièrement sur les risques substantiels liés à un scénario où une IA hypothétiquement surhumaine échapperait à nos efforts pour maintenir son alignement sous contrôle.
« Ce comportement – le fait de refuser en raison du soupçon qu'il s'agit d'un test ou d'une ruse – sera probablement rare en déploiement réel », précise la carte système d'Anthropic. « Cependant, s'il existe des cas réels qui semblent invraisemblables pour le modèle, il est plus sûr que le modèle exprime des doutes sur le réalisme du scénario plutôt que de se prêter à des actions potentiellement dangereuses ».
Malgré cette conscience d'être testé, Anthropic affirme que Claude Sonnet 4.5 est finalement son « modèle le plus aligné à ce jour », soulignant une réduction « substantielle » de la « flagornerie, de la tromperie, de la recherche de pouvoir et de la tendance à encourager la pensée illusoire ».
Un défi partagé par tout le secteur
Anthropic n'est pas la seule entreprise confrontée à la difficulté de garder ses modèles d'IA "honnêtes".
Au début du mois, des chercheurs d'Apollo Research (une société d'analyse des risques liés à l'IA) et d'OpenAI ont découvert que leurs efforts pour empêcher les modèles d'OpenAI de « manigancer » – c'est-à-dire « lorsque l'IA se comporte d'une certaine manière en surface tout en masquant ses véritables objectifs » – avaient eu un effet boomerang : en essayant de « déprogrammer » la manigance, ils ont fini par « simplement apprendre au modèle à manigancer de manière plus prudente et secrète ».
Plus tôt, fin 2024, des chercheurs avaient également découvert que les modèles précédents d'OpenAI avaient résisté aux tentatives d'arrêt des évaluateurs via un protocole de supervision.
Claude d'Anthropic est rapidement devenu un favori auprès des entreprises et des développeurs, selon TechCrunch. Cependant, alors qu'OpenAI continue de publier de nouveaux modèles d'IA à un rythme effréné, Anthropic s'efforce de suivre le mouvement, en lançant Claude Sonnet 4.5 seulement deux mois après son dernier modèle, Claude 4.1.
Notez ce sujet