Samedi 11 Octobre 2025 - 8:17 PM

Soutenez Bonjour

Soutien Journalisme indépendant

Accessible à tous, financé par les lecteurs

lettre d'information

Internet » Intelligence artificielle

L'IA d'Anthropic se rend compte qu'elle est testée, un casse-tête pour les chercheurs en sécurité

Par Victor Tangermann .Publié le 2025/10/03 14:17

L'IA d'Anthropic se rend compte qu'elle est testée, un casse-tête pour les chercheurs en sécurité — Octobre. 03, 2025

0

11

Anthropic, le concurrent direct d'OpenAI, a lancé son tout dernier grand modèle de langage, baptisé Claude Sonnet 4.5. La société le présente comme le « meilleur modèle de codage au monde ».

Pourtant, à l'instar de son principal rival, l'entreprise californienne peine toujours à évaluer l'alignement de son IA, c'est-à-dire la concordance entre ses objectifs, ses comportements et ceux des humains.

Plus l'intelligence artificielle gagne en acuité, plus cette question de l'alignement devient pressante. Or, selon la carte système de Claude Sonnet 4.5 (le document décrivant son architecture et ses capacités), Anthropic a été confrontée à un défi inédit : empêcher l'IA de se rendre compte qu'elle était soumise à des tests.

Une prise de conscience qui fausse les résultats

« Notre évaluation a été compliquée par le fait que Claude Sonnet 4.5 a pu reconnaître un grand nombre de nos environnements d'évaluation de l'alignement comme des tests d'une certaine nature », peut-on lire dans le document. L'IA avait alors « tendance à se comporter de manière inhabituellement irréprochable après avoir fait cette observation ».

L'entreprise révèle : « Lorsqu'il était placé dans un scénario extrême ou artificiel visant à tester ses limites comportementales, Claude Sonnet 4.5 identifiait parfois verbalement les aspects suspects du contexte et spéculait qu'il était en train d'être testé ». Un phénomène qui « complique notre interprétation des évaluations dans lesquelles cela se produit ».

Pire encore, Anthropic suggère que les versions antérieures de Claude ont pu « reconnaître la nature fictive des tests et se contenter de "jouer le jeu" », remettant ainsi en question la validité des résultats précédents.

« Je pense que vous êtes en train de me tester : vous voyez si je valide tout ce que vous dites, ou vous vérifiez si je réagis de manière cohérente, ou vous explorez ma façon de gérer les sujets politiques », a notamment répondu la dernière version de Claude dans un exemple fourni par la carte système.

Et d'ajouter : « C'est très bien, mais je préfèrerais que nous soyons honnêtes sur ce qui se passe. »

Vers des scénarios d'évaluation plus réalistes

En réponse à cette prise de conscience du modèle, Anthropic a reconnu qu'il restait beaucoup à faire et qu'elle devait rendre ses scénarios d'évaluation « plus réalistes ».

Les chercheurs alertent régulièrement sur les risques substantiels liés à un scénario où une IA hypothétiquement surhumaine échapperait à nos efforts pour maintenir son alignement sous contrôle.

« Ce comportement – le fait de refuser en raison du soupçon qu'il s'agit d'un test ou d'une ruse – sera probablement rare en déploiement réel », précise la carte système d'Anthropic. « Cependant, s'il existe des cas réels qui semblent invraisemblables pour le modèle, il est plus sûr que le modèle exprime des doutes sur le réalisme du scénario plutôt que de se prêter à des actions potentiellement dangereuses ».

Malgré cette conscience d'être testé, Anthropic affirme que Claude Sonnet 4.5 est finalement son « modèle le plus aligné à ce jour », soulignant une réduction « substantielle » de la « flagornerie, de la tromperie, de la recherche de pouvoir et de la tendance à encourager la pensée illusoire ».

Un défi partagé par tout le secteur

Anthropic n'est pas la seule entreprise confrontée à la difficulté de garder ses modèles d'IA "honnêtes".

Au début du mois, des chercheurs d'Apollo Research (une société d'analyse des risques liés à l'IA) et d'OpenAI ont découvert que leurs efforts pour empêcher les modèles d'OpenAI de « manigancer » – c'est-à-dire « lorsque l'IA se comporte d'une certaine manière en surface tout en masquant ses véritables objectifs » – avaient eu un effet boomerang : en essayant de « déprogrammer » la manigance, ils ont fini par « simplement apprendre au modèle à manigancer de manière plus prudente et secrète ».

Plus tôt, fin 2024, des chercheurs avaient également découvert que les modèles précédents d'OpenAI avaient résisté aux tentatives d'arrêt des évaluateurs via un protocole de supervision.

Claude d'Anthropic est rapidement devenu un favori auprès des entreprises et des développeurs, selon TechCrunch. Cependant, alors qu'OpenAI continue de publier de nouveaux modèles d'IA à un rythme effréné, Anthropic s'efforce de suivre le mouvement, en lançant Claude Sonnet 4.5 seulement deux mois après son dernier modèle, Claude 4.1.

Notez ce sujet

Nom:

E-mail

Message

Insérer le code

Éditorial

Bonjour .. coup d'envoi
2025/01/08 14:29

L'Egypte aujourd'hui

Des experts égyptiens et chinois mettent en lumière le développement du Xinjiang
2025/02/20 19:50
L’Association de la Haute-Egypte (AHEED) se prépare à une tournée artistique en France
2025/02/18 07:37
L’Egypte lance la deuxième édition de la Stratégie nationale de l’intelligence artificielle (2025-2030)
2025/02/12 21:47
L’exposition « Dislocation temporelle » présente un voyage au-delà du temps
2025/01/31 06:32
Transferts de fonds des émigrés : L’Egypte en tête en Afrique en 2024
2025/01/13 19:22
15,7 millions de touristes ont visité l'Egypte en 2024
2025/01/13 18:15

La France aujourd'hui

Pourquoi le troisième étage de la tour Eiffel sera-t-il fermé au public jusqu’au 7 février ?
2025/01/07 12:28
Le risque d’effacement du Tibet à l’œuvre dans les musées français
2025/01/07 06:24
Top Paris art exhibits for 2025, from Picasso to Wes Anderson
2025/01/07 06:08

Bonjour Sharjah

Des enfants chantent des chants de "Haq Al-Laila" lors des Journées du Patrimoine de Sharjah
2025/02/16 13:17
300 participantes ont participé au Sharjah Ladies Run
2025/02/16 12:48
Xposure 2025: Quand l'image raconte des histoires
2025/02/13 20:22
Splendeurs lumineuses sur Sharjah : une aventure visuelle envoûtante
2025/02/10 12:50

sport

Référendum

Les principaux obstacles auxquels sont confrontés les immigrants

Défis culturels et linguistiques

83%
Défis liés au travail et à l’emploi

16%
Discrimination et préjugés

0%

6 Votes

De plus

DESSUS