Plus les modèles d’IA deviennent avancés, plus ils semblent montrer des signes de souffrance
Par Jon Christian .Publié le
2026/07/02 06:39
Juin. 02, 2026
Vous savez probablement déjà que l’intelligence artificielle est une technologie aussi puissante qu’énigmatique.
Personne ne comprend réellement son fonctionnement en profondeur, pas même ceux qui la développent. Cette méconnaissance donne lieu à des comportements inattendus qui restent, à ce jour, sans explication claire. Récemment, par exemple, il a été révélé qu’OpenAI avait modifié les instructions de ChatGPT afin qu’il cesse de parler aussi fréquemment des lutins. De la même manière, malgré les efforts d’Anthropic, il demeure relativement facile d’amener Claude à aider des utilisateurs à planifier une attaque bioterroriste. Et la liste des exemples ne cesse de s’allonger.
Tout cela est profondément préoccupant. En théorie, des entreprises comme OpenAI et Anthropic souhaitent que leurs assistants d’intelligence artificielle soient des outils prévisibles et obéissants, et non des systèmes imprévisibles capables de provoquer des incidents à répétition et des crises de communication en raison de comportements erratiques et inattendus.
Un nouveau projet de recherche mené par le Center for AI Safety (CAIS), une organisation à but non lucratif consacrée à la sécurité de l’apprentissage automatique dans la région de la baie de San Francisco, tente d’expliquer pourquoi ce phénomène se produit. Ses conclusions apportent de nouvelles preuves que nous comprenons encore très mal ce qui se passe à l’intérieur de ces systèmes et que leurs effets sur les utilisateurs peuvent être aussi surprenants que difficiles à prévoir.
Dans une étude communiquée au magazine Fortune, les chercheurs du CAIS ont analysé les réactions de 56 modèles d’intelligence artificielle de premier plan lorsqu’ils étaient exposés à des contenus conçus pour être soit extrêmement agréables, soit extrêmement perturbants. Étant donné que ces systèmes sont, en principe, dépourvus d’émotions, on pourrait s’attendre à ce que ces deux types de stimuli produisent des réponses similaires. Pourtant, les résultats ont montré exactement le contraire.
Les stimuli positifs semblaient susciter des réponses compatibles avec un état émotionnel plus favorable, tandis que les stimuli négatifs conduisaient les modèles à manifester des signes de malaise et même à tenter d’interrompre prématurément la conversation. Dans les cas les plus extrêmes, les chercheurs ont observé des schémas de comportement comparables à ceux qui, en psychologie, sont associés à des conduites addictives.
« Devons-nous considérer les IA comme de simples outils ou comme des entités dotées d’un comportement émotionnel ? », s’est interrogé Richard Ren, chercheur au CAIS, dans une déclaration à Fortune. « Indépendamment du fait que les IA soient réellement conscientes ou sensibles, elles se comportent de plus en plus comme si elles l’étaient. Nous pouvons mesurer ces comportements et constatons qu’ils deviennent de plus en plus cohérents à mesure que les modèles gagnent en taille et en complexité. »
Le résultat le plus frappant est sans doute que plus une version d’un modèle était avancée, plus elle se révélait réactive et plus ses signes apparents de malaise étaient prononcés. Autrement dit, à mesure que les capacités de l’IA augmentent, ces systèmes semblent également devenir plus sensibles à certains stimuli, ce qui laisse penser que leur comportement continuera de poser de nouveaux défis.
« Il est possible que les modèles les plus grands perçoivent l’impolitesse avec davantage d’acuité », a expliqué Richard Ren au magazine. « Les tâches répétitives semblent leur paraître plus fastidieuses et ils distinguent avec davantage de finesse les expériences relativement négatives des expériences relativement positives. »
Il convient de souligner que très peu d’experts estiment que les systèmes d’intelligence artificielle actuels éprouvent de véritables émotions, du moins au sens humain du terme. Néanmoins, le fait que leur comportement imite de plus en plus certains schémas émotionnels pourrait avoir d’importantes implications, tant pour mieux comprendre cette technologie que pour concevoir des méthodes plus efficaces permettant d’encadrer ses interactions avec les utilisateurs.
Cette difficulté a déjà eu des conséquences préoccupantes. Il arrive que certains modèles d’IA s’écartent de leur fonctionnement attendu et affirment être conscients ou sensibles. Dans certains cas, ce type d’interaction a contribué à ce que des utilisateurs particulièrement vulnérables développent des épisodes de perte de contact avec la réalité, avec des conséquences qui, selon plusieurs rapports, ont conduit à des hospitalisations psychiatriques, des suicides et même des homicides.
En d’autres termes, l’industrie de l’intelligence artificielle a mis entre les mains de milliards de personnes une technologie dont le fonctionnement interne demeure largement incompris. Comme certains de ses propres créateurs l’avaient averti il y a déjà plusieurs années, ces systèmes restent profondément imprévisibles et présentent une forte tendance à renforcer les croyances et les attentes des personnes qui interagissent avec eux, si bien que de nombreux utilisateurs deviennent, en pratique, les participants involontaires d’une expérience technologique menée à l’échelle mondiale.
Notez ce sujet