• Samedi 11 Octobre 2025 - 11:11 PM

Soutenez Bonjour

Soutien Journalisme indépendant

Accessible à tous, financé par les lecteurs

Soutenez-nous

GPT-5 multiplie les erreurs factuelles, des utilisateurs s'alarment


Par Futurism .Publié le 2025/09/10 07:43
GPT-5 multiplie les erreurs factuelles, des utilisateurs s'alarment
Septembre. 10, 2025
  1. 0
  2. 17

Plus d'un mois s'est écoulé depuis le lancement du très attendu grand modèle de langage (LLM) d'OpenAI, GPT-5, et il n'a cessé depuis lors de produire un nombre stupéfiant de faussetés étranges.

Qu'il s'agisse des experts en IA du Walter Bradley Center for Artificial Intelligence (Discovery Institute), des utilisateurs de Reddit sur r/ChatGPTPro ou même du PDG d'OpenAI, Sam Altman, les preuves s'accumulent pour suggérer que l'affirmation d'OpenAI, selon laquelle GPT-5 possède une "intelligence de niveau doctorat", est à prendre avec de sérieuses pincettes.

Dans un billet sur Reddit, un utilisateur a réalisé non seulement que GPT-5 avait généré "des informations fausses sur des faits de base plus de la moitié du temps", mais qu'il aurait pu manquer d'autres "hallucinations" s'il n'avait pas vérifié l'information.

Le fléau de l'hallucination

L'expérience de cet utilisateur met en lumière la fréquence à laquelle les chatbots "hallucinent", un terme du jargon de l'IA pour désigner le fait de créer des informations en toute confiance. Si le problème est loin d'être propre à ChatGPT, le dernier LLM d'OpenAI semble avoir un penchant particulier pour les inventions, une réalité qui remet en question l'affirmation de l'entreprise selon laquelle GPT-5 hallucine moins que ses prédécesseurs.

Dans un récent billet de blog sur les hallucinations, dans lequel OpenAI a une fois de plus affirmé que GPT-5 en produit "nettement moins", l'entreprise a tenté d'expliquer comment et pourquoi ces faussetés se produisent.

"Les hallucinations persistent en partie parce que les méthodes d'évaluation actuelles créent des incitations erronées", peut-on lire dans le billet du 5 septembre. "Bien que les évaluations elles-mêmes ne causent pas directement les hallucinations, la plupart d'entre elles mesurent la performance du modèle d'une manière qui encourage à deviner plutôt qu'à faire preuve d'honnêteté face à l'incertitude".

En clair : les LLM hallucinent parce qu'ils sont formés pour donner des réponses justes, même si cela implique de se fier à une supposition. Alors que certains modèles, comme Claude d'Anthropic, ont été entraînés à admettre quand ils ne connaissent pas la réponse, ceux d'OpenAI ne le sont pas, ce qui les pousse à faire des paris incorrects.

Comme l'a indiqué l'utilisateur de Reddit (preuve à l'appui avec un lien vers son journal de conversation), il a obtenu des erreurs factuelles massives en posant des questions sur le produit intérieur brut (PIB) de divers pays. Le chatbot lui a présenté des "chiffres qui étaient littéralement le double des valeurs réelles".

La Pologne, par exemple, a été répertoriée comme ayant un PIB de plus de deux mille milliards de dollars, alors qu'en réalité, son PIB, selon le Fonds monétaire international, se situe actuellement autour de 979 milliards de dollars. Si l'on devait se risquer à une hypothèse, cette hallucination pourrait être attribuée aux récentes déclarations du président du pays, qui a déclaré que son économie (et non son PIB) avait dépassé le cap des mille milliards de dollars.

"Ce qui fait peur ? Je n'ai remarqué ces erreurs que parce que certaines réponses me semblaient tellement étranges qu'elles m'ont rendu méfiant", a poursuivi l'utilisateur. "Par exemple, quand j'ai vu des chiffres de PIB qui semblaient beaucoup trop élevés, j'ai vérifié et j'ai constaté qu'ils étaient totalement faux".

"Cela me fait me demander : combien de fois n'ai-je pas vérifié les faits pour accepter une information erronée comme une vérité ?" a-t-il conclu, méditatif.

Des tests qui font douter de la "compétence doctorale"

Pendant ce temps, le sceptique de l'IA Gary Smith du Walter Bradley Center a noté qu'il avait réalisé trois expériences simples avec GPT-5 depuis sa sortie — une partie de morpion modifiée, des questions sur des conseils financiers et une demande de dessiner un opossum en étiquetant cinq parties de son corps — pour "démontrer que GPT 5.0 est loin d'avoir une expertise de niveau doctoral".

L'exemple de l'opossum était particulièrement flagrant : le modèle a techniquement trouvé les bons noms pour les parties de l'animal, mais les a placées à des endroits étranges, marquant par exemple la patte comme étant le nez et la queue comme le pied arrière gauche. En tentant de reproduire l'expérience pour un article plus récent, Smith a découvert que même lorsqu'il faisait une faute de frappe, écrivant "posse" au lieu de "possum", GPT-5 labellisait les parties de la même manière bizarre.

Au lieu de l'opossum, le LLM a généré une image de son apparente idée d'une "posse" (une bande) : cinq cowboys, certains portant des armes, avec des lignes indiquant diverses parties. Certaines de ces parties — la tête, le pied et peut-être l'oreille — étaient exactes, tandis que l'épaule pointait vers un des chapeaux de cow-boy et le "fand", qui pourrait être un mélange de "foot" (pied) et de "hand" (main), pointait vers un des tibias.

Nous avons décidé de faire un test similaire, en demandant à GPT-5 de fournir une image d'"une posse avec six parties du corps labellisées". Après avoir précisé que Futurism voulait une image étiquetée et non une description textuelle, ChatGPT s'est mis au travail, et le résultat, comme vous pouvez le voir ci-dessous, était encore plus hilarant et erroné que ce que Smith avait obtenu.

Il semble assez clair, depuis le lancement de GPT-5, qu'il est loin d'être aussi intelligent qu'un doctorant, ou du moins, qu'il n'a aucune chance d'obtenir un jour son doctorat.

La morale de cette histoire, semble-t-il, est de vérifier les faits de tout ce qu'un chatbot vous fournit, ou tout simplement de renoncer à utiliser l'IA et de faire vos recherches par vous-même.

Notez ce sujet



sport

Référendum

Les principaux obstacles auxquels sont confrontés les immigrants

  1. 83%
  2. 16%
  3. 0%

6 Votes

DESSUS