IA éthique : l'impossible que les scientifiques ont rendu possible
Par Washington Post .Publié le
2025/06/08 06:02

Juillet. 08, 2025
Les géants de la technologie l'ont clamé haut et fort à maintes reprises : créer une intelligence artificielle entièrement basée sur des données issues de sources éthiques serait "impossible". Pourtant, une équipe de chercheurs vient de prouver le contraire, ouvrant ainsi la voie à un développement plus responsable de cette technologie.
Plus d'une vingtaine de chercheurs en intelligence artificielle, issus notamment du Massachusetts Institute of Technology (MIT), de l'Université Cornell et de l'Université de Toronto, ont réussi à entraîner un modèle de langage étendu (LLM) en n'utilisant que des données sous licence ouverte ou relevant du domaine public. Un véritable tour de force.
Le défi humain au-delà de la puissance de calcul
Cet exploit n'a pas été sans embûches, comme l'ont reconnu les développeurs. Dans un article scientifique, non encore évalué par les pairs et publié cette semaine, l'équipe a mis en lumière le principal obstacle : non pas la puissance de calcul, mais bien l'effort humain.
Pour cause, le colossal ensemble de données qu'ils ont assemblé, pesant plus de huit téraoctets et baptisé "Common Pile v0.1", a nécessité un nettoyage et un reformatage manuels colossaux pour être adapté à l'entraînement de l'IA, rapporte le Washington Post. À cela s'est ajouté un travail acharné de vérification des droits d'auteur, de nombreuses œuvres en ligne étant incorrectement licenciées.
« Ce n'est pas une tâche où l'on peut simplement augmenter les ressources disponibles, comme l'accès à davantage de puces informatiques ou un puissant "web scraper" », a expliqué au Washington Post Stella Biderman, informaticienne et directrice exécutive de l'ONG Eleuther AI, également co-auteure de l'étude. « Nous utilisons des outils automatisés, mais au final, toutes nos données ont été annotées manuellement et vérifiées par des humains. Et c'est vraiment difficile. »
Des résultats probants malgré les contraintes
Malgré les difficultés, Biderman et ses collègues ont mené leur mission à bien. Une fois l'ardu processus de création de "Common Pile" terminé, ils ont utilisé cet ensemble de données "éthiquement irréprochable" pour entraîner un LLM de sept milliards de paramètres. Le résultat ? Une IA qui se mesure admirablement aux modèles industriels tels que les Llama 1 et Llama 2 7B de Meta.
Si ces versions de Meta sont relativement anciennes (plus de deux ans, une éternité dans la course à l'IA), la performance de l'équipe n'en est pas moins impressionnante. Surtout si l'on considère que ce travail a été réalisé par une équipe aux ressources limitées, loin des milliards de dollars dont disposent les grandes entreprises.
La débrouillardise a été de mise. Parmi leurs trouvailles les plus astucieuses, figure une collection de plus de 130 000 livres en langue anglaise, jusqu'alors inexplorée à la Bibliothèque du Congrès.
Droits d'auteur : la question épineuse de l'IA
La question des droits d'auteur demeure l'un des défis éthiques et juridiques majeurs pesant sur l'IA. Des leaders comme OpenAI et Google ont englouti des quantités incommensurables de données glanées sur le web, des articles de presse aux informations plus intrusives comme les publications sur les réseaux sociaux. Par ailleurs, Meta fait face à des poursuites d'auteurs qui l'accusent d'avoir illégalement utilisé sept millions de livres protégés par le droit d'auteur pour entraîner ses IA.
L'industrie technologique a justifié ses exigences voraces en matière de données en invoquant la notion d'"usage équitable", et plus fondamentalement, en affirmant qu'il serait "impossible" de développer cette technologie sans siphonner gratuitement le contenu de chacun.
Vers plus de transparence et de responsabilité ?
Ce travail récent constitue un revers cinglant pour cette ligne de défense des entreprises de la Silicon Valley, bien qu'il ne dissipe pas toutes les inquiétudes éthiques. Ce modèle reste un grand modèle linguistique, une technologie fondamentalement destinée à automatiser des tâches et à potentiellement réduire l'emploi. De plus, il est peu probable que chaque auteur dont l'œuvre est tombée dans le domaine public soit ravi de la voir "reproduite" par une IA – à moins qu'il ne s'agisse d'artistes décédés dont les droits d'auteur ont expiré.
Même si les entreprises d'IA étaient contraintes de n'utiliser que des œuvres avec permission ou compensation – ce qui reste une hypothèse audacieuse –, la réalité est que tant que ces entreprises existeront, une pression considérable s'exercera sur les détenteurs de droits d'auteur pour autoriser l'entraînement des IA.
Stella Biderman n'a aucun doute que des entreprises comme OpenAI ne changeront pas subitement pour devenir un modèle d'approvisionnement éthique en données. Elle espère cependant que son travail les aidera au moins à cesser de dissimuler ce qu'elles utilisent pour entraîner leurs modèles d'IA. « Même une transparence partielle a une immense valeur sociale et une valeur scientifique modérée », a-t-elle affirmé.
Source : Washington Post
Notez ce sujet