Des millions de livres détruits pour entraîner l'IA : le coût caché de la révolution numérique
Par Ars Technica .Publié le
2025/06/30 01:10

Juillet. 30, 2025
Un récent rapport lève le voile sur les méthodes pour le moins radicales employées par l'entreprise Anthropic pour collecter les données nécessaires à l'entraînement de son modèle d'intelligence artificielle, Claude. Loin de se contenter de simplement exploiter des millions d'ouvrages protégés par le droit d'auteur, la société aurait procédé à leur destruction physique.
Dans une démarche révélant les coûts cachés de la révolution de l'IA et évoquant de manière frappante la destruction d'œuvres d'art, Anthropic, soutenue par Google, n'a pas seulement puisé dans des millions de livres sous copyright – une pratique déjà sujette à des questions éthiques et légales. Elle est allée plus loin : des pages ont été arrachées de leurs reliures, numérisées, puis des millions d'exemplaires originaux ont été purement et simplement jetés. Dire que l'IA a "dévoré" ces livres n'est donc pas une simple figure de style, mais une description littérale des faits.
Cette pratique a été mise en lumière lors d'un jugement rendu lundi dans une affaire de droit d'auteur, marquant une victoire significative pour Anthropic et, plus largement, pour une industrie technologique avide de données. Le juge de district américain William Alsup a estimé qu'Anthropic était en droit d'entraîner ses grands modèles linguistiques sur des livres légalement acquis, et ce, sans avoir à obtenir une autorisation explicite des auteurs.
Cette décision s'explique en partie par la méthode de numérisation des livres détruits utilisée par Anthropic. Si l'entreprise n'est pas la première à y recourir, selon Ars Technica, l'ampleur de l'opération est, elle, inédite.
Le "principe de la première vente" détourné
En substance, cette méthode s'appuie sur un concept juridique connu sous le nom de "principe de la première vente" (first-sale doctrine). Ce principe autorise l'acheteur à disposer de ses acquisitions comme bon lui semble, sans l'intervention du titulaire du droit d'auteur. C'est ce qui permet l'existence du marché du livre d'occasion ; sans cela, un éditeur, par exemple, pourrait réclamer une part des bénéfices ou interdire la revente de ses ouvrages.
Cependant, les entreprises d'IA ont utilisé ce principe de manière fallacieuse. Selon des documents judiciaires, Anthropic a embauché en février 2024 Tom Turvey, ancien responsable des partenariats du projet de numérisation de livres de Google, avec pour mission d'acquérir "tous les livres du monde" sans rencontrer de "difficultés légales/pratiques/commerciales", comme l'a décrit Dario Amodei, PDG d'Anthropic, dans les dossiers.
Turvey a alors trouvé une solution de contournement : en achetant des livres physiques, Anthropic serait protégée par le principe de la première vente et n'aurait plus à obtenir de licences. Le fait de retirer les pages a par ailleurs permis une numérisation plus facile et moins coûteuse.
Étant donné qu'Anthropic a utilisé les livres numérisés uniquement en interne et s'est ensuite débarrassée des exemplaires, le juge a considéré que ce processus s'apparentait à de la "conservation d'espace", le jugeant ainsi "transformatif" et, par conséquent, légalement acceptable.
Une pratique paresseuse et hypocrite
Bien sûr, il s'agit là d'une échappatoire douteuse et d'une hypocrisie flagrante. À ses débuts, Anthropic avait emprunté une voie plus scrupuleuse, téléchargeant des millions de livres piratés pour alimenter son IA. Meta a également eu recours à des millions de livres piratés et fait actuellement l'objet d'un procès intenté par un groupe d'auteurs.
C'est aussi une méthode qui relève de la paresse et de la négligence. Comme le souligne le journal, de nombreux archivistes ont mis au point diverses méthodes pour numériser des livres en grande quantité sans avoir besoin de détruire ou d'altérer les exemplaires originaux. C'est le cas, par exemple, de l'Internet Archive et du projet Google Books (qui, il n'y a pas si longtemps, faisait lui-même l'objet d'une bataille majeure sur les droits d'auteur).
Mais tout cela, c'est pour économiser quelques dollars – et pour obtenir ces données d'entraînement si précieuses. En effet, l'industrie de l'IA commence à manquer de sources de haute qualité pour alimenter ses modèles. Non seulement elle a passé tout ce temps à détruire les sources dont elle dépend de manière myope, mais nuire à certains auteurs et envoyer quelques livres au broyeur est, pour les grandes entreprises technologiques, un prix dérisoire à payer.
Source : Ars Technica
Notez ce sujet