L'IA de Meta, pirate de livres
Par New Scientist .Publié le
2025/06/19 06:51

Juillet. 19, 2025
Un expert juridique vient de faire une découverte sidérante : l'intelligence artificielle de Meta serait capable de restituer des passages entiers de livres au mot près. Si ces allégations se confirment, les conséquences pourraient être désastreuses pour le géant de la tech et son PDG, Mark Zuckerberg.
Pour bien comprendre l'enjeu, rappelons que les IA génératives qui font aujourd'hui la une, comme ChatGPT d'OpenAI ou Llama de Meta, sont entraînées en étant abreuvées d'une quantité colossale de données. Les chercheurs appliquent ensuite des algorithmes complexes qui enseignent au système à reconnaître des schémas dans ces montagnes de données, à tel point qu'il peut ensuite en créer de nouveaux. En théorie, si vous lui demandez un résumé de l'intrigue d'un "Harry Potter", il devrait vous fournir une vue d'ensemble (espérons-le) pertinente.
Le problème majeur, comme l'a révélé Mark Lemley, expert en droit des technologies à l'Université de Stanford, dans une interview à New Scientist, est que son équipe a découvert que le modèle LLaMA de Meta est capable de reproduire fidèlement le contenu exact d'ouvrages protégés par le droit d'auteur. Concrètement, l'IA ne se contente pas de "comprendre" ou de résumer le contenu des livres ; elle copie littéralement de larges extraits, mot pour mot et caractère pour caractère. Parmi les exemples cités, de longs passages de la saga "Harry Potter", valorisée à plusieurs milliards de dollars.
Une bombe juridique pour Meta
Pour Meta, cette capacité représente une responsabilité juridique colossale. Pourquoi ? Parce que si son IA régurgite des extraits complets du matériel qui a servi à son entraînement, elle ressemble moins à un outil créant des œuvres transformatives basées sur des schémas linguistiques généraux, et davantage à une gigantesque archive compressée (.ZIP) d'œuvres protégées, que les utilisateurs pourraient alors reproduire à leur guise.
Et cela semble bien être le cas. Lors de tests comparatifs menés sur divers modèles d'IA, y compris ceux d'OpenAI, DeepSeek et Microsoft, l'équipe de Lemley a constaté que LLaMA de Meta était le seul à régurgiter précisément le contenu des livres. Plus spécifiquement, les chercheurs ont découvert que LLaMA semblait avoir "mémorisé" des œuvres telles que le premier tome de "Harry Potter" de J.K. Rowling, "Gatsby le Magnifique" de F. Scott Fitzgerald et "1984" de George Orwell.
L'ombre du "torrent" illégal
Il est indéniable que Meta, comme ses pairs dans l'industrie technologique, a utilisé des matériaux protégés par le droit d'auteur pour entraîner son IA. Cependant, sa méthode spécifique est vivement critiquée. Il a été révélé, lors d'un procès pour violation de droits d'auteur intenté contre Meta par des auteurs, dont l'humoriste Sarah Silverman, que le modèle avait été entraîné sur la base de données "Books3". Cette dernière contient près de 200 000 publications protégées, et les ingénieurs de Meta l'auraient téléchargée via un torrent illégal. Des messages internes, produits en cour, montrent même l'un d'eux s'inquiéter : « Télécharger via torrent depuis un ordinateur portable d'entreprise [appartenant à Meta] ne me semble pas correct. »
Rappelons qu'un torrent est une méthode de partage de fichiers volumineux sur Internet de manière décentralisée (pair-à-pair). Au lieu de télécharger un fichier complet depuis une source unique, le torrent divise le fichier en petites parties, qui sont téléchargées simultanément depuis de multiples sources.
Lemley et son équipe estiment que si seulement 3% des données de Books3 (sur lesquelles Meta a été entraînée) s'avéraient contrefaites, la société derrière cette base de données pourrait devoir près d'un milliard de dollars en dommages et intérêts légaux. Et cela n'inclut pas les paiements supplémentaires basés sur les profits tirés de ce vol. Si la proportion de contenu contrefait est plus élevée, Meta pourrait, en théorie du moins, se retrouver dans une situation financière extrêmement précaire.
Un revirement inattendu
Mark Lemley se retrouve d'ailleurs dans une position délicate. Il avait précédemment défendu Meta dans le même procès mentionné ci-dessus. Cependant, plus tôt cette année, le professeur de Stanford a annoncé sur LinkedIn qu'il ne représenterait plus la société, en signe de protestation contre ce qu'il considérait comme le "signalement vertueux" de droite de Meta et Zuckerberg. À l'époque, il pensait que Meta devait gagner son procès, mais à la lumière de ses nouvelles recherches, il semblerait que cette opinion ait évolué.
Meta a refusé de commenter les conclusions de Lemley auprès de New Scientist.
Source: New Scientist
Notez ce sujet