Meta y OpenAI utilizaron millones de libros pirateados para entrenar sus modelos de IA

Droids

Meta y OpenAI utilizaron millones de libros pirateados para entrenar sus modelos de IA

Documentos judiciales revelan que Meta descargó masivamente contenido protegido por derechos de autor de Library Genesis (LibGen), una gigantesca biblioteca pirata en línea, para entrenar su modelo de inteligencia artificial Llama 3. También confirman que OpenAI ha utilizado esta misma fuente para desarrollar sus sistemas.

La magnitud del problema de los libros pirateados

Según revela un informe de The Atlantic, cuando los empleados de Meta comenzaron a desarrollar su modelo insignia de IA, Llama 3, se enfrentaron a un dilema: necesitaban enormes cantidades de texto de alta calidad para competir con productos como ChatGPT, pero adquirir legalmente ese material llevaría tiempo y dinero. La solución que encontraron fue recurrir a Library Genesis, conocida como LibGen.

LibGen es una de las mayores bibliotecas piratas del mundo, con más de 7,5 millones de libros y 81 millones de artículos de investigación. Su colección incluye obras de autores reconocidos como Sally Rooney, Percival Everett y Joan Didion, además de artículos de prestigiosas revistas académicas como Nature, Science y The Lancet.

Esta biblioteca pirata supera con creces el tamaño de Books3, otro repositorio de libros pirateados cuyo contenido fue revelado por The Atlantic en 2023. La escala de LibGen explica por qué resulta tan atractiva para las empresas de IA generativa, cuyos modelos se alimentan de cantidades inmensas de texto.

Las comunicaciones internas de Meta revelan el uso deliberado de material pirateado

Los documentos judiciales recientemente publicados muestran que Meta consideró varias opciones para obtener contenido. Sus empleados hablaron con múltiples compañías sobre la licencia de libros y artículos de investigación, pero un científico investigador escribió en un chat interno que esto parecía "irrazonablemente caro", según los registros judiciales.

Un alto directivo del equipo de Llama añadió que el proceso de licencias también sería "increíblemente lento", señalando que "tardan como 4+ semanas en entregar datos". Eventualmente, el equipo recibió permiso de "MZ" —aparentemente una referencia a Mark Zuckerberg— para descargar y utilizar el conjunto de datos de LibGen.

Los empleados reconocieron en sus comunicaciones internas que entrenar Llama con LibGen presentaba un "riesgo legal medio-alto", y discutieron varias "mitigaciones" para enmascarar su actividad. Un empleado recomendó "eliminar datos claramente marcados como pirateados/robados" y "no citar externamente el uso de ningún dato de entrenamiento incluyendo LibGen".

Las demandas por infracción de derechos de autor

Esta información se hizo pública cuando algunas comunicaciones internas de Meta fueron desclasificadas como parte de una demanda por infracción de derechos de autor presentada contra la empresa por Sarah Silverman, Junot Díaz y otros autores cuyos libros están en LibGen.

También se ha revelado recientemente, en otra demanda presentada por un grupo similar de autores, que OpenAI ha utilizado LibGen en el pasado para entrenar sus modelos.

Tanto Meta como OpenAI han argumentado en los tribunales que es "uso justo" entrenar sus modelos de IA generativa con obras protegidas por derechos de autor sin licencia, porque sus modelos "transforman" el material original en un nuevo trabajo. Esta defensa plantea cuestiones espinosas y probablemente esté lejos de resolverse.

Un aspecto particularmente problemático es que Meta aparentemente utilizó BitTorrent, un protocolo de intercambio de archivos popular entre piratas por su anonimato, para descargar masivamente el contenido. Descargar con BitTorrent típicamente implica subir simultáneamente a otros usuarios, lo que significa que Meta podría haber no solo accedido a material pirateado sino también haberlo distribuido a otros, una actividad claramente ilegal bajo las leyes de derechos de autor.

Meta ha afirmado que "tomó precauciones para no 'sembrar' ningún archivo descargado" y que no hay "hechos que demuestren" que distribuyó los libros a otros. El método de descarga de OpenAI aún no se conoce.

La historia y persistencia de LibGen

LibGen fue creado alrededor de 2008 por científicos en Rusia. Como ha escrito uno de los administradores de LibGen, la colección existe para servir a personas en "África, India, Pakistán, Irán, Irak, China, Rusia y post-URSS, etc., y por otra parte, personas que no pertenecen a la academia".

A lo largo de los años, la colección ha crecido enormemente a medida que los contribuyentes añadían más y más obras pirateadas. Inicialmente, la mayor parte de LibGen estaba en ruso, pero las obras en inglés rápidamente llegaron a dominar la colección.

Las editoriales han intentado detener la propagación de este material pirateado. En 2015, la editorial académica Elsevier presentó una denuncia contra LibGen, Sci-Hub (un sitio hermano creado por Alexandra Elbakyan) y otros sitios. El tribunal concedió una orden judicial, ordenó a los sitios cerrar y ordenó a Sci-Hub pagar a Elsevier 15 millones de dólares (aproximadamente 13,7 millones de euros) por daños y perjuicios. Sin embargo, los sitios permanecieron activos y las multas nunca se pagaron.

Una historia similar ocurrió en 2023, cuando un grupo de editoriales educativas y profesionales, incluidas Macmillan Learning y McGraw Hill, demandaron a LibGen. Esta vez el tribunal ordenó a LibGen pagar 30 millones de dólares (unos 27,4 millones de euros) por daños y perjuicios, en lo que TorrentFreak llamó "una de las órdenes judiciales antipiratería más amplias que hemos visto de un tribunal estadounidense". Pero esa multa también quedó sin pagar.

Una de las mayores preguntas de la era digital es cómo gestionar el flujo de conocimiento y trabajo creativo de manera que beneficie más a la sociedad. LibGen y otras bibliotecas piratas similares hacen que la información sea más accesible, permitiendo a las personas leer trabajos originales sin pagar por ellos.

Sin embargo, empresas de IA generativa como Meta han ido un paso más allá: su objetivo es absorber el trabajo en productos tecnológicos rentables que compiten con los originales. Los chatbots de IA generativa se presentan como oráculos que han "aprendido" de sus datos de entrenamiento y a menudo no citan fuentes (o citan fuentes imaginarias). Esto descontextualiza el conocimiento, impide la colaboración humana y dificulta que escritores e investigadores construyan una reputación y participen en un debate intelectual saludable.

Aunque estas herramientas de IA estén siendo utilizadas por cientos de millones de personas —según afirma Zuckerberg, el asistente "Meta AI" está integrado en productos como Facebook, WhatsApp e Instagram—, surge la pregunta de si realmente beneficiarán a la sociedad más que el diálogo humano que ya están empezando a reemplazar.

El caso de LibGen y su uso por parte de las grandes tecnológicas plantea una cuestión fundamental: ¿cómo equilibrar el acceso al conocimiento con la protección de los derechos de quienes lo crean? Es una pregunta que los tribunales, la industria tecnológica y la sociedad en general deberán responder en los próximos años.

Deja un comentario