Un nuevo estudio sugiere que OpenAI, la empresa detrás de ChatGPT, podría haber utilizado libros de pago de la editorial O'Reilly Media sin la debida autorización para entrenar sus modelos de inteligencia artificial más avanzados. La investigación, realizada por una organización de vigilancia de IA, plantea serias preguntas sobre las prácticas de entrenamiento de datos de la compañía.
El estudio de AI Disclosures Project
Según informa TechCrunch, un nuevo estudio publicado por AI Disclosures Project, una organización sin ánimo de lucro cofundada en 2024 por el magnate de medios Tim O'Reilly y el economista Ilan Strauss, concluye que OpenAI probablemente entrenó su modelo GPT-4o con libros bajo paywall de O'Reilly Media, sin contar con un acuerdo de licencia para ello.
Es importante destacar que Tim O'Reilly es también el CEO de O'Reilly Media, la editorial cuyos libros habrían sido utilizados sin autorización, lo que añade una capa adicional de complejidad al caso.
El equipo de investigación, compuesto por O'Reilly, Strauss y el investigador de IA Sruly Rosenblat, empleó un método llamado DE-COP (introducido en un estudio académico en 2024) para detectar contenido con derechos de autor en los datos de entrenamiento de modelos de lenguaje. Esta técnica, también conocida como "ataque de inferencia de membresía", prueba si un modelo puede distinguir de manera fiable textos escritos por humanos de versiones parafraseadas generadas por IA del mismo texto. Si puede hacerlo, sugiere que el modelo podría tener conocimiento previo del texto desde sus datos de entrenamiento.
Hallazgos principales de la investigación
Los investigadores analizaron 13.962 extractos de párrafos de 34 libros de O'Reilly para estimar la probabilidad de que un determinado extracto hubiera sido incluido en el conjunto de datos de entrenamiento de un modelo.
"GPT-4o, el modelo más reciente y capaz de OpenAI, demuestra un fuerte reconocimiento del contenido de libros de O'Reilly bajo paywall… en comparación con el modelo anterior de OpenAI, GPT-3.5 Turbo", escribieron los coautores del estudio, según recoge TechCrunch.
De acuerdo con los resultados, GPT-4o "reconoció" mucho más contenido de libros de pago de O'Reilly que los modelos más antiguos de OpenAI, específicamente GPT-3.5 Turbo. Esto ocurre incluso después de tener en cuenta posibles factores confusos, como las mejoras en la capacidad de los modelos más nuevos para determinar si un texto fue escrito por humanos.
"GPT-4o [probablemente] reconoce, y por tanto tiene conocimiento previo, de muchos libros no públicos de O'Reilly publicados antes de su fecha límite de entrenamiento", afirmaron los coautores.
Limitaciones reconocidas del estudio
Los propios investigadores son cuidadosos al señalar que su estudio no constituye una prueba definitiva. Reconocen que su método experimental no es infalible y que OpenAI podría haber recopilado los extractos de libros bajo paywall a través de usuarios que copiaban y pegaban el contenido en ChatGPT.
Además, el estudio no evaluó la colección más reciente de modelos de OpenAI, que incluye GPT-4.5 y modelos de "razonamiento" como o3-mini y o1. Es posible que estos modelos no se hayan entrenado con datos de libros de O'Reilly bajo paywall o que se hayan entrenado con una cantidad menor que GPT-4o.
El contexto más amplio sobre el uso de datos por OpenAI
No es ningún secreto que OpenAI, que ha abogado por restricciones más flexibles en torno al desarrollo de modelos utilizando datos con derechos de autor, ha estado buscando datos de entrenamiento de mayor calidad durante algún tiempo.
La empresa ha llegado incluso a contratar periodistas para ayudar a ajustar las salidas de sus modelos. Esta es una tendencia en toda la industria: compañías de IA que reclutan expertos en dominios como ciencia y física para hacer que estos expertos alimenten su conocimiento en sistemas de IA.
Es importante señalar que OpenAI paga por al menos algunos de sus datos de entrenamiento. La empresa tiene acuerdos de licencia con editores de noticias, redes sociales, bibliotecas de medios de stock y otros. OpenAI también ofrece mecanismos de exclusión —aunque imperfectos— que permiten a los propietarios de derechos de autor marcar contenido que preferirían que la empresa no utilizara con fines de entrenamiento.
Implicaciones para la industria de IA
Este caso se suma a la creciente controversia sobre cómo las empresas de IA obtienen los datos para entrenar sus modelos. Los modelos de IA son esencialmente motores complejos de predicción que, cuando son entrenados con grandes volúmenes de datos (libros, películas, programas de televisión, etc.), aprenden patrones y formas novedosas de extrapolar a partir de indicaciones simples.
Si bien algunas empresas de IA, incluida OpenAI, han comenzado a adoptar datos generados por IA para entrenar IA a medida que agotan las fuentes del mundo real (principalmente la web pública), pocas han abandonado por completo los datos del mundo real. Esto probablemente se debe a que entrenar con datos puramente sintéticos conlleva riesgos, como empeorar el rendimiento del modelo.
Mientras OpenAI batalla con varias demandas sobre sus prácticas de entrenamiento de datos y su tratamiento de la ley de derechos de autor en los tribunales estadounidenses, el estudio de O'Reilly no presenta la imagen más favorable para la empresa.
Según TechCrunch, OpenAI no respondió a una solicitud de comentarios sobre las acusaciones planteadas en el estudio.
¿Qué significa esto para el futuro?
A medida que los modelos de IA se vuelven más sofisticados y su demanda aumenta, la necesidad de datos de alta calidad para su entrenamiento crece exponencialmente. Sin embargo, este caso pone de relieve las complejas cuestiones legales y éticas que rodean la obtención de estos datos.
La industria de la IA se encuentra en un punto de inflexión, donde las empresas deben equilibrar la necesidad de avanzar tecnológicamente con el respeto a los derechos de propiedad intelectual. Las decisiones que se tomen ahora, tanto por parte de las empresas como de los legisladores, probablemente establecerán precedentes que darán forma al futuro desarrollo de la inteligencia artificial.
Mientras tanto, estudios como el de AI Disclosures Project subrayan la importancia de la transparencia y la rendición de cuentas en una industria que está transformando rápidamente nuestra sociedad.