Un nuevo estudio revela que los modelos de OpenAI habrían memorizado contenido protegido por derechos de autor

Droids

Updated on:

Un nuevo estudio revela que los modelos de OpenAI habrían memorizado contenido protegido por derechos de autor

Un reciente estudio académico parece respaldar las acusaciones de que OpenAI habría entrenado algunos de sus modelos de inteligencia artificial con contenido protegido por derechos de autor. La investigación, realizada por expertos de la Universidad de Washington, la Universidad de Copenhague y Stanford, propone un nuevo método para identificar material "memorizado" por los modelos de IA durante su entrenamiento.

Esta revelación cobra especial relevancia en un momento en que OpenAI se enfrenta a múltiples demandas de autores, programadores y otros propietarios de derechos, quienes acusan a la empresa de utilizar sus obras —libros, códigos informáticos y otros materiales— sin autorización para desarrollar sus modelos de IA.

El método de investigación: palabras de "alta sorpresa"

Los investigadores han desarrollado una técnica innovadora para detectar si los modelos de IA han memorizado contenidos específicos. Este método se basa en lo que denominan palabras de "alta sorpresa" (high-surprisal en inglés), que son términos que destacan por ser estadísticamente poco comunes en determinados contextos.

Por ejemplo, en la frase "Jack y yo nos quedamos perfectamente quietos con el radar zumbando", la palabra "radar" sería considerada de alta sorpresa porque es estadísticamente menos probable que aparezca antes de "zumbando" que palabras como "motor" o "radio".

Para poner a prueba los modelos de OpenAI, los investigadores eliminaron estas palabras inusuales de fragmentos de libros de ficción y artículos del New York Times, pidiendo a los modelos que "adivinaran" qué palabras habían sido ocultadas. Si los modelos lograban acertar correctamente, los investigadores concluían que probablemente habían memorizado ese fragmento durante su entrenamiento.

Un ejemplo de cómo un modelo intenta "adivinar" una palabra de alta sorpresa

Resultados del estudio: memorización de libros y artículos

Según los resultados de estas pruebas, GPT-4 mostró indicios de haber memorizado partes de libros populares de ficción, incluyendo obras contenidas en un conjunto de datos llamado BookMIA, que contiene muestras de libros electrónicos protegidos por derechos de autor.

Los resultados también sugirieron que el modelo había memorizado secciones de artículos del New York Times, aunque a un ritmo comparativamente menor que el contenido literario.

Esta "memorización" es particularmente relevante porque evidencia que, en algunos casos, los modelos no solo aprenden patrones generales del lenguaje, sino que también podrían estar almacenando y reproduciendo fragmentos específicos de obras protegidas.

Implicaciones legales y la defensa de OpenAI

OpenAI ha defendido consistentemente el uso de contenido protegido para entrenar sus modelos bajo el argumento de "uso justo" (fair use en inglés). Sin embargo, los demandantes en los casos legales actuales argumentan que la legislación estadounidense sobre derechos de autor no contempla excepciones específicas para datos de entrenamiento de IA.

Es importante entender que los modelos de IA son esencialmente motores de predicción. Entrenados con grandes cantidades de datos, aprenden patrones que les permiten generar ensayos, fotos y otros contenidos. Aunque la mayoría de las salidas no son copias textuales de los datos de entrenamiento, debido a la forma en que los modelos "aprenden", algunos resultados inevitablemente lo son.

En este sentido, estudios anteriores ya habían encontrado que los modelos de imágenes podían regurgitar capturas de pantalla de películas con las que fueron entrenados, mientras que los modelos de lenguaje han sido observados plagiando efectivamente artículos de noticias.

OpenAI ha abogado durante mucho tiempo por restricciones más flexibles en el desarrollo de modelos utilizando datos con derechos de autor. Si bien la empresa tiene algunos acuerdos de licencia de contenido y ofrece mecanismos para que los propietarios de derechos marquen el contenido que preferirían que la empresa no utilizara para fines de entrenamiento, también ha presionado a varios gobiernos para codificar reglas de "uso justo" en torno a los enfoques de entrenamiento de IA.

La necesidad de transparencia en la industria de la IA

Abhilasha Ravichander, estudiante de doctorado en la Universidad de Washington y coautora del estudio, destacó la importancia de la transparencia en el entrenamiento de estos sistemas de IA. "Para tener modelos de lenguaje grandes que sean confiables, necesitamos modelos que podamos sondear, auditar y examinar científicamente", declaró a TechCrunch.

"Nuestro trabajo tiene como objetivo proporcionar una herramienta para sondear modelos de lenguaje grandes, pero existe una necesidad real de mayor transparencia de datos en todo el ecosistema", añadió Ravichander.

El estudio plantea importantes cuestiones sobre la ética y la legalidad del entrenamiento de sistemas de IA con contenido protegido por derechos de autor. A medida que estos modelos se vuelven más prevalentes en nuestra sociedad, la transparencia sobre cómo se entrenan y qué datos utilizan se convierte en un asunto de creciente importancia.

Las conclusiones de esta investigación podrían tener un impacto significativo en los casos legales pendientes contra OpenAI y potencialmente influir en futuros marcos regulatorios para el desarrollo de la IA. También podría impulsar cambios en las prácticas de la industria hacia una mayor transparencia y responsabilidad en el uso de datos para el entrenamiento de modelos.

El debate sobre el equilibrio entre la innovación tecnológica y la protección de los derechos de autor promete intensificarse a medida que más investigaciones arrojen luz sobre el funcionamiento interno de los sistemas de IA más avanzados del mundo.

Deja un comentario