Empleados de Meta discutieron «durante años» usar contenido con copyright para entrenar IA

Droids

Documentos judiciales revelan que empleados de Meta discutieron usar contenido protegido para entrenar IA

Nuevos documentos judiciales revelados el jueves muestran que durante años, empleados de Meta mantuvieron discusiones internas sobre el uso de obras protegidas por derechos de autor para entrenar sus modelos de inteligencia artificial, a menudo a través de medios legalmente cuestionables.

Los documentos forman parte del caso Kadrey v. Meta, una de las múltiples disputas legales sobre derechos de autor en IA que actualmente se procesan en el sistema judicial estadounidense. Meta sostiene que el entrenamiento de modelos con obras protegidas, especialmente libros, constituye un "uso justo", mientras que los demandantes, entre los que se encuentran los autores Sarah Silverman y Ta-Nehisi Coates, discrepan.

Conversaciones internas reveladoras

En una de las conversaciones más significativas, Xavier Martinet, ingeniero de investigación de Meta, sugirió seguir la filosofía de "pedir perdón, no permiso" en relación con la adquisición de libros para entrenamiento de IA. "Mi opinión sería… intentamos adquirir los libros y lo escalamos a los ejecutivos para que tomen la decisión", escribió Martinet en febrero de 2023.

El dilema de Libgen

Los documentos también revelan discusiones sobre el uso potencial de Libgen, un agregador de enlaces conocido por proporcionar acceso a obras protegidas por derechos de autor. Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, participó en conversaciones sobre el uso de esta plataforma como alternativa a las fuentes de datos con licencia.

Sony Theakanath, director de gestión de producto en Meta, llegó a describir Libgen como "esencial para alcanzar números SOTA (estado del arte) en todas las categorías". En un correo electrónico dirigido a la vicepresidenta de IA de Meta, Joelle Pineau, Theakanath propuso "mitigaciones" para reducir la exposición legal de la empresa, incluyendo la eliminación de datos "claramente marcados como pirateados/robados" y la no divulgación del uso de conjuntos de datos de Libgen.

Estrategias de mitigación

Los documentos revelan que Meta implementó varias estrategias para minimizar riesgos legales:

  • Filtrado de archivos que contuvieran palabras como "robado" o "pirateado"
  • Configuración de modelos para evitar responder a preguntas sobre derechos de propiedad intelectual
  • Consideración de diferentes fuentes de datos, incluyendo contenido de plataformas propias

Necesidad de más datos

En una conversación de marzo de 2024, Chaya Nayak, directora de gestión de producto en la división de IA generativa de Meta, indicó que el liderazgo de la empresa estaba considerando "anular" decisiones anteriores sobre conjuntos de entrenamiento, sugiriendo que los datos propios de Meta – posts de Facebook e Instagram, transcripciones de videos y mensajes de Meta for Business – no eran suficientes.

El caso Kadrey v. Meta ha visto múltiples enmiendas desde su presentación inicial en 2023. La última modificación alega que Meta comparó libros pirateados con libros disponibles para licencia para evaluar la conveniencia de buscar acuerdos con editoriales.

En respuesta a la gravedad del caso, Meta ha reforzado su equipo legal incorporando a dos litigantes de la Corte Suprema de la firma Paul Weiss. La empresa no ha respondido inmediatamente a las solicitudes de comentarios sobre estas nuevas revelaciones.

Estas revelaciones llegan en un momento crucial para la industria de la IA, donde el debate sobre el uso ético y legal de contenido protegido por derechos de autor para el entrenamiento de modelos de IA sigue siendo un tema candente y sin resolver.

Deja un comentario