Microsoft ha puesto en marcha un proyecto de investigación destinado a estimar la influencia que tienen ejemplos específicos de entrenamiento en el contenido generado por modelos de inteligencia artificial. Esta iniciativa podría abrir la puerta a un sistema que reconozca y potencialmente compense a los creadores originales del contenido utilizado para entrenar sistemas de IA.
La información sobre este proyecto proviene de una oferta de trabajo publicada en diciembre y recientemente recirculada en LinkedIn, según revela TechCrunch.
Un nuevo enfoque para la transparencia en IA
El proyecto de Microsoft busca demostrar que los modelos de inteligencia artificial pueden entrenarse de manera que se pueda "estimar eficiente y útilmente" el impacto de datos particulares —como fotografías y libros— en los resultados que generan.
"Las arquitecturas actuales de redes neuronales son opacas en términos de proporcionar fuentes para sus generaciones, y hay buenas razones para cambiar esto", señala la oferta de empleo, que busca un becario de investigación. Una de estas razones sería proporcionar "incentivos, reconocimiento y potencialmente pago para las personas que contribuyen con ciertos datos valiosos a tipos imprevistos de modelos que querremos en el futuro".
Este proyecto, descrito como "proveniencia en tiempo de entrenamiento" (training-time provenance), representa un cambio significativo en la forma en que las grandes empresas tecnológicas abordan la transparencia y atribución en sus sistemas de IA.
El contexto de las demandas por propiedad intelectual
La iniciativa surge en un momento en que los generadores de texto, código, imágenes, vídeos y canciones impulsados por IA están en el centro de numerosas demandas por propiedad intelectual contra empresas de IA. Estas compañías suelen entrenar sus modelos con enormes cantidades de datos de sitios web públicos, algunos de los cuales están protegidos por derechos de autor.
Microsoft enfrenta actualmente al menos dos desafíos legales por parte de titulares de derechos de autor:
-
The New York Times demandó a Microsoft y OpenAI en diciembre, acusando a ambas empresas de infringir los derechos de autor del periódico al utilizar millones de sus artículos para entrenar modelos de IA.
-
Varios desarrolladores de software han presentado demandas contra Microsoft, alegando que su asistente de codificación GitHub Copilot fue entrenado ilegalmente usando sus obras protegidas.
Aunque muchas empresas de IA argumentan que la doctrina de "uso justo" (fair use) protege sus prácticas de extracción de datos y entrenamiento, los creadores —desde artistas hasta programadores y autores— generalmente no están de acuerdo con esta interpretación.
La visión de Jaron Lanier sobre "la dignidad de los datos"
El proyecto de Microsoft cuenta aparentemente con la participación de Jaron Lanier, reconocido tecnólogo y científico interdisciplinario de Microsoft Research. Lanier es conocido por sus posturas críticas sobre ciertos aspectos de la tecnología digital.
En un artículo de opinión publicado en The New Yorker en abril de 2023, Lanier escribió sobre el concepto de "dignidad de datos", que para él significa conectar "cosas digitales" con "los humanos que quieren ser reconocidos por haberlas creado".
"Un enfoque de dignidad de datos rastrearía a los contribuyentes más únicos e influyentes cuando un gran modelo proporciona un resultado valioso", explicó Lanier en su artículo. "Por ejemplo, si le pides a un modelo 'una película animada de mis hijos en un mundo de pintura al óleo de gatos parlantes en una aventura', entonces se podría calcular que ciertos pintores clave de óleos, retratistas de gatos, actores de voz y escritores —o sus herederos— han sido excepcionalmente esenciales para la creación de la nueva obra maestra. Serían reconocidos y motivados. Incluso podrían recibir un pago".
Iniciativas similares en la industria
Microsoft no es la única empresa que explora este tipo de reconocimiento. Algunas compañías ya están implementando sistemas similares:
-
Bria, desarrolladora de modelos de IA que recientemente recaudó 40 millones de dólares (aproximadamente 37 millones de euros) en capital de riesgo, afirma compensar "programáticamente" a los propietarios de datos según su "influencia general".
-
Adobe y Shutterstock también otorgan pagos regulares a los contribuyentes de conjuntos de datos, aunque los montos exactos suelen ser poco transparentes.
Sin embargo, pocos laboratorios grandes han establecido programas de pago para contribuyentes individuales más allá de firmar acuerdos de licencia con editores, plataformas y corredores de datos. En su lugar, han proporcionado medios para que los titulares de derechos de autor "opten por no participar" en el entrenamiento, aunque estos procesos suelen ser complicados y solo se aplican a modelos futuros, no a los ya entrenados.
Posibles motivaciones y limitaciones
El proyecto de Microsoft podría quedarse en una simple prueba de concepto. Hay precedentes para ello: en mayo pasado, OpenAI anunció que estaba desarrollando una tecnología similar que permitiría a los creadores especificar cómo quieren que sus obras sean incluidas o excluidas de los datos de entrenamiento. Sin embargo, casi un año después, la herramienta aún no ha visto la luz del día y no ha sido considerada una prioridad interna.
También existe la posibilidad de que Microsoft esté intentando realizar un "lavado ético" (ethics washing) —una práctica consistente en presentar iniciativas que parecen abordar preocupaciones éticas pero que tienen un impacto limitado— o anticiparse a decisiones regulatorias o judiciales que podrían afectar su negocio de IA.
Un camino diferente al de otros laboratorios de IA
Que Microsoft esté investigando formas de rastrear los datos de entrenamiento es notable, especialmente considerando las posiciones recientemente expresadas por otros laboratorios de IA sobre el uso justo. Varios de los principales laboratorios, incluidos Google y OpenAI, han publicado documentos de política recomendando que se debiliten las protecciones de derechos de autor en relación con el desarrollo de IA.
OpenAI ha pedido explícitamente al gobierno de EE.UU. que codifique el uso justo para el entrenamiento de modelos, argumentando que esto liberaría a los desarrolladores de restricciones onerosas.
Esta iniciativa de Microsoft, aunque todavía en fase inicial, podría representar un importante paso hacia un ecosistema de IA más transparente y justo, donde los creadores de contenido reciban el reconocimiento y potencialmente la compensación económica por su contribución involuntaria al desarrollo de sistemas de inteligencia artificial.
TechCrunch señala que Microsoft no respondió inmediatamente a una solicitud de comentarios sobre esta iniciativa.