La organización sin ánimo de lucro Creative Commons, conocida mundialmente por sus licencias que han facilitado el intercambio de miles de millones de obras creativas en internet, ha dado un paso decisivo hacia el futuro de la inteligencia artificial. Este miércoles, ha anunciado el lanzamiento de CC signals, un innovador proyecto que busca establecer un marco legal y técnico para que los creadores y propietarios de datos puedan especificar cómo desean que sus contenidos sean utilizados (o no) por los sistemas de IA.
La iniciativa llega en un momento crucial, donde la insaciable demanda de datos para entrenar modelos de inteligencia artificial amenaza con socavar los cimientos de una web abierta y colaborativa. CC signals se presenta como una solución para equilibrar la balanza, ofreciendo herramientas para fomentar un ecosistema de IA basado en el respeto, la transparencia y la reciprocidad, evitando un futuro en el que el contenido de internet quede encerrado tras muros de pago y barreras técnicas.
Una respuesta a la «sed de datos» de la inteligencia artificial
En los últimos años, el desarrollo de la inteligencia artificial generativa ha desatado una carrera sin precedentes por conseguir datos. Modelos como ChatGPT, Midjourney o Claude necesitan procesar cantidades ingentes de texto, imágenes y código para aprender a generar contenido coherente y útil. Esta necesidad se ha traducido en una práctica conocida como scraping o extracción masiva de datos, donde bots automatizados recorren la web para recopilar toda la información públicamente accesible.
Si bien esta práctica ha sido fundamental para el avance de la IA, ha generado una enorme tensión. Como explica Creative Commons en la publicación de su blog que anuncia la iniciativa, esta extracción continua podría erosionar la apertura de internet. Ante el temor de que sus contenidos sean explotados sin permiso ni compensación, muchos sitios web, creadores y organizaciones están empezando a tomar medidas drásticas, como bloquear el acceso a sus datos o implementar muros de pago, lo que podría fragmentar la red y limitar el acceso al conocimiento.
Es en este contexto donde CC signals pretende intervenir. La idea es ofrecer una alternativa al cierre, proporcionando un lenguaje común y estandarizado para que quienes controlan los datos y quienes los utilizan para entrenar modelos de IA puedan entenderse.
¿Cómo funcionan las CC signals?: Un «contrato social» para máquinas
Al igual que las famosas licencias Creative Commons (CC BY, CC BY-NC, etc.) proporcionaron un marco sencillo para que los humanos compartieran sus obras creativas, CC signals busca hacer lo mismo para la interacción entre contenidos y máquinas. No se trata de una única licencia, sino de un conjunto de herramientas flexibles que combinan elementos legales y técnicos con un importante peso ético.
Estas «señales» permitirán a un titular de un conjunto de datos (desde un bloguero individual hasta una gran institución cultural) indicar claramente sus preferencias sobre el uso de su contenido por parte de la IA. Por ejemplo, un creador podría permitir el uso de sus imágenes para entrenar modelos de IA sin fines comerciales, pero prohibirlo para usos lucrativos. Otro podría permitir el análisis de sus textos, pero exigir que se le atribuya la autoría de alguna manera en el proceso.
El objetivo, según la organización, es forjar un «nuevo contrato social para la era de la IA». Anna Tumadóttir, CEO de Creative Commons, lo expresó con claridad en el anuncio oficial: «Las CC signals están diseñadas para sostener el procomún en la era de la IA». Y añadió: «Así como las licencias CC ayudaron a construir la web abierta, creemos que las CC signals ayudarán a dar forma a un ecosistema de IA abierto y basado en la reciprocidad».
Esta idea de reciprocidad es clave. En lugar de una simple extracción unilateral, se busca una relación más equilibrada, donde los desarrolladores de IA respeten los deseos de los creadores, y los creadores, a su vez, tengan una vía clara para contribuir de forma voluntaria al avance de la tecnología bajo sus propios términos.
Un panorama fragmentado: la batalla actual por el control de los datos
La necesidad de una herramienta como CC signals se hace evidente al observar el caos actual en el ecosistema digital. Según informa TechCrunch en su artículo sobre el lanzamiento, diferentes plataformas y comunidades están improvisando sus propias soluciones, a menudo con resultados dispares.
- Los vaivenes de las grandes plataformas: La red social X (antes Twitter), por ejemplo, ha tenido una política errática. Inicialmente modificó sus términos para permitir que terceros usaran sus datos públicos para entrenar modelos, pero más tarde revirtió esta postura, prohibiendo dicha práctica.
- Soluciones técnicas con limitaciones: Reddit, por su parte, utiliza su archivo
robots.txtpara indicar a los rastreadores automáticos que no deben extraer sus datos. Sin embargo, el protocolorobots.txtes una directiva voluntaria, no una barrera técnica o legal, por lo que los bots menos éticos pueden simplemente ignorarlo. - Enfoques comerciales y defensivos: Empresas de infraestructura web como Cloudflare están explorando soluciones más contundentes, como un sistema para cobrar a los bots de IA por el scraping o incluso herramientas diseñadas para confundirlos.
- La resistencia del código abierto: En la otra cara de la moneda, algunos desarrolladores de código abierto han creado sus propias herramientas para tomar represalias contra los rastreadores que ignoran las reglas, diseñando «trampas» que ralentizan su funcionamiento y malgastan sus costosos recursos computacionales.
CC signals propone una vía para salir de esta confrontación, ofreciendo un estándar que podría ser adoptado por todos los actores del ecosistema, desde los creadores hasta las grandes tecnológicas.
Un proyecto en desarrollo: próximos pasos y llamada a la colaboración
El proyecto CC signals se encuentra todavía en una fase inicial. Creative Commons ha publicado los primeros diseños en su sitio web y en una página de GitHub para fomentar la transparencia y recabar opiniones de expertos, creadores, juristas y desarrolladores de IA.
La organización está buscando activamente la retroalimentación de la comunidad y planea organizar una serie de reuniones abiertas (town halls) para discutir la propuesta y responder preguntas. El objetivo es lanzar una versión alfa (una primera versión de prueba) en noviembre de 2025.
Este enfoque colaborativo es coherente con la historia de Creative Commons, cuyas licencias se convirtieron en un estándar global gracias a un largo proceso de consulta y participación comunitaria. Ahora, la organización espera repetir ese éxito para abordar uno de los mayores desafíos éticos y técnicos de nuestro tiempo: cómo construir una inteligencia artificial que sea innovadora, potente y, sobre todo, respetuosa con el ecosistema digital que la alimenta.






