En un movimiento estratégico para abordar uno de los mayores desafíos de la era digital, IAB Tech Lab ha puesto en marcha la LLM Content Ingest API Initiative. Se trata de un proyecto destinado a crear un estándar técnico global que permita a los editores de contenido, medios de comunicación y marcas tener un control real sobre cómo sus creaciones son accedidas y utilizadas por los Grandes Modelos de Lenguaje (LLM) que impulsan la inteligencia artificial generativa.
La iniciativa, anunciada por IAB Spain en un comunicado oficial, busca establecer un marco de trabajo que no solo proteja la propiedad intelectual, sino que también abra la puerta a nuevos modelos de negocio en un ecosistema que la IA está transformando a un ritmo vertiginoso.
El dilema de la IA: innovación a costa de los contenidos
La explosión de herramientas de IA generativa como ChatGPT, Claude o Gemini ha maravillado al mundo por su capacidad para crear textos, imágenes y código. Sin embargo, esta revolución se ha construido sobre una base de datos masiva: el contenido disponible en la web abierta. Durante años, las empresas de IA han utilizado bots para realizar un proceso conocido como scraping o «raspado web», que consiste en rastrear y descargar de forma masiva ingentes cantidades de información de sitios web para entrenar sus modelos.
Esta práctica, a menudo realizada sin permiso ni compensación, supone una amenaza directa para el modelo de negocio de los creadores de contenido. Los medios de comunicación, en particular, ven cómo su trabajo, que requiere inversión, investigación y talento, es utilizado para alimentar sistemas que, a su vez, compiten con ellos por la atención y el tráfico de los usuarios. Cuando un usuario obtiene una respuesta resumida de un chatbot en lugar de visitar el artículo original, el medio pierde visitas, ingresos publicitarios y la conexión directa con su audiencia.
Una respuesta estandarizada: la iniciativa LLM Content Ingest API
Frente a este escenario, IAB Tech Lab, el consorcio global sin ánimo de lucro que desarrolla estándares técnicos para la industria de la publicidad digital, ha decidido tomar cartas en el asunto. Su propuesta no es levantar muros infranqueables, sino construir una puerta de entrada controlada.
La LLM Content Ingest API Initiative busca crear un lenguaje común y un protocolo técnico para que la comunicación entre los publishers y las empresas de IA sea transparente, estructurada y, fundamentalmente, consensuada. El objetivo es pasar de un modelo de extracción no autorizada a uno de acceso negociado.
Los pilares del nuevo marco técnico
El marco de trabajo propuesto por IAB Tech Lab se sostiene sobre varios pilares fundamentales, diseñados para ofrecer una solución integral al problema.
Más allá del ‘robots.txt’: protección específica contra bots de IA
Desde hace décadas, el archivo robots.txt ha sido el estándar de facto para indicar a los rastreadores web (como el de Google) qué partes de un sitio web no deben ser indexadas. Sin embargo, este protocolo es una directriz voluntaria y a menudo ignorada por los bots de scraping más agresivos. Además, no fue diseñado para las complejidades de la IA.
La nueva iniciativa busca establecer mecanismos de protección más robustos y específicos para los bots de IA, dificultando el scraping masivo y no autorizado que devalúa el contenido original.
La puerta de entrada oficial: acceso estructurado vía llms.txt y API
La pieza central de la propuesta es la creación de un sistema de acceso controlado. De forma similar al robots.txt, los editores podrían utilizar un archivo llms.txt para especificar las reglas de uso de su contenido para los modelos de IA. Este archivo podría detallar qué contenido se puede usar, para qué fines y bajo qué condiciones.
Complementariamente, una API (Interfaz de Programación de Aplicaciones) de ingesta de contenido actuaría como el canal técnico a través del cual las empresas de IA podrían acceder a la información de manera legítima y estructurada, respetando las condiciones establecidas por el editor.
Del acceso a la monetización: el «coste por rastreo» y las licencias dinámicas
Quizás el aspecto más innovador de la iniciativa es que va más allá de la simple protección. Al crear un canal de acceso controlado, también se abre la puerta a nuevos modelos de monetización. Según detalla IAB Spain, el marco explora conceptos como:
- Coste por crawl (rastreo): Los editores podrían cobrar a las empresas de IA una tarifa por el derecho a rastrear y utilizar su contenido para el entrenamiento de modelos.
- Licencias dinámicas vía API: Se podrían establecer diferentes niveles de licencias. Por ejemplo, un uso para investigación académica podría ser gratuito, mientras que un uso comercial para un modelo de IA de suscripción tendría un coste asociado.
Este enfoque transformaría el contenido de ser un recurso gratuito y explotable a ser un activo valioso con un mercado definido.
Un esfuerzo global con la vista puesta en España
Esta iniciativa no es un mero ejercicio teórico. IAB Tech Lab ya está trabajando activamente en su desarrollo en colaboración con importantes medios de comunicación de Reino Unido y Alemania. Esta fase inicial es crucial para asegurar que los estándares sean prácticos y respondan a las necesidades reales del mercado.
En este contexto, IAB Spain ha lanzado una llamada a la acción para que los medios y editores españoles se involucren en el proceso. La organización subraya la importancia de «incorporar medios españoles a esta conversación para asegurar la representatividad del mercado español en la configuración de estos nuevos estándares globales».
Para los editores españoles, esta es una oportunidad única de tener voz y voto en la definición de las reglas que gobernarán el futuro de la web. IAB Spain ha facilitado un correo electrónico, comunicacion@iabspain.es, para que los asociados interesados puedan solicitar más información o unirse al grupo de trabajo.
El impacto en la sostenibilidad de la web abierta
La necesidad de una solución como esta es urgente. En una sesión informativa, Shailley Singh, EVP de Producto y COO de IAB Tech Lab, explicó con detalle el impacto que la IA está teniendo y tendrá en el tráfico web, la monetización publicitaria y, en última instancia, la sostenibilidad de la web abierta. Sin un mecanismo que garantice que los creadores de valor (los editores) sean compensados, se corre el riesgo de desincentivar la creación de contenido de calidad, erosionando el propio ecosistema del que se nutre la IA.
La iniciativa de IAB Tech Lab se presenta, por tanto, como un paso fundamental y proactivo. No busca frenar la innovación, sino asegurar que esta se produzca de una manera más justa y sostenible para todas las partes. Los interesados en profundizar en los detalles técnicos pueden consultar el documento completo del marco de trabajo en la página de IAB Tech Lab. El futuro de la creación de contenido en la era de la inteligencia artificial podría estar, en gran medida, definido por el éxito de este tipo de estándares colaborativos.






