Cloudflare, una de las empresas de infraestructura y seguridad web más importantes del mundo, ha anunciado un cambio de política trascendental que podría redefinir la relación entre los creadores de contenido y las empresas de inteligencia artificial. A partir de ahora, la compañía bloqueará por defecto todos los rastreadores de IA conocidos para los nuevos dominios que se unan a su red. La medida, anunciada este martes, tiene como objetivo devolver el control a los propietarios de los sitios web y asegurar que el contenido original no sea utilizado «sin permiso ni compensación».
Junto con este bloqueo predeterminado, Cloudflare ha presentado un innovador programa piloto llamado «Pay Per Crawl» (Paga por Rastrear). Este sistema permitirá a determinados editores y creadores de contenido establecer una tarifa para que las compañías de IA puedan acceder y utilizar sus datos para entrenar sus modelos. Se trata de un paso significativo en un debate cada vez más intenso sobre el valor de los datos que alimentan la revolución de la IA generativa.
¿Qué son los rastreadores de IA y por qué son un problema?
Para entender la magnitud de este anuncio, es fundamental saber qué es un rastreador web, también conocido como crawler o scraper. Se trata de un programa automatizado (un bot) que navega por internet de forma sistemática para recopilar información de las páginas web. Tradicionalmente, han sido utilizados por motores de búsqueda como Google para indexar la web y ofrecer resultados relevantes.
Sin embargo, con el auge de la inteligencia artificial generativa, ha surgido una nueva generación de rastreadores diseñados específicamente para recopilar ingentes cantidades de texto, imágenes y código con el fin de entrenar grandes modelos de lenguaje (LLM), como los que impulsan a ChatGPT de OpenAI o Gemini de Google.
El problema, para muchos editores y creadores, es que este proceso se ha realizado a menudo sin solicitar permiso y sin ofrecer ninguna compensación económica. En la práctica, las empresas de IA se han beneficiado de décadas de contenido creado por humanos para construir productos multimillonarios, mientras que las fuentes originales no solo no reciben nada a cambio, sino que además ven cómo estas nuevas herramientas empiezan a competir directamente con ellas por la atención del público.
La nueva política de Cloudflare: bloqueo por defecto y «Pay Per Crawl»
La decisión de Cloudflare de activar el bloqueo por defecto para los nuevos clientes es un cambio de paradigma. Hasta ahora, los propietarios de sitios web debían tomar la iniciativa y configurar manualmente las reglas para impedir el acceso a estos bots. Con esta nueva política, la protección se convierte en la norma, y permitir el rastreo en la excepción.
El programa «Pay Per Crawl» es, quizás, la parte más novedosa de la estrategia. Aunque por ahora solo está disponible para «un grupo de algunos de los principales editores y creadores de contenido», el mecanismo es claro:
- Los editores establecen un precio que consideran justo para que su contenido sea rastreado.
- Las empresas de IA pueden ver estas tarifas y decidir si pagan para acceder legalmente a los datos o si, por el contrario, desisten de rastrear ese sitio.
Cloudflare afirma que su objetivo es garantizar que «las empresas de IA puedan utilizar contenido de calidad de la manera correcta: con permiso y compensación». Varios gigantes de los medios y plataformas online ya han mostrado su apoyo a estas medidas, entre ellos The Associated Press, The Atlantic, Fortune, Stack Overflow y Quora.
Una estrategia en evolución para controlar el scraping
Este anuncio no es un hecho aislado, sino la culminación de una serie de herramientas que Cloudflare ha ido implementando durante los últimos años. La compañía ha estado en la vanguardia de la lucha por dar a los propietarios de sitios web más control sobre sus datos.
La cronología de sus acciones muestra una escalada progresiva:
- Primer paso (2023): Cloudflare comenzó permitiendo a los sitios web bloquear los rastreadores de IA que cumplían con las directrices del archivo
robots.txt. Este archivo es un estándar web que funciona como una especie de código de conducta, donde un sitio web indica a los bots qué partes de su contenido no deben ser rastreadas. Sin embargo, su cumplimiento es voluntario, por lo que muchos rastreadores agresivos simplemente lo ignoran. Como lo describe la fuente, es un «acuerdo no vinculante». - Segundo paso (2024): Ante la ineficacia del
robots.txtcontra los bots menos éticos, Cloudflare permitió a los sitios web bloquear «todos» los bots de IA, independientemente de si respetaban o no las reglas. La compañía mantiene una lista actualizada de bots de IA conocidos para hacer efectivo este bloqueo. - Herramientas disuasorias: Además, en marzo, la empresa lanzó una ingeniosa función llamada «AI Labyrinth» (Laberinto de IA), diseñada para enviar a los bots de rastreo a un bucle de páginas sin valor, haciéndoles perder tiempo y recursos para disuadirlos de su actividad.
El paso actual de activar el bloqueo por defecto consolida todas estas herramientas en una postura proactiva de protección al creador.
El trasfondo: una batalla por el futuro de internet
La iniciativa de Cloudflare llega en un momento crítico. Los editores y medios de comunicación de todo el mundo están lidiando con un futuro incierto en el que cada vez más personas obtienen información directamente de chatbots de IA en lugar de visitar las fuentes originales a través de motores de búsqueda.
Esta tendencia representa una amenaza existencial para el modelo de negocio de muchos medios, que dependen del tráfico a sus sitios web para generar ingresos por publicidad o suscripciones. Matthew Prince, CEO de Cloudflare, resumió esta preocupación durante un evento de Axios la semana pasada: «La gente confía más en la IA en los últimos seis meses, lo que significa que no están leyendo el contenido original».
En el comunicado de prensa del anuncio, Prince reforzó esta idea, subrayando la necesidad de una acción colectiva. «El contenido original es lo que hace de Internet uno de los mayores inventos del último siglo, y tenemos que unirnos para protegerlo», afirmó. «Los rastreadores de IA han estado extrayendo contenido sin límites. Nuestro objetivo es devolver el poder a los creadores, sin dejar de ayudar a las empresas de IA a innovar».
Hacia un ecosistema de IA más transparente
Más allá del bloqueo y la monetización, Cloudflare también está trabajando en un frente de transparencia. La compañía ha informado de que está colaborando con las propias empresas de IA para que verifiquen sus rastreadores y «declaren claramente su propósito». Esto significa que un bot podría identificarse y especificar si está recopilando datos para entrenamiento de modelos, para inferencia (generar respuestas en tiempo real) o para indexación de búsqueda.
Con esta información, los propietarios de los sitios web podrían tomar decisiones mucho más detalladas, permitiendo, por ejemplo, el paso de un bot de búsqueda pero bloqueando a uno destinado al entrenamiento de modelos. Este enfoque granular podría ser la clave para encontrar un equilibrio sostenible donde la innovación en inteligencia artificial pueda coexistir con un ecosistema de creación de contenido saludable y viable económicamente.






