Los crawlers de IA provocan un aumento del 50% en la demanda de ancho de banda de Wikimedia Commons

Droids

Updated on:

Los crawlers de IA provocan un aumento del 50% en la demanda de ancho de banda de Wikimedia Commons

La Fundación Wikimedia, la organización paraguas de Wikipedia y una docena de otros proyectos de conocimiento colaborativo, anunció este miércoles que el consumo de ancho de banda para descargas multimedia desde Wikimedia Commons ha aumentado un 50% desde enero de 2024. Sorprendentemente, este incremento no proviene de usuarios humanos ávidos de conocimiento, sino de rastreadores automatizados (crawlers) que buscan datos para entrenar modelos de inteligencia artificial.

«Nuestra infraestructura está construida para soportar picos repentinos de tráfico de humanos durante eventos de gran interés, pero la cantidad de tráfico generado por bots rastreadores es sin precedentes y presenta riesgos y costos crecientes», señaló la Fundación en una entrada de blog publicada el martes.

El problema de los bots rastreadores

Wikimedia Commons es un repositorio de libre acceso que alberga imágenes, videos y archivos de audio disponibles bajo licencias abiertas o que se encuentran en el dominio público. Este recurso, fundamental para muchos proyectos educativos y culturales, está siendo sometido a una presión sin precedentes por robots de IA que extraen datos masivamente.

Según detalla la Fundación Wikimedia, casi dos tercios (65%) del tráfico más «costoso» —es decir, el más intensivo en recursos en términos del tipo de contenido consumido— proviene de estos bots. Sin embargo, los bots representan solo el 35% del total de visitas a la página.

Esta disparidad se explica porque el contenido al que se accede con frecuencia permanece más cerca del usuario en la memoria caché, mientras que el contenido menos frecuente se almacena más lejos, en el «centro de datos principal», que resulta más costoso para servir. Y es precisamente este tipo de contenido menos popular el que los bots suelen buscar.

«Mientras los lectores humanos tienden a centrarse en temas específicos —a menudo similares—, los bots rastreadores tienden a ‘leer en masa’ grandes cantidades de páginas y visitar también las páginas menos populares», explica Wikimedia en su comunicado. «Esto significa que este tipo de solicitudes tienen más probabilidades de ser remitidas al centro de datos principal, lo que las hace mucho más costosas en términos de consumo de nuestros recursos».

Impacto en la infraestructura

El resultado de esta situación es que el equipo de fiabilidad del sitio de la Fundación Wikimedia está teniendo que dedicar una gran cantidad de tiempo y recursos a bloquear rastreadores para evitar interrupciones a los usuarios regulares. Todo esto sin contar los costos de la nube a los que se enfrenta la Fundación.

Los rastreadores de IA no solo consumen más recursos, sino que lo hacen de manera menos predecible que los usuarios humanos, lo que complica la gestión de la infraestructura. Además, muchos de estos bots ignoran los archivos «robots.txt», que están diseñados precisamente para evitar el tráfico automatizado indeseado.

Una amenaza para internet abierto

Este fenómeno representa parte de una tendencia de rápido crecimiento que está amenazando la existencia misma de la internet abierta. El mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó el hecho de que los rastreadores de IA ignoren los archivos «robots.txt».

Por su parte, el «ingeniero pragmático» Gergely Orosz también se quejó la semana pasada de que los rastreadores de IA de empresas como Meta han aumentado las demandas de ancho de banda para sus propios proyectos.

«Mientras que la infraestructura de código abierto, en particular, está en la línea de fuego, los desarrolladores están contraatacando con ‘ingenio y venganza'», como escribió TechCrunch la semana pasada.

Soluciones y respuestas emergentes

Algunas empresas tecnológicas están haciendo su parte para abordar el problema. Cloudflare, por ejemplo, recientemente lanzó AI Labyrinth, que utiliza contenido generado por IA para ralentizar a los rastreadores.

Sin embargo, se trata en gran medida de un juego del gato y el ratón que podría obligar a muchos editores a protegerse detrás de inicios de sesión y paywalls, lo que iría en detrimento de todos los que utilizan la web hoy en día.

Los desarrolladores de proyectos de código abierto están ideando soluciones creativas, desde bloquear direcciones IP hasta crear trampas para bots, pero estas medidas son provisionales y no abordan el problema de fondo: el consumo desmesurado de recursos por parte de empresas que buscan entrenar sus modelos de IA con el mayor volumen de datos posible, sin considerar el impacto en la infraestructura que soporta internet.

El futuro de internet abierto en juego

Esta situación plantea serias preguntas sobre el futuro de internet como un espacio abierto y accesible. Si la tendencia continúa, podríamos ver un internet cada vez más fragmentado, con más contenido detrás de paywalls o sistemas de autenticación, lo que limitaría el acceso al conocimiento y la información.

La Fundación Wikimedia, que ha sido un baluarte del conocimiento libre y accesible, se encuentra ahora en la primera línea de esta batalla por mantener internet abierto frente a las demandas cada vez mayores de la industria de la IA.

El caso de Wikimedia Commons es solo un ejemplo de un problema más amplio que afecta a toda la web, desde blogs personales hasta grandes repositorios de conocimiento. La forma en que se resuelva este conflicto entre el acceso abierto y las necesidades de datos de la IA podría definir el futuro de internet tal como lo conocemos.

La comunidad tecnológica se encuentra en una encrucijada: encontrar un equilibrio que permita el desarrollo de la IA sin comprometer los principios de apertura y accesibilidad que han definido internet desde sus inicios. El tiempo dirá si es posible lograr este equilibrio o si estamos presenciando el fin de la era del internet abierto.

Deja un comentario