La startup de IA Perplexity, acusada de ignorar las normas de internet para rastrear contenido web

Perplexity AI, el motor de búsqueda basado en inteligencia artificial que se postula como el futuro competidor de Google, se encuentra en el centro de una creciente polémica. La compañía ha sido acusada de ignorar sistemáticamente las directivas de sitios web que prohíben el rastreo de su contenido por parte de bots, una práctica que, si bien se mueve en una zona legal gris, rompe con una de las normas de etiqueta más antiguas y respetadas de internet. Las acusaciones provienen de una investigación periodística de la revista Wired y de un análisis técnico realizado por el desarrollador Robb Knight.

La controversia ha obligado al CEO de Perplexity, Aravind Srinivas, a dar explicaciones públicas que, lejos de calmar las aguas, han generado aún más escepticismo. El caso destapa una vez más el debate sobre el «apetito» insaciable de las empresas de IA por los datos y los métodos que emplean para obtenerlos, a menudo sin permiso ni compensación para los creadores de contenido.

`robots.txt`: la «norma de etiqueta» que Perplexity habría ignorado

En el corazón de la polémica se encuentra un simple archivo de texto llamado robots.txt. Este fichero es un estándar web que los administradores de páginas utilizan desde hace décadas para comunicarse con los rastreadores automáticos o «bots». En él, especifican qué partes de su sitio web no desean que sean accedidas o indexadas. Aunque su cumplimiento no es legalmente obligatorio, respetar las directivas de robots.txt se considera una norma fundamental de buen comportamiento en la red.

Según una investigación publicada por Wired, realizada en colaboración con la firma de ciberseguridad I/O Active, Perplexity ha estado ignorando estas directivas. El informe detalla cómo el rastreador oficial de la compañía, identificado con el agente de usuario (una especie de DNI digital) PerplexityBot, fue detectado accediendo a secciones de sitios web que estaban explícitamente bloqueadas a través de robots.txt.

Esta práctica permite a Perplexity nutrir su «motor de respuestas» con información que los propietarios de los sitios web, a menudo medios de comunicación y creadores de contenido, no desean que sea utilizada por sistemas de IA. La investigación de Wired fue una de las primeras en aportar pruebas concretas sobre un comportamiento que muchos sospechaban.

El descubrimiento de un desarrollador: un rastreador «fantasma» al descubierto

Casi en paralelo a la investigación de Wired, el desarrollador Robb Knight arrojó más luz sobre las tácticas de la compañía. En una publicación en su blog personal, Knight documentó cómo descubrió que Perplexity estaba creando resúmenes de sus artículos y mostrándolos en su propia plataforma, bajo URLs del tipo perplexity.ai/page/....

Lo sorprendente es que Knight había bloqueado explícitamente a PerplexityBot en su archivo robots.txt. Intrigado, revisó los registros de su servidor y descubrió que las visitas no provenían del bot conocido, sino de un agente de usuario no identificado y genérico, operando desde direcciones IP pertenecientes a Amazon Web Services (AWS). Según Knight, esto demuestra que «Perplexity está mintiendo sobre su agente de usuario» para eludir las restricciones. Sus hallazgos sugerían que la compañía utilizaba un rastreador «fantasma» para acceder a contenido que se le había denegado expresamente.

La justificación del CEO: entre «malentendidos» y rastreadores de terceros

La presión mediática llevó a Aravind Srinivas, CEO de Perplexity, a publicar una respuesta. En un hilo en la red social X, Srinivas intentó matizar las acusaciones. Argumentó que la compañía utiliza dos tipos de rastreadores: por un lado, recurre a proveedores externos para el rastreo web a gran escala, asegurando que estos sí respetan el protocolo robots.txt. Por otro lado, admitió la existencia de un rastreador interno y «enfocado», diseñado para responder a preguntas específicas de los usuarios.

Fue este rastreador interno, según el CEO, el que pudo haber ignorado las directivas. Srinivas llegó a reconocer el uso de un agente de usuario no documentado públicamente, coincidiendo con lo descubierto por Robb Knight. Sin embargo, calificó la situación como un «malentendido» y un «descuido», afirmando que el comportamiento no era intencionado y que su equipo estaba trabajando para alinear sus prácticas con las normas de la industria. Su defensa, sin embargo, ha sido recibida con escepticismo, ya que muchos expertos consideran difícil que una empresa tecnológica de esta envergadura ignore por accidente un estándar tan fundamental como robots.txt.

Un «unicornio» de la IA con inversores de alto perfil

La controversia pone bajo los focos a una de las startups más prometedoras del sector de la inteligencia artificial. Perplexity ha alcanzado una valoración de más de 1.000 millones de dólares (aproximadamente 930 millones de euros), lo que la convierte en un «unicornio» tecnológico. Su propuesta de ser un «motor de respuestas» en lugar de un simple buscador de enlaces ha atraído a inversores de primer nivel, como Jeff Bezos, fundador de Amazon, y el gigante de los semiconductores Nvidia.

La compañía ha recaudado un total de 165 millones de dólares (unos 153,5 millones de euros), incluyendo una reciente ronda de financiación de 62,7 millones de dólares (unos 58,3 millones de euros). Con este respaldo financiero y tecnológico, Perplexity se ha posicionado como una amenaza directa al dominio de Google, prometiendo una experiencia de búsqueda más directa y conversacional. Sin embargo, estas acusaciones ponen en duda la ética sobre la que está construyendo su innovador producto.

El telón de fondo: la controvertida ‘sed’ de datos de la inteligencia artificial

El caso de Perplexity no es un hecho aislado, sino un síntoma de un problema mucho mayor que afecta a toda la industria de la IA. El desarrollo de modelos de lenguaje avanzados, como los que impulsan a ChatGPT o al propio Perplexity, requiere cantidades ingentes de datos para su entrenamiento. La fuente principal de estos datos ha sido, durante años, la web abierta.

Empresas como OpenAI, Google y Microsoft ya enfrentan demandas multimillonarias por presunta infracción de derechos de autor. El caso más sonado es la demanda del New York Times contra OpenAI y Microsoft, que las acusa de utilizar millones de sus artículos sin permiso para crear sus productos.

Ignorar el protocolo robots.txt se suma a esta lista de prácticas controvertidas. Aunque violarlo no sea, en la mayoría de jurisdicciones, una acción ilegal, sí supone una ruptura de la confianza y de las normas no escritas que han permitido el funcionamiento de internet durante décadas. La polémica sitúa a Perplexity en una posición incómoda, obligada a demostrar si su visión del futuro de las búsquedas se construirá respetando a los creadores que, en última instancia, generan el conocimiento del que se alimenta.

`robots.txt`: la «norma de etiqueta» que Perplexity habría ignorado

El descubrimiento de un desarrollador: un rastreador «fantasma» al descubierto

La justificación del CEO: entre «malentendidos» y rastreadores de terceros

Un «unicornio» de la IA con inversores de alto perfil

El telón de fondo: la controvertida ‘sed’ de datos de la inteligencia artificial

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

La startup de IA Perplexity, acusada de ignorar las normas de internet para rastrear contenido web

robots.txt: la «norma de etiqueta» que Perplexity habría ignorado

El descubrimiento de un desarrollador: un rastreador «fantasma» al descubierto

La justificación del CEO: entre «malentendidos» y rastreadores de terceros

Un «unicornio» de la IA con inversores de alto perfil

El telón de fondo: la controvertida ‘sed’ de datos de la inteligencia artificial

Relacionado con este artículo:

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

`robots.txt`: la «norma de etiqueta» que Perplexity habría ignorado