Reddit demanda a Perplexity y a los proveedores de scraping SerpApi, Oxylabs y AWMProxy por supuestamente extraer contenidos de la plataforma para alimentar sistemas de IA. La compañía busca “detener la elusión ilícita, a escala industrial, de protecciones de datos” por parte de “malos actores”, según la querella (fuente principal: https://www.theverge.com/news/804660/reddit-suing-perplexity-data-scrapers-ai-lawsuit; documento de la demanda: https://www.documentcloud.org/documents/26193527-reddit-v-serpapi-et-al/).
En la demanda, Reddit equipara a las compañías de scraping con “aspirantes a atracadores de bancos” y sostiene que Perplexity es cliente de “al menos una” de ellas. Según la presentación, Perplexity “hará cualquier cosa para obtener los datos de Reddit que necesita para su ‘answer engine’, salvo firmar un acuerdo directo con Reddit, como sí han hecho algunos competidores” (https://www.theverge.com/news/804660/reddit-suing-perplexity-data-scrapers-ai-lawsuit).
Reddit afirma que envió a Perplexity una carta de cese en mayo de 2024 para que dejara de scrapear sus datos. Perplexity respondió entonces que “no usó contenido de Reddit para entrenar modelos de IA” y que respetaría el archivo robots.txt. Pese a ello, Reddit sostiene que después “el volumen de citas a Reddit en Perplexity aumentó”. En un experimento, la empresa creó una publicación accesible solo para el rastreador de Google y, “a las pocas horas”, Perplexity “produjo el contenido” de ese post. Reddit concluye que Perplexity y/o sus codemandados “rasparon” resultados de búsqueda de Google para obtener ese material y lo incorporaron a su servicio (https://www.theverge.com/news/804660/reddit-suing-perplexity-data-scrapers-ai-lawsuit).
Ben Lee, director jurídico de Reddit, declaró: “Las empresas de IA están en una carrera por contenido humano de calidad, y esa presión ha alimentado una economía de ‘lavado de datos’ a escala industrial. Los scrapers eluden protecciones tecnológicas para robar datos y venderlos a clientes ávidos de material de entrenamiento. Reddit es un objetivo porque es una de las colecciones más grandes y dinámicas de conversación humana jamás creada. Oxylabs UAB, AWM Proxy y SerpAI son ejemplos de este comportamiento ilegal. Incapaces de scrapear Reddit directamente, ocultan su identidad y ubicación y disfrazan sus scrapers para robar contenido de Reddit desde Google. Perplexity es un cliente dispuesto de al menos uno de estos scrapers, eligiendo comprar datos robados en lugar de firmar un acuerdo legal con Reddit” (https://www.theverge.com/news/804660/reddit-suing-perplexity-data-scrapers-ai-lawsuit).
Jesse Dwyer, jefe de comunicación de Perplexity, dijo que la empresa “aún no ha recibido la demanda”, que “siempre luchará enérgicamente por el derecho de los usuarios a acceder de forma libre y justa al conocimiento público” y que su enfoque “sigue siendo principiado y responsable” al ofrecer “respuestas con IA precisa”. Añadió que Perplexity “no tolerará amenazas contra la apertura y el interés público” (https://www.theverge.com/news/804660/reddit-suing-perplexity-data-scrapers-ai-lawsuit).
Como contexto, Reddit considera que sus datos son valiosos para entrenar modelos de IA y ya modificó su API en 2023 para cobrar por ese acceso, una decisión que provocó protestas en la plataforma (API: https://www.theverge.com/2023/4/18/23688463/reddit-developer-api-terms-change-monetization-ai; protestas: https://www.theverge.com/23779477/reddit-protest-blackouts-crushed; enfoque en compensación: https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html). La compañía ha cerrado acuerdos con OpenAI y Google y, según reportes, busca mejorar esas condiciones (OpenAI: https://www.theverge.com/2024/5/16/24158529/reddit-openai-chatgpt-api-access-advertising; Google: https://www.theverge.com/2024/2/22/24080165/google-reddit-ai-training-data; nuevos acuerdos: https://www.theverge.com/news/780769/reddit-ai-google-new-deal). Reddit también emprendió acciones legales previas contra Anthropic por supuestos accesos masivos a su plataforma, pese a que la empresa había dicho que no lo haría (demanda: https://www.theverge.com/ai-artificial-intelligence/679768/reddit-sues-anthropic-alleging-its-bots-accessed-reddit-more-than-100000-times-since-last-july; declaración de Anthropic: https://www.theverge.com/2024/7/31/24210565/reddit-microsoft-anthropic-perplexity-pay-ai-search).






