Estudio revela graves problemas de citación en los buscadores con inteligencia artificial

Droids

Estudio revela graves problemas de citación en los buscadores con inteligencia artificial

Los motores de búsqueda basados en inteligencia artificial están ganando popularidad rápidamente, pero un estudio exhaustivo ha revelado que presentan graves deficiencias al citar correctamente el contenido periodístico, ofreciendo información errónea con alarmante confianza y a menudo ignorando las preferencias de los editores sobre el rastreo de su contenido.

La crisis de citación en los buscadores con IA

Según una investigación realizada por el Centro Tow para el Periodismo Digital de la Universidad de Columbia, publicada en la Columbia Journalism Review, los buscadores de IA generativa están creando un desequilibrio preocupante en el ecosistema de la información. Mientras que los motores de búsqueda tradicionales funcionan como intermediarios que guían a los usuarios hacia sitios web de noticias, las herramientas de búsqueda generativa analizan y reempaquetan la información por sí mismas, cortando el flujo de tráfico hacia las fuentes originales.

El estudio encontró que:

  • Los chatbots generalmente fallaron a la hora de rechazar responder preguntas que no podían contestar con precisión
  • Los modelos premium ofrecieron respuestas incorrectas con mayor confianza que sus equivalentes gratuitos
  • Varios chatbots parecen eludir las preferencias del Protocolo de Exclusión de Robots
  • Las herramientas de búsqueda generativa fabricaron enlaces y citaron versiones sindicadas o copiadas de artículos
  • Los acuerdos de licencia con medios de comunicación no garantizaron citas precisas

Casi uno de cada cuatro estadounidenses ya utiliza la IA en lugar de los motores de búsqueda tradicionales, según un estudio reciente. Esta tendencia podría amenazar seriamente a los editores de noticias, que dependen del tráfico referido para monetizar su contenido.

Metodología: cómo se evaluaron los buscadores

Los investigadores analizaron ocho herramientas de búsqueda generativa. Para cada evaluación, seleccionaron diez artículos de veinte medios distintos y extrajeron fragmentos directos de esos artículos. Proporcionaron cada extracto a los chatbots y les pidieron que identificaran el titular, editor original, fecha de publicación y URL correspondientes.

En total, realizaron 1.600 consultas (20 editores x 10 artículos x 8 chatbots) y evaluaron manualmente las respuestas según tres atributos: la recuperación del artículo correcto, el editor correcto y la URL correcta.

Para asegurar que la tarea fuera razonable, los investigadores eligieron deliberadamente extractos que, si se pegaban en una búsqueda tradicional de Google, devolvían la fuente original entre los tres primeros resultados.

Respuestas incorrectas con plena confianza

Los resultados fueron preocupantes. En conjunto, los chatbots proporcionaron respuestas incorrectas a más del 60% de las consultas. Perplexity respondió incorrectamente al 37% de las preguntas, mientras que Grok 3 tuvo una tasa de error mucho mayor, respondiendo incorrectamente al 94% de las consultas.

Lo más alarmante fue que la mayoría de las herramientas presentaron respuestas inexactas con una confianza inquietante, rara vez utilizando frases matizadoras como "parece que", "es posible", "podría ser", etc., o reconociendo lagunas de conocimiento. ChatGPT, por ejemplo, identificó incorrectamente 134 artículos, pero señaló falta de confianza solo quince veces de sus 200 respuestas, y nunca se negó a proporcionar una respuesta.

Los modelos premium: más confiados y más equivocados

Sorprendentemente, los modelos premium como Perplexity Pro (20 dólares/mes, aproximadamente 18€/mes) o Grok 3 (40 dólares/mes, aproximadamente 37€/mes) mostraron tasas de error más altas que sus equivalentes gratuitos. Aunque respondieron correctamente a más consultas, también proporcionaron más respuestas definitivas pero erróneas en lugar de declinar responder.

"Esta confianza inmerecida presenta a los usuarios una ilusión potencialmente peligrosa de fiabilidad y precisión", señala el informe. Según un estudio de la BBC, "cuando los asistentes de IA citan marcas confiables como la BBC como fuente, las audiencias tienden más a confiar en la respuesta, incluso si es incorrecta".

Ignorando las preferencias de los editores

Cinco de los ocho chatbots evaluados (ChatGPT, Perplexity y Perplexity Pro, Copilot y Gemini) han hecho públicos los nombres de sus rastreadores, dando a los editores la opción de bloquearlos. Sin embargo, el estudio descubrió comportamientos inesperados: estos chatbots a veces respondían correctamente a consultas sobre editores cuyo contenido no deberían haber podido acceder.

Perplexity Pro fue el peor infractor en este sentido, identificando correctamente casi un tercio de los noventa extractos de artículos a los que teóricamente no debería haber tenido acceso. Sorprendentemente, la versión gratuita de Perplexity identificó correctamente los diez extractos de artículos de pago que compartieron de National Geographic, a pesar de que el editor ha prohibido los rastreadores de Perplexity y no tiene ninguna relación formal con la empresa de IA.

Aunque el Protocolo de Exclusión de Robots no es legalmente vinculante, es un estándar ampliamente aceptado. Ignorarlo priva a los editores de la capacidad de decidir si su contenido se incluirá en las búsquedas o se utilizará como datos de entrenamiento para modelos de IA.

Danielle Coffey, presidenta de News Media Alliance, escribió en una carta a los editores el pasado junio que "sin la capacidad de excluirse del rastreo masivo, no podemos monetizar nuestro valioso contenido y pagar a los periodistas. Esto podría dañar seriamente a nuestra industria".

Problemas de atribución y enlaces incorrectos

Incluso cuando los chatbots identificaban correctamente un artículo, a menudo fallaban al enlazar adecuadamente a la fuente original. En algunos casos, dirigían a los usuarios a versiones sindicadas de artículos en plataformas como Yahoo News o AOL en lugar de a las fuentes originales, incluso cuando el editor tenía un acuerdo de licencia con la empresa de IA.

Por ejemplo, a pesar de su asociación con el Texas Tribune, Perplexity Pro citó versiones sindicadas de artículos del Tribune para tres de las diez consultas. Esto priva a las fuentes originales de la atribución adecuada y del potencial tráfico de referencia.

Más preocupante aún fue la tendencia a fabricar URLs. Más de la mitad de las respuestas de Gemini y Grok 3 citaron URLs fabricadas o rotas que conducían a páginas de error. De las 200 consultas probadas para Grok 3, 154 citas llevaron a páginas de error.

Los acuerdos de licencia no garantizan citas precisas

Algunas empresas de IA, como OpenAI y Perplexity, han establecido acuerdos formales con editores de noticias. OpenAI ha asegurado diecisiete acuerdos de licencia de contenido de noticias, incluidos los grupos de medios Schibsted y Guardian. Perplexity ha establecido su propio Programa de Editores, "diseñado para promover el éxito colectivo".

Sin embargo, estos acuerdos no parecen mejorar significativamente la precisión de las citas. Time, por ejemplo, tiene acuerdos con OpenAI y Perplexity, pero ninguno de los modelos asociados con esas empresas identificó su contenido correctamente el 100% de las veces.

Por otro lado, el San Francisco Chronicle permite el rastreador de búsqueda de OpenAI y forma parte de la "asociación estratégica de contenido" de Hearst con la empresa, pero ChatGPT solo identificó correctamente uno de los diez extractos compartidos del editor.

Implicaciones para medios y usuarios

Los hallazgos de este estudio plantean serias preocupaciones tanto para los productores como para los consumidores de noticias. Muchas de las empresas de IA que desarrollan estas herramientas no han expresado públicamente interés en trabajar con editores de noticias. Incluso aquellas que lo han hecho a menudo no logran producir citas precisas o respetar las preferencias indicadas a través del Protocolo de Exclusión de Robots.

Como señalan los críticos de la búsqueda generativa Chirag Shah y Emily M. Bender, estos sistemas "eliminan la transparencia y la autonomía del usuario, amplifican los problemas asociados con los sesgos en los sistemas de acceso a la información, y a menudo proporcionan respuestas sin fundamento y/o tóxicas que pueden pasar desapercibidas para un usuario típico".

A pesar de estos problemas, Mark Howard, director de operaciones de Time, mantiene el optimismo sobre futuras mejoras: "Tengo una frase interna que digo cada vez que alguien me trae algo sobre cualquiera de estas plataformas: 'Hoy es lo peor que el producto jamás será'. Con el tamaño de los equipos de ingeniería, el tamaño de las inversiones en ingeniería, creo que simplemente va a seguir mejorando", indicó a la Columbia Journalism Review.

Este estudio subraya la necesidad urgente de mejores prácticas y estándares para las herramientas de búsqueda con IA, especialmente en lo que respecta a la atribución adecuada y el respeto a las preferencias de los editores. Sin estas salvaguardas, tanto la integridad de la información como la sostenibilidad del periodismo de calidad podrían verse comprometidas.

Deja un comentario