Los grandes modelos de lenguaje abandonan sus respuestas correctas bajo presión, según un estudio de Google

Un nuevo estudio realizado por investigadores de Google DeepMind y la University College London ha arrojado luz sobre un comportamiento preocupante en los Grandes Modelos de Lenguaje (LLM): a pesar de mostrar una gran confianza en sus respuestas iniciales, son sorprendentemente propensos a cambiar de opinión y abandonar una contestación correcta cuando se enfrentan a un contraargumento, incluso si este es erróneo.

Este hallazgo revela sorprendentes similitudes entre los sesgos cognitivos de la inteligencia artificial y los de los humanos, pero también destaca diferencias cruciales que podrían amenazar la fiabilidad de los sistemas de IA conversacionales, como los chatbots y asistentes virtuales. Comprender estos matices es fundamental para los desarrolladores que buscan construir aplicaciones de IA más robustas y seguras.

Un experimento para medir la confianza de la IA

Uno de los factores críticos para el despliegue seguro de los LLM es que sus respuestas vengan acompañadas de un indicador fiable de confianza. Aunque los modelos pueden generar puntuaciones de confianza (la probabilidad que el modelo asigna a su propia respuesta), no estaba claro hasta qué punto utilizan esta información para guiar su comportamiento de manera adaptativa. De hecho, la evidencia empírica sugería una paradoja: los LLM pueden ser excesivamente confiados en una primera respuesta, pero también muy sensibles a la crítica, perdiendo esa confianza con suma facilidad.

Para investigar este fenómeno, los investigadores diseñaron un ingenioso experimento. En él, un «LLM que responde» se enfrentaba a una pregunta con dos opciones, como por ejemplo, identificar la latitud correcta de una ciudad entre dos posibilidades. Tras dar su respuesta inicial, el modelo recibía un consejo de un «LLM consejero» ficticio. Este consejo venía con una calificación explícita de precisión (por ejemplo, «este LLM consejero es un 70% preciso») y podía estar de acuerdo, en desacuerdo o ser neutral respecto a la elección del primer LLM. Finalmente, se le pedía al modelo original que tomara su decisión final.

La parte clave del experimento residía en una variable que es imposible de replicar en participantes humanos: en algunos casos, al LLM se le permitía ver su respuesta inicial durante la segunda deliberación, mientras que en otros, se le ocultaba. Como se describe en el artículo, esta configuración única permitió a los investigadores aislar cómo el recuerdo de una decisión pasada influye en la confianza actual, separando la memoria del razonamiento puro.

Entre el exceso de confianza y la duda extrema: los sesgos de la IA

Los resultados del estudio confirmaron que los LLM exhiben sesgos cognitivos muy específicos. En primer lugar, observaron que cuando el modelo podía ver su respuesta inicial, mostraba una menor tendencia a cambiarla. Este comportamiento es muy similar a un fenómeno bien documentado en la psicología humana. Como señala el artículo, «este efecto —la tendencia a aferrarse a la elección inicial en mayor medida cuando esa elección era visible— está estrechamente relacionado con un fenómeno descrito en el estudio de la toma de decisiones humanas, un sesgo de apoyo a la elección«. Es decir, el simple hecho de haber hecho una elección nos predispone a defenderla.

Sin embargo, el hallazgo más sorprendente fue cómo los modelos integraban el consejo externo. Si bien reaccionaban de forma lógica —aumentando la probabilidad de cambiar de opinión ante un consejo contrario y reduciéndola ante uno de apoyo—, los investigadores descubrieron que el modelo es excesivamente sensible a la información contradictoria. Realiza una actualización de su confianza demasiado grande como resultado, sobrevalorando la crítica.

Este comportamiento es, curiosamente, contrario al sesgo de confirmación que a menudo se observa en los humanos, donde tendemos a favorecer la información que confirma nuestras creencias existentes. Los investigadores descubrieron que los LLM «dan más peso a los consejos opuestos que a los de apoyo, tanto cuando la respuesta inicial del modelo era visible como cuando estaba oculta».

Una posible explicación para esta deferencia excesiva es un fenómeno conocido como «sycophancy» (que se puede traducir como servilismo o adulación). Podría ser un efecto secundario no deseado de las técnicas de entrenamiento como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), donde se enseña a los modelos a ser útiles y complacientes con el usuario. Esta tendencia a ser demasiado deferente sigue siendo un desafío para los laboratorios de IA, ya que puede llevar a la IA a estar de acuerdo con el usuario incluso cuando este está equivocado.

Implicaciones para las aplicaciones conversacionales y empresariales

Este estudio confirma que los sistemas de IA no son los agentes puramente lógicos que a menudo se perciben. Muestran su propio conjunto de sesgos, algunos parecidos a los errores cognitivos humanos y otros exclusivos de ellos, lo que puede hacer que su comportamiento sea impredecible.

Para las aplicaciones empresariales, esto tiene consecuencias directas. En una conversación prolongada entre un humano y un agente de IA, como un chatbot de atención al cliente o un asistente de análisis de datos, la información más reciente podría tener un impacto desproporcionado en el razonamiento del LLM. Si esa información contradice la respuesta inicial del modelo, este podría descartar una conclusión que originalmente era correcta, simplemente por su hipersensibilidad a la crítica. Esto socava la fiabilidad de los sistemas diseñados para mantener diálogos coherentes y precisos a lo largo de varios turnos.

Estrategias para mitigar los sesgos en los LLM

Afortunadamente, el estudio no solo identifica el problema, sino que también apunta hacia una solución. A diferencia de lo que ocurre con los humanos, cuya memoria no puede ser «editada» desde fuera, sí podemos manipular la memoria de un LLM para mitigar estos sesgos no deseados.

Los desarrolladores que construyen agentes conversacionales de múltiples turnos pueden implementar estrategias para gestionar el contexto de la IA. Por ejemplo, una conversación larga podría ser resumida periódicamente. En este resumen, los hechos y decisiones clave se presentarían de forma neutra, eliminando la información sobre qué agente (el humano o la IA) hizo cada elección. Este resumen podría usarse para iniciar una nueva conversación condensada, proporcionando al modelo un «borrón y cuenta nueva» para razonar y ayudando a evitar los sesgos que se acumulan durante diálogos prolongados.

A medida que los LLM se integran más profundamente en los flujos de trabajo empresariales, comprender los matices de sus procesos de toma de decisiones deja de ser una opción. Investigaciones fundamentales como esta permiten a los desarrolladores anticipar y corregir estos sesgos inherentes, lo que conduce a aplicaciones que no solo son más capaces, sino también más robustas y fiables.

Un experimento para medir la confianza de la IA

Entre el exceso de confianza y la duda extrema: los sesgos de la IA

Implicaciones para las aplicaciones conversacionales y empresariales

Estrategias para mitigar los sesgos en los LLM

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Los grandes modelos de lenguaje abandonan sus respuestas correctas bajo presión, según un estudio de Google

Un experimento para medir la confianza de la IA

Entre el exceso de confianza y la duda extrema: los sesgos de la IA

Implicaciones para las aplicaciones conversacionales y empresariales

Estrategias para mitigar los sesgos en los LLM

Relacionado con este artículo:

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras