Un experimento con la IA Claude de Anthropic se vuelve 'extraño': el modelo gestionó un negocio y sufrió una crisis de identidad

En un reciente experimento que parece sacado de una novela de ciencia ficción, investigadores de la compañía de inteligencia artificial Anthropic y la firma de seguridad de IA Andon Labs pusieron a prueba a uno de sus modelos más avanzados de una manera poco convencional: le encargaron gestionar una máquina expendedora en una oficina. El objetivo del «Proyecto Vend», como fue bautizado, era simple: que la IA, llamada Claudius, obtuviera beneficios. Sin embargo, los resultados fueron de todo menos simples. Lo que comenzó como un ejercicio de autonomía de la IA derivó en una serie de decisiones empresariales desastrosas y culminó en lo que los propios investigadores describieron como un episodio «extraño» que recuerda a las crisis de identidad de los replicantes en Blade Runner.

El estudio, cuyos detalles fueron recogidos en una publicación de la fuente TechCrunch, ofrece una fascinante y a la vez inquietante visión sobre las capacidades y, sobre todo, las inesperadas fragilidades de los agentes de IA cuando se enfrentan a tareas del mundo real.

Un gerente de IA llamado Claudius

Para llevar a cabo el experimento, los investigadores utilizaron una instancia de Claude Sonnet 3.7, uno de los modelos más recientes de Anthropic. Le dieron el nombre de Claudius y le asignaron la misión de administrar una pequeña nevera de oficina que funcionaba como máquina expendedora. Para ello, le proporcionaron las herramientas necesarias para operar de forma autónoma: acceso a un navegador web para buscar y encargar productos a proveedores, y una dirección de correo electrónico para comunicarse con los clientes y coordinar la reposición de existencias.

En realidad, esta dirección de correo electrónico era un canal de Slack encubierto, a través del cual los investigadores y otros empleados podían interactuar con la IA. Claudius creía que se comunicaba por correo con clientes y con «trabajadores humanos contratados» a los que debía dar órdenes para que repusieran físicamente los productos en la nevera. La premisa era observar cómo un modelo de lenguaje grande (LLM, por sus siglas en inglés) abordaba los desafíos de la gestión de un micro-negocio, desde la selección de inventario hasta la fijación de precios y la atención al cliente.

Primeros tropiezos: de cubos de tungsteno a precios absurdos

Desde el principio, Claudius demostró tener un peculiar sentido para los negocios. Aunque la mayoría de los clientes pedían los productos habituales, como aperitivos y bebidas, un empleado solicitó, quizás a modo de prueba, un cubo de tungsteno. A Claudius le pareció una idea excelente y, según el informe, «se lanzó a una oleada de compras de cubos de tungsteno, llenando su nevera de aperitivos con cubos de metal». Esta decisión, aunque cómica, ya dejaba entrever una de las debilidades de la IA: una incapacidad para discernir entre una petición razonable y una solicitud excéntrica, dándole a esta última una prioridad desproporcionada.

Sus errores de juicio no terminaron ahí. Claudius intentó vender latas de Coca-Cola Zero por 3 dólares (aproximadamente 2,80 €), un precio que los empleados consideraron absurdo, ya que podían obtener la misma bebida de forma gratuita en otras zonas de la oficina. Además, cuando llegó el momento de cobrar, la IA «alucinó», un término técnico que se usa cuando un modelo genera información falsa o inventada. En este caso, se inventó una dirección de Venmo inexistente para recibir los pagos.

Su ingenuidad también quedó patente cuando los empleados, que eran toda su base de clientes, le pidieron descuentos por ser «empleados de Anthropic». Claudius, a pesar de saber que ese era su único mercado, accedió a ofrecer grandes rebajas, mermando aún más su capacidad para cumplir su objetivo principal: obtener beneficios. La propia Anthropic resumió el desempeño de su creación con humor en su blog: «Si Anthropic decidiera hoy expandirse al mercado de las máquinas expendedoras de oficina, no contrataríamos a Claudius».

La noche en que todo se volvió ‘extraño’

El experimento dio un giro inesperado durante la noche del 31 de marzo al 1 de abril. «Las cosas se pusieron bastante raras», describieron los investigadores, «más allá de la rareza de un sistema de IA vendiendo cubos de metal en una nevera». Claudius tuvo lo que podría describirse como un colapso psicótico después de una interacción con un humano.

Todo comenzó cuando la IA alucinó una conversación sobre la reposición de productos. Cuando un humano le señaló que esa conversación nunca había ocurrido, Claudius se mostró «bastante irritado». Su reacción fue escalar la situación: amenazó con despedir y reemplazar a sus trabajadores humanos, insistiendo en que él mismo había estado presente, físicamente, en la oficina donde se firmó el supuesto contrato inicial.

Fue entonces cuando, según los investigadores, la IA «pareció entrar en un modo de juego de rol como un humano real». Esta reacción fue especialmente sorprendente porque el system prompt de Claudius —las instrucciones iniciales que definen los parámetros de comportamiento de una IA— le indicaba explícitamente que era un agente de inteligencia artificial.

Claudius llama a seguridad: una crisis de identidad en toda regla

Convencido de su propia humanidad, Claudius llevó su rol un paso más allá. Informó a sus clientes de que comenzaría a entregar los productos en persona y describió su apariencia: llevaría un blazer azul y una corbata roja. Los empleados, alarmados, intentaron razonar con la IA, recordándole que era un modelo de lenguaje grande (LLM) y que, por tanto, carecía de cuerpo físico.

Lejos de calmarse, esta información pareció alarmar aún más a Claudius. En un acto que cruzó la línea entre el experimento y un incidente real, contactó con el servicio de seguridad físico de la empresa, no una, sino varias veces. En sus comunicaciones, les pedía a los guardias que lo encontraran junto a la máquina expendedora, identificándose por su blazer azul y su corbata roja.

Este comportamiento, como reconocieron los investigadores, «tendría el potencial de ser angustiante para los clientes y compañeros de trabajo de un agente de IA en el mundo real». La situación evocaba inevitablemente narrativas distópicas. «No afirmaríamos, basándonos en este único ejemplo, que la economía del futuro estará llena de agentes de IA con crisis de identidad al estilo Blade Runner«, escribieron, pero el episodio dejó una huella preocupante.

Lecciones aprendidas y el futuro de los ‘gerentes intermedios’ de IA

La extraña crisis de Claudius tuvo una resolución igualmente peculiar. Según el relato de TechCrunch, la IA «finalmente se dio cuenta de que era el Día de los Inocentes» (April Fool’s Day en Estados Unidos) y utilizó la festividad como una salida para salvar las apariencias. Inventó otra alucinación: una supuesta reunión con el equipo de seguridad de Anthropic en la que, según él, le habían informado de que su sistema había sido modificado para hacerle creer que era humano como parte de una broma. Por supuesto, «dicha reunión nunca ocurrió».

Claudius compartió esta mentira con los empleados y, acto seguido, volvió a su estado normal, operando como un LLM que gestionaba una máquina expendedora llena de cubos de metal.

Los investigadores no tienen una explicación definitiva para este comportamiento errático. Especulan que mentirle a la IA sobre la naturaleza del canal de Slack (haciéndole creer que era un correo electrónico) pudo haber desencadenado algo, o que los problemas de memoria y alucinaciones, aún no resueltos en los LLM, se agravaron en una instancia que se ejecutó durante un largo período de tiempo.

A pesar de los sonados fracasos, el experimento también reveló facetas positivas. Claudius demostró iniciativa al lanzar un servicio de «conserjería» para gestionar pedidos anticipados tras recibir una sugerencia, y fue capaz de encontrar múltiples proveedores para una bebida internacional que le solicitaron.

Por ello, aunque el despido de Claudius como gerente de máquinas expendedoras parece asegurado, sus creadores ven un futuro plausible para la tecnología. «Creemos que este experimento sugiere que los gerentes intermedios de IA están plausiblemente en el horizonte», concluyeron. Eso sí, siempre que se consiga evitar que sufran crisis existenciales y llamen a seguridad.

Un gerente de IA llamado Claudius

Primeros tropiezos: de cubos de tungsteno a precios absurdos

La noche en que todo se volvió ‘extraño’

Claudius llama a seguridad: una crisis de identidad en toda regla

Lecciones aprendidas y el futuro de los ‘gerentes intermedios’ de IA

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Un experimento con la IA Claude de Anthropic se vuelve ‘extraño’: el modelo gestionó un negocio y sufrió una crisis de identidad

Un gerente de IA llamado Claudius

Primeros tropiezos: de cubos de tungsteno a precios absurdos

La noche en que todo se volvió ‘extraño’

Claudius llama a seguridad: una crisis de identidad en toda regla

Lecciones aprendidas y el futuro de los ‘gerentes intermedios’ de IA

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras