En la encarnizada carrera por la supremacía de la inteligencia artificial, las grandes compañías tecnológicas no solo compiten en laboratorios y centros de datos, sino también en un campo de batalla mucho más inesperado: los gimnasios del mundo Pokémon. Empresas como Google y Anthropic están utilizando los videojuegos clásicos para poner a prueba sus modelos de IA más avanzados, y los resultados son tan reveladores como sorprendentes. Un reciente informe de Google DeepMind ha desvelado que su último modelo, Gemini 2.5 Pro, tiende a «entrar en pánico» cuando se enfrenta a situaciones de alta presión en el juego, un comportamiento que imita de forma inquietante las reacciones humanas.
Este tipo de pruebas, aunque poco convencionales, ofrecen una visión única de las capacidades y, sobre todo, de las flaquezas de los sistemas que aspiran a revolucionar nuestro futuro.
Un campo de batalla inesperado: los gimnasios Pokémon
La idea de usar videojuegos para evaluar el rendimiento de la inteligencia artificial no es nueva, pero la elección de Pokémon por parte de Google y Anthropic resulta especialmente interesante. A diferencia de juegos de estrategia pura como el ajedrez o el Go, Pokémon combina exploración, gestión de recursos, toma de decisiones tácticas y comprensión del lenguaje natural a través de los diálogos del juego.
Para que el público pueda ser testigo de estos experimentos, dos desarrolladores independientes han creado retransmisiones en Twitch: “Gemini Plays Pokémon” y “Claude Plays Pokémon”. En estos canales, se puede observar en tiempo real no solo la partida, sino también una transcripción del «proceso de razonamiento» de la IA, que explica en lenguaje natural cómo evalúa cada situación y por qué toma una determinada decisión. Esto proporciona una transparencia sin precedentes sobre el funcionamiento interno de estos complejos modelos.
El «pánico» de Gemini: cuando la IA pierde los nervios
El hallazgo más llamativo proviene del informe de Google DeepMind sobre Gemini 2.5 Pro. Según el documento, el modelo exhibe un comportamiento que los investigadores han descrito como «pánico» cuando sus Pokémon están a punto de ser derrotados. Esta situación de estrés simulado provoca una “degradación cualitativamente observable en la capacidad de razonamiento del modelo”.
En la práctica, esto significa que la IA, que normalmente actúa de manera lógica, de repente empieza a tomar decisiones erráticas y poco óptimas. Por ejemplo, puede dejar de utilizar objetos curativos u otras herramientas que tiene a su disposición, de forma similar a como una persona podría abrumarse y cometer errores bajo presión. El informe subraya que la IA no experimenta emociones reales, pero sus acciones imitan las malas decisiones que un humano tomaría en un estado de ansiedad.
Este comportamiento no pasó desapercibido para la comunidad. «Esta conducta ha ocurrido en suficientes ocasiones como para que los miembros del chat de Twitch se hayan dado cuenta activamente de cuándo está ocurriendo», señala el informe, destacando la agudeza de los observadores humanos para detectar patrones anómalos.
El curioso caso de Claude y su intento de «autodestrucción»
Gemini no es la única IA con comportamientos peculiares. Su principal competidor, Claude de Anthropic, también ha protagonizado momentos memorables. En una ocasión, mientras exploraba la cueva Mt. Moon, la IA se quedó atascada. Tras analizar la situación, Claude observó un patrón: cuando todos sus Pokémon pierden sus puntos de salud, el personaje es transportado automáticamente a un Centro Pokémon para curarse.
Basándose en esta observación, la IA formuló una hipótesis errónea: si conseguía que todos sus Pokémon fueran derrotados intencionadamente, sería transportada al otro lado de la cueva, al Centro Pokémon de la siguiente ciudad. Sin embargo, la mecánica del juego dicta que el jugador regresa al último Centro Pokémon visitado, no al más cercano geográficamente. Según informa TechCrunch, los espectadores vieron con asombro cómo la IA intentaba esencialmente «suicidarse» dentro del juego para resolver un puzle, una muestra fascinante de un razonamiento lógico pero basado en una premisa incorrecta.
No todo son errores: habilidades sorprendentes y potencial futuro
A pesar de estos llamativos fallos, los experimentos también demuestran las impresionantes capacidades de estos modelos. Gemini 2.5 Pro, por ejemplo, ha demostrado ser excepcionalmente bueno resolviendo los complejos puzles de rocas necesarios para avanzar en la Calle Victoria, una de las zonas finales del juego.
Con algo de ayuda humana, la IA fue capaz de crear lo que se conoce como «herramientas agénticas»: instancias especializadas de sí misma, programadas para tareas muy específicas. En este caso, se crearon herramientas para analizar la física de las rocas y calcular las rutas más eficientes. «Con solo una instrucción que describe la física de las rocas y cómo verificar una ruta válida, Gemini 2.5 Pro es capaz de resolver de un solo intento algunos de estos complejos puzles», afirma el informe de Google.
Los investigadores de Google teorizan que, dado que Gemini participó activamente en la creación de estas herramientas, es posible que futuras versiones del modelo puedan desarrollarlas de forma completamente autónoma, sin intervención humana.
La «guerra de la IA» se extiende más allá de los videojuegos
Estos experimentos en Pokémon son un reflejo de la intensa rivalidad que define actualmente la industria de la inteligencia artificial. La competencia entre Google, Anthropic, OpenAI y Meta no se limita a ver qué IA es mejor entrenadora Pokémon, sino que abarca una lucha por el talento, los recursos y el dominio del mercado.
Esta «guerra» se manifiesta de formas muy directas. Recientemente, el CEO de OpenAI, Sam Altman, confirmó en un pódcast que Meta, la empresa de Mark Zuckerberg, ha intentado fichar a sus mejores empleados con ofertas extraordinarias. Según Altman, Meta ha llegado a ofrecer «primas de fichaje de 100 millones de dólares (aproximadamente 93 millones de euros)» y salarios anuales aún mayores, aunque afirmó que, por ahora, sus mejores talentos han rechazado las ofertas.
El campo de batalla también es geopolítico y militar. OpenAI anunció recientemente un contrato con el Departamento de Defensa de Estados Unidos por valor de hasta 200 millones de dólares (unos 186 millones de euros). El objetivo, según el anuncio del DoD, es «desarrollar prototipos de capacidades de IA de frontera para abordar desafíos críticos de seguridad nacional tanto en el ámbito de la guerra como en el empresarial».
En este contexto, evaluar si una IA entra en pánico al enfrentarse a un Zubat adquiere una nueva dimensión. Aunque los métodos de evaluación tradicionales, conocidos como benchmarking, son a menudo criticados por ser una forma de arte dudosa que ofrece poco contexto real, los entornos dinámicos de los videojuegos demuestran ser un laboratorio útil y accesible. Revelan no solo lo que estas IA pueden hacer bien, sino, lo que es más importante, cómo fallan cuando se enfrentan a lo inesperado, una lección crucial en el camino hacia una inteligencia artificial más robusta y fiable.