La empresa de inteligencia artificial Anthropic ha elegido un método poco convencional para evaluar las capacidades de su último modelo de IA: el clásico videojuego Pokémon Red. En un innovador experimento, la compañía puso a prueba su nuevo modelo Claude 3.7 Sonnet en este popular juego de Game Boy, logrando resultados sorprendentes.
Un entrenador Pokémon artificial
Según anunció Anthropic en su blog, el modelo fue equipado con memoria básica, capacidad para procesar los píxeles de la pantalla y funciones para presionar botones y navegar por el juego. Con estas herramientas, Claude 3.7 Sonnet no solo logró comenzar su aventura Pokémon, sino que consiguió derrotar a tres líderes de gimnasio y obtener sus respectivas medallas.
El logro es especialmente significativo cuando se compara con su predecesor, Claude 3.0 Sonnet, que ni siquiera pudo salir de la casa inicial en Pueblo Paleta, el punto de partida del juego. Para alcanzar al último líder de gimnasio enfrentado, Surge, el modelo realizó aproximadamente 35,000 acciones dentro del juego.
Capacidades mejoradas de "pensamiento extendido"
Una de las características más destacadas de Claude 3.7 Sonnet es su capacidad de "pensamiento extendido", similar a la que ofrecen modelos como o3-mini de OpenAI y R1 de DeepSeek. Esta función permite al modelo "razonar" a través de problemas complejos aplicando más poder de computación y tomando más tiempo cuando es necesario.
¿Por qué usar videojuegos como prueba?
Aunque usar Pokémon Red como benchmark puede parecer una elección peculiar, existe una larga tradición de utilizar videojuegos para evaluar sistemas de inteligencia artificial. En los últimos meses, han surgido nuevas aplicaciones y plataformas que prueban las capacidades de los modelos de IA en diversos juegos, desde Street Fighter hasta Pictionary.
Implicaciones y futuro
Si bien Pokémon Red puede considerarse más una prueba experimental que un benchmark serio, el experimento demuestra el progreso en la capacidad de los modelos de IA para interactuar con interfaces visuales y tomar decisiones estratégicas en tiempo real. Anthropic no ha revelado detalles sobre el tiempo de procesamiento o los recursos computacionales necesarios para alcanzar estos resultados, lo que seguramente será objeto de análisis por parte de la comunidad de desarrolladores.
Este tipo de experimentos, aunque lúdicos en apariencia, proporcionan información valiosa sobre cómo los modelos de IA pueden adaptarse a entornos interactivos y tomar decisiones basadas en información visual y reglas de juego complejas.
La elección de Pokémon Red como herramienta de prueba también resalta la creciente tendencia de utilizar contenido familiar y accesible para demostrar los avances en inteligencia artificial, haciendo que estos desarrollos tecnológicos sean más comprensibles para el público general.