Super Mario Bros se convierte en el nuevo campo de pruebas para la Inteligencia Artificial

Droids

Super Mario Bros se convierte en el nuevo campo de pruebas para la Inteligencia Artificial

Los investigadores han encontrado un nuevo método para evaluar las capacidades de la inteligencia artificial: el clásico videojuego Super Mario Bros. Este innovador enfoque está revelando interesantes limitaciones en algunos de los modelos de IA más avanzados del momento.

Un nuevo desafío para la IA

El laboratorio Hao AI de la Universidad de California San Diego ha llevado a cabo un experimento pionero utilizando el icónico videojuego de Nintendo para poner a prueba diferentes sistemas de IA. Los resultados han sido sorprendentes: mientras algunos modelos destacaron por su capacidad de adaptación, otros mostraron importantes limitaciones.

Resultados inesperados

En las pruebas realizadas, el modelo Claude 3.7 de Anthropic demostró ser el más competente, seguido de cerca por su predecesor, Claude 3.5. Por otro lado, sistemas que tradicionalmente han mostrado excelentes resultados en otras pruebas, como Gemini 1.5 Pro de Google y GPT-4o de OpenAI, experimentaron dificultades significativas para dominar el juego.

Cómo funciona el experimento

Para realizar estas pruebas, los investigadores no utilizaron exactamente la versión original de 1985 del juego. En su lugar, emplearon un emulador junto con un framework especial llamado GamingAgent, desarrollado internamente por el laboratorio Hao. Este sistema proporciona a la IA instrucciones básicas como "Si hay un obstáculo o enemigo cerca, muévete/salta a la izquierda para esquivarlo" y capturas de pantalla del juego en tiempo real.

El factor tiempo: crucial para el rendimiento

Una de las revelaciones más interesantes del experimento ha sido la importancia del tiempo de respuesta. Los modelos de IA que utilizan "razonamiento", como el o1 de OpenAI, mostraron un rendimiento inferior a pesar de ser generalmente más capaces en otras tareas. La razón principal: estos sistemas necesitan varios segundos para tomar decisiones, un lujo que no existe en un juego de acción en tiempo real como Super Mario Bros.

Debate sobre la validez de los juegos como prueba

Este experimento ha reavivado el debate sobre la utilidad de los videojuegos como método para evaluar la IA. Algunos expertos cuestionan si estas pruebas son verdaderamente representativas del progreso tecnológico. Como señala Andrej Karpathy, científico investigador y miembro fundador de OpenAI, en una publicación en X: "No sé realmente qué métricas mirar ahora mismo […] No sé realmente qué tan buenos son estos modelos en este momento."

Perspectivas futuras

Aunque los juegos han sido utilizados durante décadas para evaluar sistemas de IA, el caso de Super Mario Bros presenta desafíos únicos que podrían ayudar a comprender mejor las limitaciones actuales de la inteligencia artificial, especialmente en situaciones que requieren respuestas rápidas y adaptación en tiempo real.

El experimento de Mario no solo ha proporcionado datos valiosos sobre el rendimiento de diferentes modelos de IA, sino que también ha puesto de manifiesto la necesidad de desarrollar sistemas más ágiles en la toma de decisiones, un aspecto crucial para muchas aplicaciones del mundo real.

Mientras el debate sobre los métodos de evaluación de la IA continúa, una cosa es clara: la capacidad de jugar Super Mario Bros de manera efectiva representa un desafío significativo para la tecnología actual, demostrando que incluso las tareas aparentemente simples pueden revelar complejidades inesperadas en el desarrollo de la inteligencia artificial.

Deja un comentario