Investigadores utilizan acertijos radiofónicos para poner a prueba la capacidad de razonamiento de la IA

Droids

Investigadores utilizan acertijos radiofónicos para poner a prueba la capacidad de razonamiento de la IA

Un equipo de investigadores ha encontrado una forma innovadora de evaluar la capacidad de razonamiento de la inteligencia artificial: utilizar los acertijos del popular programa radiofónico "Sunday Puzzle" de la NPR estadounidense. El estudio, que analiza cómo los modelos de IA resuelven estos rompecabezas semanales, revela comportamientos sorprendentemente "humanos" en estos sistemas.

Un banco de pruebas basado en entretenimiento radiofónico

El "Sunday Puzzle" es un segmento semanal conducido por Will Shortz, el reconocido editor de crucigramas del New York Times, donde miles de oyentes intentan resolver acertijos que, si bien no requieren conocimientos especializados, resultan desafiantes incluso para participantes experimentados.

Los investigadores, procedentes de instituciones como Wellesley College, Oberlin College, la Universidad de Texas en Austin y la Universidad Northeastern, han publicado un estudio donde utilizan aproximadamente 600 de estos acertijos para evaluar la capacidad de razonamiento de diferentes modelos de IA.

¿Por qué usar acertijos radiofónicos?

"Queríamos desarrollar una prueba con problemas que los humanos pudieran entender solo con conocimientos generales", explica Arjun Guha, estudiante de informática en Northeastern y coautor del estudio, en declaraciones a TechCrunch. Esta aproximación contrasta con otros métodos de evaluación que suelen centrarse en conocimientos especializados o problemas matemáticos de nivel doctoral.

Resultados sorprendentes

Los modelos de razonamiento más avanzados mostraron resultados prometedores pero también limitaciones significativas:

  • OpenAI o1: alcanzó el mejor rendimiento con un 59% de efectividad
  • o3-mini: logró un 47% de aciertos
  • DeepSeek R1: consiguió un 35% de éxito

Comportamientos "demasiado humanos"

Uno de los hallazgos más intrigantes del estudio fue observar cómo los modelos de IA exhiben comportamientos sorprendentemente similares a los humanos cuando se enfrentan a problemas difíciles:

  • Algunos modelos literalmente "se rinden" y proporcionan respuestas que saben que son incorrectas
  • El modelo R1 expresa "frustración" cuando se enfrenta a problemas complejos
  • Los sistemas pueden quedarse "pensando" indefinidamente o dar explicaciones sin sentido
  • En ocasiones, llegan a la respuesta correcta pero continúan considerando alternativas innecesariamente

Limitaciones y próximos pasos

El estudio reconoce algunas limitaciones importantes. Los acertijos están centrados en la cultura estadounidense y solo disponibles en inglés. Además, al ser públicamente accesibles, existe el riesgo teórico de que los modelos hayan sido entrenados con ellos, aunque los investigadores no han encontrado evidencia de esto.

"Cada semana se publican nuevas preguntas, y podemos esperar que las últimas sean verdaderamente inéditas", señala Guha. "Tenemos la intención de mantener la prueba actualizada y seguir el rendimiento de los modelos a lo largo del tiempo".

Implicaciones para el futuro

Este estudio representa un paso importante en la evaluación de la IA de una manera más accesible y comprensible para el público general. Como destaca Guha, "no necesitas un doctorado para ser bueno razonando, por lo que debería ser posible diseñar pruebas de razonamiento que no requieran conocimientos de nivel doctoral".

La investigación no solo proporciona información valiosa sobre las capacidades actuales de la IA, sino que también establece un marco para evaluar futuros avances en el campo de manera más inclusiva y comprensible para el público general.

Deja un comentario