Investigadores utilizan acertijos radiofónicos para poner a prueba la capacidad de razonamiento de la IA

Droids

Investigadores utilizan acertijos radiofónicos para poner a prueba la capacidad de razonamiento de la IA

Un equipo internacional de investigadores ha encontrado una forma innovadora de evaluar la capacidad de razonamiento de los modelos de inteligencia artificial: utilizando los acertijos del popular programa radiofónico "Sunday Puzzle" de la NPR estadounidense.

Un rompecabezas para la IA

Cada domingo, Will Shortz, el experto en crucigramas del New York Times, desafía a miles de oyentes con enigmas y acertijos en su programa "Sunday Puzzle". Ahora, según revela un nuevo estudio, estos mismos rompecabezas están siendo utilizados para medir las capacidades de razonamiento de los modelos de IA más avanzados.

El equipo de investigación, formado por académicos de Wellesley College, Oberlin College, la Universidad de Texas en Austin, Northeastern University, la Universidad Carlos de Praga y la startup Cursor, ha creado un benchmark utilizando aproximadamente 600 acertijos del programa.

¿Por qué elegir acertijos radiofónicos?

"Queríamos desarrollar un benchmark con problemas que los humanos pudieran entender solo con conocimientos generales", explicó a TechCrunch Arjun Guha, profesor de informática en Northeastern University y coautor del estudio.

Esta elección no es casual. La industria de la IA enfrenta actualmente un dilema con las pruebas de evaluación existentes, que suelen centrarse en habilidades muy específicas o conocimientos de nivel doctoral, poco relevantes para el usuario medio. Además, muchos benchmarks tradicionales están llegando a su punto de saturación.

Resultados sorprendentes

Los investigadores descubrieron comportamientos fascinantes en los modelos de IA. El modelo o1 de OpenAI logró el mejor rendimiento, con un 59% de respuestas correctas, seguido por o3-mini con un 47%. El modelo R1 de DeepSeek alcanzó un 35%.

Pero más allá de los números, lo verdaderamente interesante fueron las reacciones de los modelos:

  • Algunos "se rinden" explícitamente y proporcionan respuestas que saben que son incorrectas
  • Otros se "frustran" al intentar resolver problemas difíciles
  • Varios modelos retractan sus respuestas iniciales para intentar encontrar mejores soluciones
  • En ocasiones, llegan a la respuesta correcta pero continúan considerando alternativas innecesariamente

Limitaciones y futuro

El estudio reconoce ciertas limitaciones en su metodología. Los acertijos están centrados en la cultura estadounidense y solo disponibles en inglés. Además, al ser públicamente accesibles, existe el riesgo teórico de que los modelos puedan "hacer trampa" si han sido entrenados con este contenido.

Sin embargo, como señala Guha, "cada semana se publican nuevas preguntas, y podemos esperar que las últimas sean verdaderamente inéditas. Pretendemos mantener el benchmark actualizado y seguir el rendimiento de los modelos a lo largo del tiempo".

Implicaciones para el futuro de la IA

Este estudio plantea cuestiones importantes sobre cómo evaluar la inteligencia artificial. "No se necesita un doctorado para ser bueno razonando, por lo que debería ser posible diseñar pruebas de razonamiento que no requieran conocimientos de nivel doctoral", argumenta Guha.

La investigación subraya la importancia de desarrollar benchmarks más accesibles y comprensibles para el público general, especialmente considerando que los modelos de IA más avanzados están siendo implementados en entornos que afectan a toda la sociedad.

Los investigadores planean ampliar sus pruebas a más modelos de razonamiento, con el objetivo de identificar áreas de mejora y contribuir al desarrollo de sistemas de IA más capaces y comprensibles para todos.

Deja un comentario