Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Droids

Updated on:

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Un nuevo test diseñado para evaluar la inteligencia general de modelos de IA ha dejado perplejos a los sistemas más avanzados del mundo. La fundación Arc Prize, una organización sin ánimo de lucro cofundada por el destacado investigador François Chollet, anunció este lunes la creación de ARC-AGI-2, una prueba que está resultando prácticamente imposible de resolver para los actuales modelos de inteligencia artificial.

Según la información publicada por la fundación, los modelos de IA más potentes apenas logran resolver entre el 1% y el 4% de los problemas planteados, mientras que los humanos alcanzan un promedio del 60% de aciertos.

Una prueba que desafía a los mejores modelos de IA

Los resultados del nuevo test han sido sorprendentes por lo bajos. Modelos especializados en razonamiento como o1-pro de OpenAI y R1 de DeepSeek apenas consiguen entre un 1% y un 1,3% de aciertos en ARC-AGI-2, según muestra el tablero de clasificación de Arc Prize. Otros modelos igualmente potentes pero no específicamente orientados al razonamiento, como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash, se sitúan en torno al 1%.

Estas cifras contrastan enormemente con el rendimiento humano. La Arc Prize Foundation realizó pruebas con más de 400 personas para establecer una línea base, y en promedio, los "paneles" de participantes respondieron correctamente al 60% de las preguntas del test.

Las pruebas ARC-AGI consisten en problemas tipo rompecabezas donde la IA debe identificar patrones visuales en una colección de cuadrados de diferentes colores y generar la cuadrícula "respuesta" correcta. Estos problemas están diseñados específicamente para forzar a la IA a adaptarse a nuevos desafíos que no ha visto previamente durante su entrenamiento.

Un ejemplo de pregunta de Arc-AGI-2

¿Por qué ARC-AGI-2 es más desafiante que su predecesor?

Esta nueva versión del test representa un avance significativo respecto a su predecesor, ARC-AGI-1. En una publicación en X, François Chollet afirmó que ARC-AGI-2 es una mejor medida de la inteligencia real de un modelo de IA.

Una diferencia crucial es que la nueva prueba evita que los modelos dependan de la "fuerza bruta" —es decir, de un extenso poder computacional— para encontrar soluciones. Chollet reconoció previamente que este era un defecto importante de ARC-AGI-1.

Para abordar estas deficiencias, ARC-AGI-2 introduce una nueva métrica: la eficiencia. También requiere que los modelos interpreten patrones sobre la marcha en lugar de depender de la memorización.

"La inteligencia no se define únicamente por la capacidad de resolver problemas o lograr puntuaciones altas", escribió Greg Kamradt, cofundador de Arc Prize Foundation, en una entrada de blog. "La eficiencia con la que se adquieren y despliegan esas capacidades es un componente crucial y definitorio. La pregunta central no es solo '¿Puede la IA adquirir la habilidad para resolver una tarea?' sino también '¿Con qué eficiencia o coste?'"

El contexto en la carrera por la Inteligencia Artificial General

El lanzamiento de ARC-AGI-2 llega en un momento crucial para el campo de la IA. La versión anterior, ARC-AGI-1, permaneció sin ser superada durante aproximadamente cinco años hasta diciembre de 2024, cuando OpenAI lanzó su modelo avanzado de razonamiento, o3, que superó a todos los demás modelos de IA e igualó el rendimiento humano en la evaluación.

Sin embargo, como se señaló en su momento, las mejoras de rendimiento de o3 en ARC-AGI-1 vinieron con un precio elevado. La versión del modelo o3 de OpenAI —o3 (low)— que fue la primera en alcanzar nuevas alturas en ARC-AGI-1, obteniendo un 75,7% en la prueba, solo consiguió un mísero 4% en ARC-AGI-2 utilizando un poder computacional valorado en $200 (aproximadamente 185€) por tarea.

Comparación del rendimiento de modelos de IA en ARC-AGI-1 y ARC-AGI-2

La llegada de ARC-AGI-2 coincide con un momento en que muchos en la industria tecnológica están pidiendo nuevos benchmarks no saturados para medir el progreso de la IA. Thomas Wolf, cofundador de Hugging Face, recientemente declaró a TechCrunch que la industria de la IA carece de pruebas suficientes para medir los rasgos clave de la llamada inteligencia artificial general, incluida la creatividad.

El concurso Arc Prize 2025

Junto con el nuevo benchmark, la Arc Prize Foundation anunció un nuevo concurso Arc Prize 2025, desafiando a los desarrolladores a alcanzar un 85% de precisión en la prueba ARC-AGI-2 mientras gastan solo $0,42 (aproximadamente 0,39€) por tarea.

Este reto establece un equilibrio muy exigente entre precisión y eficiencia computacional, dos factores que los expertos consideran fundamentales para el desarrollo de una verdadera inteligencia artificial general. El bajo coste por tarea contrasta dramáticamente con los $200 que requirió el modelo o3 de OpenAI para lograr apenas un 4% de aciertos en la nueva prueba.

Un nuevo estándar para medir el progreso hacia la AGI

La prueba ARC-AGI-2 representa un importante paso adelante en la forma en que evaluamos los sistemas de IA. Al centrarse no solo en la capacidad de resolver problemas sino también en la eficiencia con la que lo hacen, establece un estándar más realista para lo que podría considerarse una "inteligencia general".

Los resultados iniciales sugieren que, a pesar de los impresionantes avances de los últimos años, los modelos de IA actuales siguen lejos de alcanzar el tipo de inteligencia general y adaptable que caracteriza a la cognición humana. La enorme diferencia entre el rendimiento humano (60%) y el de los mejores sistemas de IA (1-4%) en esta prueba pone de manifiesto las limitaciones actuales de la tecnología.

Este nuevo benchmark podría convertirse en una referencia clave para medir el progreso futuro de la IA, especialmente en su camino hacia capacidades más generales y flexibles que vayan más allá de los dominios específicos en los que fueron entrenadas.

Deja un comentario