Una nueva polémica ha estallado en el mundo de la inteligencia artificial después de que xAI, la empresa de Elon Musk, fuera acusada de publicar resultados engañosos sobre el rendimiento de su último modelo de IA, Grok 3.
La polémica por los benchmarks
Todo comenzó cuando un empleado de OpenAI acusó a xAI de publicar resultados de rendimiento confusos para Grok 3. La controversia se centra en un gráfico publicado en el blog oficial de xAI que muestra el rendimiento del modelo en AIME 2025, una prueba matemática utilizada frecuentemente para evaluar la capacidad de los modelos de IA.
En el gráfico, dos versiones de Grok 3 -Grok 3 Reasoning Beta y Grok 3 mini Reasoning- aparecían superando al mejor modelo disponible de OpenAI, o3-mini-high. Sin embargo, pronto surgieron críticas sobre la forma en que se presentaron estos resultados.
El debate sobre la metodología
En el centro de la controversia está un término técnico conocido como "cons@64" (consensus@64), que representa una metodología específica de evaluación. Este método permite que un modelo intente resolver cada problema 64 veces, tomando como respuesta final aquella que aparece con más frecuencia. Esta técnica suele mejorar significativamente los resultados de los modelos.
La polémica surge porque xAI omitió en su gráfico los resultados de o3-mini-high utilizando cons@64, lo que según los críticos ofrece una imagen incompleta del rendimiento real. De hecho, cuando se consideran las puntuaciones "@1" (el primer intento de resolución), tanto Grok 3 Reasoning Beta como Grok 3 mini Reasoning obtienen resultados inferiores a o3-mini-high.
Las respuestas de xAI
Igor Babushkin, cofundador de xAI, defendió la posición de su empresa argumentando que OpenAI también ha publicado gráficos similares en el pasado, aunque comparando únicamente sus propios modelos. A pesar de esta defensa, xAI ha estado promocionando a Grok 3 como "la IA más inteligente del mundo", una afirmación que los críticos consideran cuestionable dados los resultados completos.
La importancia del coste computacional
Un aspecto crucial del debate fue señalado por el investigador de IA Nathan Lambert, quien destacó en una publicación que falta un elemento fundamental en toda esta discusión: el coste computacional y económico necesario para que cada modelo alcance sus mejores resultados.
Esta observación pone de manifiesto una de las principales limitaciones de los benchmarks actuales en IA: su incapacidad para comunicar de manera efectiva tanto las limitaciones como las fortalezas reales de los modelos evaluados.
Conclusión
Esta controversia ilustra los desafíos actuales en la evaluación y comparación de modelos de IA, así como la necesidad de mayor transparencia en la presentación de resultados por parte de las empresas del sector. También destaca la importancia de considerar múltiples factores más allá de las simples métricas de rendimiento al evaluar el progreso en el campo de la inteligencia artificial.
La discusión continúa, y mientras tanto, la comunidad científica enfatiza la necesidad de establecer estándares más claros y completos para la evaluación y presentación de resultados en el desarrollo de modelos de IA.