El nuevo modelo de lenguaje Grok-3, desarrollado por xAI (la empresa de inteligencia artificial de Elon Musk), ha demostrado capacidades de razonamiento que lo sitúan al mismo nivel que los modelos más avanzados de OpenAI, según la evaluación realizada por destacados expertos del sector.
Evaluación por expertos reconocidos
Andrej Karpathy, fundador de Eureka Labs y antiguo investigador de OpenAI y Tesla, compartió en X sus impresiones tras probar en primicia el nuevo modelo. Durante aproximadamente dos horas de uso, Karpathy sometió a Grok-3 a diversas pruebas de razonamiento complejo, incluyendo la creación de una cuadrícula hexagonal para el popular juego de mesa Settlers of Catan.
«Pocos modelos logran esto de manera fiable. Los principales modelos de pensamiento de OpenAI (como o1-pro, que cuesta 186€ al mes) también lo consiguen, pero DeepSeek-R1, Gemini 2.0 Flash Thinking y Claude no», explicó Karpathy.
Capacidades destacadas y comparativa
Una de las características más notables de Grok-3 es su puntuación récord en Chatbot Arena, siendo el primer modelo en superar los 1400 puntos en esta plataforma de evaluación de IAs. El modelo incorpora capacidades de razonamiento (Think) y una función de investigación profunda llamada DeepSearch.
En las pruebas técnicas, Karpathy evaluó la capacidad del modelo para analizar documentos complejos, como el paper técnico de GPT-2 de OpenAI. Mientras que tanto Grok-3 como GPT-4o fallaron inicialmente en esta tarea, Grok-3 utilizando su función de razonamiento logró resolverla exitosamente, superando incluso al o1 Pro de OpenAI.
Limitaciones identificadas
A pesar de sus logros, el modelo también mostró algunas limitaciones. En la evaluación de la función DeepSearch, Karpathy encontró que, si bien es comparable al servicio de investigación profunda de Perplexity, aún no alcanza el nivel ofrecido por OpenAI. Se detectaron casos de alucinaciones, como la generación de URLs inexistentes y la presentación de datos incorrectos sin citas apropiadas.
Un ejemplo curioso de estas limitaciones fue que, al solicitar un informe sobre los principales laboratorios de IA y su financiación, el modelo omitió mencionar a xAI, su propia empresa desarrolladora.
Valoración general de los expertos
«Grok 3 con su capacidad de pensamiento se sitúa en el territorio de los modelos más avanzados de OpenAI (o1-pro), y ligeramente por encima de DeepSeek-R1 y Gemini 2.0 Flash Thinking», concluyó Karpathy tras su evaluación.
Por su parte, Lex Fridman, otro experto que tuvo acceso temprano al modelo, expresó en X su asombro: «Mi mente está impresionada, un modelo muy impresionante».
Esta evaluación posiciona a Grok-3 como un competidor serio en el campo de los modelos de lenguaje avanzados, demostrando que xAI está logrando avances significativos en el desarrollo de sistemas de IA cada vez más capaces y sofisticados.