Grok-3 iguala las capacidades de OpenAI o1 Pro y supera a DeepSeek-R1 en razonamiento

El nuevo modelo de lenguaje Grok-3, desarrollado por xAI (la empresa de inteligencia artificial de Elon Musk), ha demostrado capacidades de razonamiento que lo sitúan al mismo nivel que los modelos más avanzados de OpenAI, según la evaluación realizada por destacados expertos del sector.

Evaluación por expertos reconocidos

Andrej Karpathy, fundador de Eureka Labs y antiguo investigador de OpenAI y Tesla, compartió en X sus impresiones tras probar en primicia el nuevo modelo. Durante aproximadamente dos horas de uso, Karpathy sometió a Grok-3 a diversas pruebas de razonamiento complejo, incluyendo la creación de una cuadrícula hexagonal para el popular juego de mesa Settlers of Catan.

«Pocos modelos logran esto de manera fiable. Los principales modelos de pensamiento de OpenAI (como o1-pro, que cuesta 186€ al mes) también lo consiguen, pero DeepSeek-R1, Gemini 2.0 Flash Thinking y Claude no», explicó Karpathy.

Capacidades destacadas y comparativa

Una de las características más notables de Grok-3 es su puntuación récord en Chatbot Arena, siendo el primer modelo en superar los 1400 puntos en esta plataforma de evaluación de IAs. El modelo incorpora capacidades de razonamiento (Think) y una función de investigación profunda llamada DeepSearch.

En las pruebas técnicas, Karpathy evaluó la capacidad del modelo para analizar documentos complejos, como el paper técnico de GPT-2 de OpenAI. Mientras que tanto Grok-3 como GPT-4o fallaron inicialmente en esta tarea, Grok-3 utilizando su función de razonamiento logró resolverla exitosamente, superando incluso al o1 Pro de OpenAI.

Limitaciones identificadas

A pesar de sus logros, el modelo también mostró algunas limitaciones. En la evaluación de la función DeepSearch, Karpathy encontró que, si bien es comparable al servicio de investigación profunda de Perplexity, aún no alcanza el nivel ofrecido por OpenAI. Se detectaron casos de alucinaciones, como la generación de URLs inexistentes y la presentación de datos incorrectos sin citas apropiadas.

Un ejemplo curioso de estas limitaciones fue que, al solicitar un informe sobre los principales laboratorios de IA y su financiación, el modelo omitió mencionar a xAI, su propia empresa desarrolladora.

Valoración general de los expertos

«Grok 3 con su capacidad de pensamiento se sitúa en el territorio de los modelos más avanzados de OpenAI (o1-pro), y ligeramente por encima de DeepSeek-R1 y Gemini 2.0 Flash Thinking», concluyó Karpathy tras su evaluación.

Por su parte, Lex Fridman, otro experto que tuvo acceso temprano al modelo, expresó en X su asombro: «Mi mente está impresionada, un modelo muy impresionante».

Esta evaluación posiciona a Grok-3 como un competidor serio en el campo de los modelos de lenguaje avanzados, demostrando que xAI está logrando avances significativos en el desarrollo de sistemas de IA cada vez más capaces y sofisticados.

Evaluación por expertos reconocidos

Capacidades destacadas y comparativa

Limitaciones identificadas

Valoración general de los expertos

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Grok-3 iguala las capacidades de OpenAI o1 Pro y supera a DeepSeek-R1 en razonamiento

Evaluación por expertos reconocidos

Capacidades destacadas y comparativa

Limitaciones identificadas

Valoración general de los expertos

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras