El modelo o3 de OpenAI obtiene peores resultados en pruebas independientes que lo anunciado por OpenAI

Droids

Updated on:

El modelo o3 de OpenAI obtiene peores resultados en pruebas independientes que los inicialmente sugeridos

Una discrepancia significativa entre los resultados anunciados por OpenAI y las evaluaciones independientes del rendimiento de su modelo o3 está generando preguntas sobre la transparencia de la empresa y sus prácticas de evaluación de modelos de inteligencia artificial.

La controversia de los resultados

Cuando OpenAI presentó su modelo o3 en diciembre, la compañía afirmó que este podía responder correctamente a más del 25% de las preguntas en FrontierMath, un conjunto desafiante de problemas matemáticos avanzados. Este resultado aparentemente superaba por mucho a la competencia, ya que el siguiente mejor modelo solo podía responder correctamente alrededor del 2% de los problemas de FrontierMath.

«Hoy, todas las ofertas disponibles tienen menos del 2% [en FrontierMath]», declaró Mark Chen, director de investigación en OpenAI, durante una transmisión en vivo. «Estamos viendo [internamente], con o3 en configuraciones de cómputo agresivas durante el tiempo de prueba, que somos capaces de superar el 25%».

Sin embargo, la realidad parece ser bastante diferente. Epoch AI, el instituto de investigación responsable de desarrollar FrontierMath, publicó el pasado viernes los resultados de sus pruebas independientes del modelo o3. Sus evaluaciones mostraron que el modelo apenas alcanzaba aproximadamente un 10% de efectividad, muy por debajo del 25% inicialmente sugerido por OpenAI.

Explicaciones de la discrepancia

La diferencia no significa necesariamente que OpenAI haya mentido deliberadamente. Los resultados de referencia que la empresa publicó en diciembre muestran un límite inferior que coincide con la puntuación observada por Epoch. Además, Epoch también señaló que su configuración de prueba probablemente difiere de la utilizada por OpenAI, y que utilizó una versión actualizada de FrontierMath para sus evaluaciones.

«La diferencia entre nuestros resultados y los de OpenAI podría deberse a que OpenAI evaluó con un andamiaje interno más potente, utilizando más [capacidad computacional] durante las pruebas, o porque esos resultados se ejecutaron en un subconjunto diferente de FrontierMath (los 180 problemas en frontiermath-2024-11-26 frente a los 290 problemas en frontiermath-2025-02-28-private)», explicó Epoch.

Según una publicación en X de la Fundación ARC Prize, una organización que probó una versión preliminar de o3, el modelo o3 público «es un modelo diferente […] ajustado para el uso de chat/producto», lo que corrobora el informe de Epoch.

«Todos los niveles de cómputo lanzados de o3 son más pequeños que la versión que [evaluamos]», escribió ARC Prize. En general, los niveles de cómputo más grandes pueden lograr mejores puntuaciones en las pruebas comparativas.

La explicación oficial de OpenAI

Wenda Zhou, miembro del personal técnico de OpenAI, explicó durante una transmisión en vivo la semana pasada que el o3 en producción está «más optimizado para casos de uso del mundo real» y velocidad en comparación con la versión de o3 demostrada en diciembre. Como resultado, puede exhibir «disparidades» en las evaluaciones comparativas.

«Hemos realizado [optimizaciones] para hacer que el [modelo] sea más rentable [y] más útil en general», dijo Zhou. «Todavía esperamos que, todavía pensamos que, este es un modelo mucho mejor […] No tendrás que esperar tanto cuando estés pidiendo una respuesta, lo cual es algo real con estos [tipos de] modelos».

El contexto más amplio

En cierto modo, el hecho de que la versión pública de o3 no cumpla con las promesas de las pruebas de OpenAI es casi irrelevante, ya que los modelos o3-mini-high y o4-mini de la compañía superan al o3 en FrontierMath, y OpenAI planea lanzar una variante más potente, o3-pro, en las próximas semanas.

Sin embargo, este caso sirve como un recordatorio de que las evaluaciones comparativas de IA es mejor no tomarlas al pie de la letra, particularmente cuando la fuente es una empresa con servicios que vender.

Problemas de benchmarking en la industria de IA

Las «controversias» relacionadas con los benchmarks se están volviendo un hecho habitual en la industria de la IA, a medida que los proveedores compiten por captar titulares y la atención del público con nuevos modelos.

En enero, Epoch fue criticada por esperar a revelar financiamiento de OpenAI hasta después de que la empresa anunciara o3. Muchos académicos que contribuyeron a FrontierMath no fueron informados de la participación de OpenAI hasta que se hizo pública.

Más recientemente, xAI, la empresa de Elon Musk, fue acusada de publicar gráficos de benchmarks engañosos para su último modelo de IA, Grok 3. Y este mismo mes, Meta admitió haber promocionado puntajes de benchmark para una versión de un modelo que difería del que la empresa puso a disposición de los desarrolladores.

La importancia de la transparencia

Este episodio subraya la importancia de la transparencia en el campo de la inteligencia artificial, especialmente cuando se trata de evaluar el rendimiento de los modelos. Las empresas tecnológicas enfrentan la presión constante de demostrar avances significativos en sus desarrollos de IA, lo que puede conducir a presentaciones que enfatizan los mejores escenarios posibles sin reflejar necesariamente la experiencia que los usuarios finales tendrán con los productos lanzados al mercado.

Los expertos en IA y los consumidores están aprendiendo a ser más escépticos con las afirmaciones de rendimiento y a esperar evaluaciones independientes antes de formar opiniones definitivas sobre las capacidades reales de los nuevos modelos de IA.

En un panorama tecnológico donde la carrera por la supremacía en IA implica enormes inversiones y expectativas, este tipo de discrepancias en los resultados reportados versus los reales plantea interrogantes importantes sobre cómo se deben comunicar, evaluar y verificar los avances en inteligencia artificial.

Deja un comentario