OpenAI ha presentado hoy dos nuevos modelos de razonamiento con inteligencia artificial: o3, descrito como su «modelo de razonamiento más potente», y o4-mini, una versión más pequeña y rápida que «logra un rendimiento notable para su tamaño y coste». La principal novedad es que ambos modelos pueden «pensar con imágenes», integrándolas directamente en su cadena de razonamiento, lo que supone un avance significativo en la forma en que la IA procesa información visual.
Modelos que integran imágenes en su proceso de pensamiento
Según el anuncio publicado en el blog de OpenAI, estos nuevos modelos pueden incorporar imágenes directamente en su proceso de razonamiento. Esta capacidad podría resultar especialmente útil cuando los usuarios muestran a los modelos elementos como bocetos o pizarras.
Una característica destacable es que estos sistemas de IA no solo pueden analizar las imágenes, sino también manipularlas como parte de su proceso cognitivo. Por ejemplo, pueden hacer zoom en determinadas partes o rotar las imágenes durante su análisis, lo que les permite examinar detalles específicos o cambiar la perspectiva según sea necesario para su razonamiento.
«Los modelos podrán integrar imágenes directamente en su cadena de pensamiento», explica OpenAI en su comunicado. Esta función representa un paso importante en la evolución de los sistemas de IA, acercándolos a un tipo de razonamiento más parecido al humano, donde la información visual se procesa de manera dinámica y contextual.
Acceso a todas las herramientas de ChatGPT
Además de las nuevas capacidades de procesamiento de imágenes, OpenAI ha anunciado que sus modelos de razonamiento podrán utilizar todas las herramientas disponibles en ChatGPT. Esto incluye funcionalidades como la navegación web y la generación de imágenes.
Estas herramientas estarán disponibles a partir de hoy para los usuarios de ChatGPT Plus, Pro y Team en los modelos o3, o4-mini y o4-mini-high. Los usuarios de o3-pro tendrán que esperar «unas pocas semanas» para acceder a estas funcionalidades, según indica la compañía.
Renovación del catálogo de modelos
Como parte de esta actualización, OpenAI ha anunciado también que eliminará gradualmente algunos de sus modelos anteriores. En concreto, o1, o3-mini y o3-mini-high dejarán de estar disponibles para los usuarios de los niveles Plus, Pro y Team.
Esta estrategia de renovación de su catálogo de productos sigue la línea habitual de la compañía, que va retirando modelos más antiguos a medida que lanza versiones más avanzadas con mejores capacidades y rendimiento.
Evolución constante de los modelos de OpenAI
Este anuncio llega apenas dos días después de que OpenAI presentara su modelo insignia GPT-4.1, el sucesor de GPT-4o. La empresa está acelerando el ritmo de lanzamientos y actualizaciones de sus modelos, consolidando su posición como uno de los líderes en el desarrollo de sistemas de inteligencia artificial avanzados.
La capacidad de «pensar con imágenes» representa un avance significativo en cómo los modelos de IA procesan y razonan con información multimodal. Hasta ahora, la mayoría de los sistemas de IA procesaban texto e imágenes de manera relativamente separada, mientras que estos nuevos modelos integran ambos tipos de información en un único proceso de razonamiento.
Implicaciones para los usuarios
Para los usuarios de ChatGPT, estas nuevas capacidades significan interacciones potencialmente más ricas y contextuales. Por ejemplo, un profesional podría mostrar al modelo un boceto o diagrama y pedirle que razone sobre él, haciendo zoom en partes específicas o analizándolo desde diferentes ángulos.
La integración con herramientas como la navegación web también ampliará el rango de tareas que estos modelos pueden realizar, permitiéndoles buscar información actualizada mientras mantienen el contexto de la conversación y las imágenes compartidas.
Un paso más hacia la IA multimodal
El desarrollo de estos modelos representa otro paso importante en la evolución hacia sistemas de IA verdaderamente multimodales, capaces de procesar y razonar con diferentes tipos de información de manera similar a como lo hacen los humanos.
La capacidad de incorporar imágenes directamente en el proceso de razonamiento, en lugar de tratarlas como entradas separadas, podría mejorar significativamente la comprensión contextual de estos sistemas y ampliar su utilidad en campos que dependen fuertemente de información visual, como el diseño, la medicina o la educación.
Este anuncio de OpenAI llega en un momento de intensa competencia en el campo de la IA generativa, con empresas como Anthropic, Google, Meta y Microsoft lanzando y mejorando continuamente sus propios modelos avanzados. La incorporación de capacidades de razonamiento visual más sofisticadas podría ser un diferenciador importante para OpenAI en este competitivo mercado.
Los usuarios interesados en probar estas nuevas capacidades pueden acceder a ellas a través de las suscripciones ChatGPT Plus, Pro y Team, mientras que aquellos que utilicen o3-pro tendrán que esperar algunas semanas para poder experimentar con la integración completa de herramientas.
Como destaca Jay Peters en The Verge, estos avances siguen la línea de innovación constante que caracteriza a OpenAI, consolidando su posición como uno de los principales desarrolladores de tecnología de inteligencia artificial a nivel mundial.