Los nuevos modelos de razonamiento de OpenAI alucinan más que sus predecesores

Droids

Updated on:

Los nuevos modelos de razonamiento de OpenAI alucinan más que sus predecesores

Los recientes modelos de inteligencia artificial o3 y o4-mini de OpenAI son de vanguardia en muchos aspectos, pero presentan un problema inesperado: alucinan (inventan información) con mayor frecuencia que las versiones anteriores, según revela un análisis de la propia compañía.

Las alucinaciones han sido uno de los mayores y más difíciles problemas de resolver en la inteligencia artificial, afectando incluso a los sistemas de mejor rendimiento actuales. Históricamente, cada nuevo modelo mejoraba ligeramente en este aspecto, reduciendo sus invenciones respecto al predecesor. Sin embargo, esto no parece ser el caso para los modelos o3 y o4-mini de OpenAI.

Un problema inesperado en la evolución de la IA

Según pruebas internas de OpenAI, los nuevos modelos o3 y o4-mini, denominados "modelos de razonamiento", alucinan con mayor frecuencia que los modelos de razonamiento anteriores de la compañía (o1, o1-mini y o3-mini), así como los modelos "no razonadores" tradicionales como GPT-4o.

Lo más preocupante es que la empresa creadora de ChatGPT realmente no sabe por qué está ocurriendo este fenómeno. En su informe técnico sobre o3 y o4-mini, OpenAI señala que "se necesita más investigación" para entender por qué las alucinaciones están empeorando a medida que se amplían los modelos de razonamiento. Aunque los nuevos modelos rinden mejor en algunas áreas, incluidas tareas relacionadas con programación y matemáticas, al "hacer más afirmaciones en general", tienden a generar "tanto afirmaciones más precisas como más imprecisas/alucinadas", según el informe.

Los datos son reveladores: OpenAI descubrió que o3 alucinó en respuesta al 33% de las preguntas en PersonQA, el punto de referencia interno de la empresa para medir la precisión del conocimiento de un modelo sobre personas. Esta cifra es aproximadamente el doble de la tasa de alucinación de los modelos de razonamiento anteriores de OpenAI, o1 y o3-mini, que obtuvieron un 16% y un 14,8% respectivamente. El modelo o4-mini obtuvo resultados aún peores en PersonQA, alucinando el 48% de las veces.

Evidencias de terceros confirman el problema

Las pruebas realizadas por Transluce, un laboratorio de investigación de IA sin fines de lucro, también encontraron evidencia de que o3 tiende a inventar acciones que dice haber tomado en el proceso de llegar a respuestas. En un ejemplo, Transluce observó que o3 afirmaba haber ejecutado código en un MacBook Pro 2021 "fuera de ChatGPT", y luego copió los números en su respuesta. Aunque o3 tiene acceso a algunas herramientas, no puede hacer eso en realidad.

"Nuestra hipótesis es que el tipo de aprendizaje por refuerzo utilizado para los modelos de la serie o puede amplificar problemas que generalmente se mitigan (pero no se eliminan por completo) mediante los canales estándar de post-entrenamiento", explicó Neil Chowdhury, investigador de Transluce y ex empleado de OpenAI, en un correo electrónico a TechCrunch.

Sarah Schwettmann, cofundadora de Transluce, añadió que la tasa de alucinación de o3 puede hacerlo menos útil de lo que sería en otras circunstancias.

Por su parte, Kian Katanforoosh, profesor adjunto de Stanford y CEO de la startup de capacitación Workera, comentó a TechCrunch que su equipo ya está probando o3 en sus flujos de trabajo de programación, y han descubierto que es superior a la competencia. Sin embargo, Katanforoosh señala que o3 tiende a alucinar enlaces de sitios web rotos, proporcionando vínculos que no funcionan cuando se hace clic en ellos.

¿Por qué ocurre y cómo solucionarlo?

Las alucinaciones pueden ayudar a los modelos a llegar a ideas interesantes y ser creativos en su "pensamiento", pero también hacen que algunos modelos sean difíciles de vender a empresas en mercados donde la precisión es primordial. Por ejemplo, es poco probable que un bufete de abogados esté satisfecho con un modelo que inserta muchos errores factuales en los contratos de sus clientes.

Un enfoque prometedor para aumentar la precisión de los modelos es dotarlos de capacidades de búsqueda web. El GPT-4o de OpenAI con búsqueda web logra una precisión del 90% en SimpleQA, otro de los puntos de referencia de precisión de OpenAI. Potencialmente, la búsqueda también podría mejorar las tasas de alucinación de los modelos de razonamiento, al menos en casos donde los usuarios estén dispuestos a exponer sus consultas a un proveedor de búsqueda externo.

"Abordar las alucinaciones en todos nuestros modelos es un área de investigación en curso, y continuamos trabajando para mejorar su precisión y fiabilidad", afirmó Niko Felix, portavoz de OpenAI, en un correo electrónico a TechCrunch.

El desafío de los modelos de razonamiento

En el último año, la industria de la IA ha dado un giro para centrarse en modelos de razonamiento después de que las técnicas para mejorar los modelos tradicionales comenzaran a mostrar rendimientos decrecientes. El razonamiento mejora el rendimiento del modelo en una variedad de tareas sin requerir cantidades masivas de computación y datos durante el entrenamiento. Sin embargo, parece que el razonamiento también puede conducir a más alucinaciones, lo que presenta un desafío significativo.

Si ampliar los modelos de razonamiento continúa empeorando las alucinaciones, la búsqueda de una solución se volverá aún más urgente. El equilibrio entre capacidad de razonamiento y precisión factual se perfila como uno de los principales retos técnicos para empresas como OpenAI en su camino hacia sistemas de IA más avanzados y confiables.

Este fenómeno pone de manifiesto que el avance en inteligencia artificial no siempre es lineal, y que nuevas capacidades pueden traer consigo nuevos problemas que requieren soluciones innovadoras.

Deja un comentario