Un nuevo estudio realizado por investigadores de Google Research y la Universidad de California, Berkeley, ha demostrado que una técnica sorprendentemente sencilla puede potenciar significativamente las capacidades de razonamiento de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Esta innovación podría cambiar la forma en que se desarrollan y optimizan estos sistemas de inteligencia artificial.
Una técnica sorprendentemente simple
La investigación, detallada en un artículo científico reciente, revela que un enfoque minimalista conocido como "muestreo basado en búsqueda" puede mejorar sustancialmente el rendimiento de los modelos actuales. Esta técnica consiste en generar múltiples respuestas para una misma consulta y utilizar el propio modelo para verificarlas, seleccionando finalmente la mejor.
Lo más destacable es que esta aproximación ha permitido que Gemini 1.5 Pro de Google supere a o1-Preview de OpenAI en pruebas de razonamiento populares, a pesar de que este último fue específicamente entrenado para este tipo de tareas. Este hallazgo desafía la creencia generalizada de que siempre se necesitan arquitecturas complejas o entrenamientos muy especializados para lograr un rendimiento óptimo.
Cómo funciona el muestreo basado en búsqueda
El algoritmo implementado por los investigadores opera mediante un proceso sencillo pero efectivo:
-
Generación de candidatos: El modelo genera múltiples respuestas posibles para un problema, utilizando un ajuste de temperatura distinto de cero para garantizar diversidad.
-
Verificación: Cada respuesta candidata pasa por un proceso de verificación donde el propio LLM evalúa su corrección múltiples veces. Los resultados de estas evaluaciones se promedian para obtener una puntuación final.
-
Selección: Se elige la respuesta con la puntuación más alta. Si varias están muy cerca entre sí, el modelo las compara por pares y selecciona la que gana más comparaciones.
El estudio considera dos ejes principales para el escalado en tiempo de prueba:
- Muestreo: La cantidad de respuestas que el modelo genera para cada problema.
- Verificación: El número de evaluaciones realizadas para cada solución generada.
Resultados que superan a modelos especializados
Los investigadores descubrieron que el rendimiento de razonamiento sigue mejorando con el muestreo basado en búsqueda, incluso cuando se aumenta el cómputo mucho más allá del punto donde otras técnicas dejan de mostrar mejoras.
"Esto no solo destaca la importancia del muestreo basado en búsqueda para escalar capacidades, sino que también sugiere su utilidad como una línea base simple con la que comparar otras estrategias de escalado de cómputo", señalan los investigadores en el estudio.
A una escala suficiente, esta implementación minimalista mejora significativamente la precisión del razonamiento en pruebas como AIME y MATH. Por ejemplo, Gemini 1.5 Pro superó el rendimiento de o1-Preview, y Gemini 1.5 Flash logró superar a Gemini 1.5 Pro.
Sin embargo, es importante mencionar que los costes pueden volverse prohibitivos. Por ejemplo, con 200 muestras y 50 pasos de verificación por muestra, una consulta de AIME generará alrededor de 130 millones de tokens, lo que cuesta unos $650 (aproximadamente 595€) con Gemini 1.5 Pro. Afortunadamente, utilizando Gemini 1.5 Flash para la verificación, los costes se reducen a $12 (aproximadamente 11€) por consulta.
Estrategias efectivas de autoverificación
Existe un debate sobre si los LLM pueden verificar sus propias respuestas. Los investigadores identificaron dos estrategias clave para mejorar la autoverificación:
Comparación directa entre candidatos: Los desacuerdos entre diferentes soluciones candidatas suelen indicar posibles errores. Al proporcionar al verificador múltiples respuestas para comparar, el modelo puede identificar mejor errores y alucinaciones, abordando una debilidad fundamental de los LLM.
Reescritura específica según la tarea: Los investigadores proponen que el estilo óptimo de respuesta de un LLM depende de la tarea. Por ejemplo, el razonamiento paso a paso (chain-of-thought) es efectivo para resolver problemas de razonamiento, pero las respuestas son más fáciles de verificar cuando se escriben en un estilo más formal y matemáticamente convencional.
"Anticipamos que las capacidades de autoverificación de los modelos mejorarán rápidamente a corto plazo, a medida que los modelos aprendan a aprovechar los principios de escalado implícito y la idoneidad del estilo de salida", escriben los investigadores.
Implicaciones para aplicaciones reales
El estudio demuestra que una técnica relativamente simple puede lograr resultados impresionantes, potencialmente reduciendo la necesidad de arquitecturas de modelos complejas y costosas o regímenes de entrenamiento extensivos.
Esta técnica es además escalable, permitiendo a las empresas aumentar el rendimiento mediante la asignación de más recursos de cómputo para el muestreo y la verificación. También permite a los desarrolladores llevar los modelos de lenguaje avanzados más allá de sus limitaciones actuales en tareas complejas.
"Dado que complementa otras estrategias de escalado de cómputo en tiempo de prueba, es paralelizable y permite un escalado arbitrario, y admite implementaciones simples que son demostrablemente efectivas, esperamos que el muestreo basado en búsqueda juegue un papel crucial a medida que se encomiende a los modelos de lenguaje resolver problemas cada vez más complejos con presupuestos de cómputo cada vez más grandes", concluyen los investigadores.
Esta investigación subraya un principio importante: a veces, las soluciones más elegantes no son necesariamente las más complejas. El enfoque "menos es más" podría ser la clave para desbloquear todo el potencial de los grandes modelos de lenguaje en un futuro próximo, demostrando que incluso en la frontera de la inteligencia artificial, la simplicidad puede resultar sorprendentemente poderosa.