Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales

Droids

Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales

Los investigadores de la Universidad Carnegie Mellon han desarrollado un método innovador que optimiza el equilibrio entre precisión y consumo de recursos en los modelos de lenguaje grandes (LLMs), un avance significativo que podría transformar la implementación de sistemas de IA en entornos empresariales.

La técnica, denominada "Optimización de Políticas Controladas por Longitud" (LCPO, por sus siglas en inglés), permite a los modelos de inteligencia artificial mantener su capacidad de razonamiento mientras se ajustan a un presupuesto predeterminado de recursos computacionales, según revela un nuevo estudio publicado por los investigadores.

El desafío de las cadenas de razonamiento en la IA

Los modelos avanzados de IA como OpenAI o1 y DeepSeek-R1 utilizan un enfoque conocido como "cadena de pensamiento" (Chain-of-Thought o CoT) para resolver problemas complejos. Este proceso consiste en dividir un problema en "pensamientos" manejables antes de llegar a una respuesta final.

Si bien este método ha mejorado significativamente la precisión de estos sistemas, también presenta un importante inconveniente: a medida que los modelos generan cadenas de razonamiento más largas, los costes computacionales se multiplican rápidamente, lo que puede convertirse en un obstáculo para su implementación a gran escala.

"Los modelos de razonamiento tienden a generar secuencias que pueden extenderse fácilmente a decenas de miles de tokens sin proporcionar ganancias significativas", señalan los investigadores de Carnegie Mellon en su estudio.

¿Qué es LCPO y cómo funciona?

La técnica LCPO representa un cambio de paradigma en el entrenamiento de modelos de IA. A diferencia de los métodos tradicionales de aprendizaje por refuerzo (RL) que solo buscan respuestas correctas, LCPO introduce dos objetivos simultáneos:

  1. Obtener el resultado correcto
  2. Mantener la cadena de razonamiento dentro de un límite específico de tokens

De esta manera, si un modelo produce la respuesta correcta pero genera demasiados tokens en su cadena de razonamiento, recibirá una penalización. Esto obliga al modelo a desarrollar un proceso de razonamiento más conciso que alcance la misma conclusión correcta pero con menor consumo de recursos.

Los investigadores han implementado dos variantes de esta técnica:

  • LCPO-exact: Requiere que el razonamiento generado sea exactamente igual a la longitud objetivo.
  • LCPO-max: Exige que la salida no sea más larga que la longitud objetivo.

Resultados sorprendentes en rendimiento y eficiencia

Para probar su enfoque, el equipo ajustó un modelo de razonamiento de 1.5 mil millones de parámetros (Qwen-Distilled-R1-1.5B) utilizando las dos variantes propuestas, creando así los modelos L1-max y L1-exact.

Los resultados son notables. Según indica VentureBeat, "los modelos L1 pueden equiparar con precisión el presupuesto de tokens y el rendimiento de razonamiento, interpolando suavemente entre un razonamiento corto y eficiente y un razonamiento más largo y preciso".

Lo más sorprendente es que en comparación con S1 —hasta ahora el único método que restringía la longitud de CoT—, los modelos L1 muestran mejoras de rendimiento de hasta un 150% con diferentes presupuestos de tokens.

El modelo pequeño que supera a los gigantes

Quizás el hallazgo más revolucionario es que el modelo L1 de 1.5 mil millones de parámetros logra superar a su contraparte no razonadora en un 5% y a GPT-4o en un 2% utilizando la misma longitud de generación.

"Hasta donde sabemos, esta es la primera demostración de que un modelo de 1.5 mil millones de parámetros puede superar a modelos de vanguardia como GPT-4o, a pesar de usar la misma longitud de generación", escriben los investigadores.

Esta capacidad de los modelos más pequeños para competir con sistemas mucho más grandes tiene profundas implicaciones económicas y prácticas para la implementación de IA a gran escala.

Cómo los modelos ajustan su razonamiento

Un aspecto fascinante de esta investigación es observar cómo los modelos L1 adaptan su proceso de razonamiento según el presupuesto de tokens disponible.

El análisis de las cadenas de razonamiento revela que con presupuestos más amplios, el modelo tiende a generar más tokens asociados con la autocorrección y verificación (es decir, palabras como "pero" y "espera") y la extracción de conclusiones ("por lo tanto" y "así").

Esto sugiere que el modelo ha aprendido a priorizar diferentes partes del proceso de razonamiento según los recursos disponibles, una capacidad que refleja sorprendentemente el pensamiento humano bajo restricciones de tiempo.

Implicaciones para aplicaciones empresariales

Esta línea de investigación tiene importantes implicaciones para aplicaciones del mundo real, ya que proporciona a las empresas la capacidad de escalar modelos de razonamiento sin que los costes se disparen.

Como señala VentureBeat, "es una poderosa alternativa a simplemente implementar modelos más grandes y costosos, y podría ser un factor crucial para hacer que la IA sea más económicamente viable para aplicaciones del mundo real de alto volumen".

La capacidad de controlar con precisión el equilibrio entre rendimiento y coste computacional permitirá a las organizaciones implementar sistemas de IA más eficientes y económicos, lo que podría acelerar significativamente la adopción de estas tecnologías en diversos sectores.

Disponibilidad como código abierto

En un movimiento que facilitará la adopción y experimentación con esta tecnología, los investigadores han publicado tanto el código de LCPO como los pesos para los modelos L1 como recursos de código abierto.

Esta decisión permitirá a otros investigadores y desarrolladores replicar los resultados, adaptar la técnica a sus propias necesidades y potencialmente mejorar aún más el enfoque.

La optimización LCPO representa un avance significativo en la búsqueda de modelos de IA más eficientes y accesibles, demostrando que es posible mantener altos niveles de rendimiento mientras se controlan los costes computacionales. A medida que las organizaciones continúan buscando formas de implementar IA a escala, técnicas como esta podrían ser fundamentales para hacer que estas tecnologías sean económicamente viables en entornos del mundo real.

Deja un comentario