DeepSeek presenta una nueva técnica para crear modelos de recompensa de IA más inteligentes y escalables

Droids

Updated on:

DeepSeek presenta una nueva técnica para crear modelos de recompensa de IA más inteligentes y escalables

DeepSeek AI, un laboratorio chino de investigación que está ganando reconocimiento por sus potentes modelos de lenguaje de código abierto, ha introducido un avance significativo en el modelado de recompensas para grandes modelos de lenguaje (LLMs). Su nueva técnica, denominada Self-Principled Critique Tuning (SPCT), busca crear modelos de recompensa generalistas y escalables, lo que podría conducir a aplicaciones de IA más capaces para tareas abiertas y complejas.

Esta innovación llega en un momento en que la industria de la IA busca soluciones más sofisticadas para evaluar y mejorar el rendimiento de los modelos de lenguaje en dominios donde no existen respuestas claramente correctas o incorrectas.

¿Qué son los modelos de recompensa y por qué son importantes?

El aprendizaje por refuerzo se ha convertido en una piedra angular en el desarrollo de los LLMs más avanzados. En este proceso, los modelos se ajustan en función de señales de retroalimentación que indican la calidad de sus respuestas.

Los modelos de recompensa (RM, por sus siglas en inglés) son el componente crucial que proporciona estas señales. Esencialmente, un RM actúa como un juez, evaluando las salidas del LLM y asignando una puntuación o "recompensa" que guía el proceso de aprendizaje por refuerzo y enseña al LLM a producir respuestas más útiles.

Sin embargo, como explican los investigadores de DeepSeek en su estudio, los modelos de recompensa actuales se enfrentan a importantes limitaciones:

"Un modelo de recompensa generalista requiere generar recompensas de alta calidad más allá de dominios específicos, donde los criterios son más diversos y complejos, y a menudo no hay referencias explícitas o verdad fundamental", escriben los investigadores.

Hasta ahora, estos modelos destacan principalmente en dominios estrechos con reglas claras o respuestas fácilmente verificables, como problemas matemáticos o de programación. Sin embargo, crear un modelo de recompensa para consultas complejas, abiertas o subjetivas sigue siendo un gran desafío.

La nueva técnica de DeepSeek: Self-Principled Critique Tuning

La propuesta de DeepSeek, el SPCT, se centra en entrenar modelos de recompensa generativos (GRM) que puedan generar principios y críticas de forma dinámica basándose en las consultas y respuestas que evalúan.

Los investigadores descubrieron que "ciertos principios podrían guiar la generación de recompensas dentro de criterios adecuados para los GRM, mejorando la calidad de las recompensas", lo que les inspiró a pensar que la escalabilidad en tiempo de inferencia podría lograrse mediante la generación de principios y críticas precisas de alta calidad.

El SPCT implica dos fases principales:

  1. Ajuste fino por rechazo: En esta fase, se entrena al GRM para generar principios y críticas en el formato correcto. El modelo genera principios, críticas y recompensas para consultas y respuestas dadas. Las trayectorias (intentos de generación) se aceptan solo si la recompensa predicha se alinea con la verdad fundamental y se rechazan en caso contrario.

  2. Aprendizaje por refuerzo basado en reglas: En esta fase, el modelo se ajusta aún más mediante aprendizaje por refuerzo basado en resultados. El GRM genera principios y críticas para cada consulta, y las señales de recompensa se calculan en base a reglas simples de precisión.

"Al aprovechar el aprendizaje por refuerzo online basado en reglas, SPCT permite a los GRM aprender a postular de manera adaptativa principios y críticas basados en la consulta de entrada y las respuestas, lo que conduce a mejores recompensas de resultado en dominios generales", explican los investigadores.

Para abordar el desafío de la escalabilidad en tiempo de inferencia (obtener mejores resultados con más potencia de cálculo), los investigadores ejecutan el GRM varias veces para la misma entrada, generando diferentes conjuntos de principios y críticas. La recompensa final se determina mediante votación. Esto permite al modelo considerar una gama más amplia de perspectivas, lo que potencialmente conduce a juicios finales más precisos y matizados.

DeepSeek-GRM: Poniendo la teoría en práctica

Los investigadores aplicaron SPCT al modelo Gemma-2-27B de Google, creando DeepSeek-GRM-27B. Luego evaluaron este modelo contra varios modelos de referencia, incluyendo "LLM-as-a-Judge", modelos de recompensa escalares, y modelos públicos como GPT-4o y Nemotron-4-340B-Reward.

Los resultados fueron notables:

  • DeepSeek-GRM-27B superó a los métodos de referencia entrenados con los mismos datos.
  • SPCT mejoró significativamente la calidad y, de manera crucial, la escalabilidad en tiempo de inferencia en comparación con el ajuste fino estándar.
  • Cuando se escaló en tiempo de inferencia generando más muestras, el rendimiento de DeepSeek-GRM-27B aumentó sustancialmente, superando incluso a modelos mucho más grandes como Nemotron-4-340B-Reward y GPT-4o.

"Con un muestreo a mayor escala, DeepSeek-GRM podría juzgar con mayor precisión en base a principios con mayor diversidad, y generar recompensas con mayor granularidad", indican los investigadores.

Además, para mejorar aún más el rendimiento, los investigadores introdujeron un "meta RM", un modelo de recompensa escalar separado y ligero entrenado específicamente para predecir si un principio o crítica generado por el GRM principal probablemente conducirá a una recompensa final correcta. Durante la inferencia, el meta RM evalúa las muestras generadas y filtra los juicios de baja calidad antes de la votación final, mejorando aún más el rendimiento de escalado.

Implicaciones para las empresas y el futuro

El desarrollo de modelos de recompensa más generalistas y escalables promete avances significativos para las aplicaciones empresariales de IA. Las áreas que podrían beneficiarse incluyen:

  • Tareas creativas donde no existe una única respuesta correcta
  • Aplicaciones donde el modelo debe adaptarse a entornos dinámicos
  • Sistemas que necesitan comprender las preferencias cambiantes de los clientes

A pesar de los sólidos resultados, DeepSeek-GRM todavía tiene limitaciones. Por ejemplo, no supera a los modelos de recompensa escalares especializados en tareas puramente verificables, donde la generación de razonamiento explícito podría ser menos eficiente que la puntuación directa. La eficiencia también sigue siendo un desafío en comparación con los modelos de recompensa no generativos.

El equipo de DeepSeek sugiere que el trabajo futuro se centrará en mejoras de eficiencia e integración más profunda. Como concluyen: "Las direcciones futuras podrían incluir la integración de GRMs en canales de aprendizaje por refuerzo online como interfaces versátiles de sistemas de recompensa, explorar la co-escalabilidad en tiempo de inferencia con modelos de políticas, o servir como evaluadores offline robustos para modelos fundamentales".

Esta innovación representa un paso importante hacia modelos de IA que pueden comprender y evaluar mejor la calidad de las respuestas en contextos complejos y abiertos, una capacidad fundamental para llevar la IA a nuevos dominios de aplicación.

Deja un comentario