Un equipo colaborativo de investigadores de prestigiosas universidades y empresas tecnológicas, liderado por Zihan Wang, ex miembro de DeepSeek, ha lanzado RAGEN, un nuevo sistema diseñado para entrenar y evaluar agentes de inteligencia artificial más confiables para su uso en aplicaciones del mundo real. Esta innovación llega en un momento en que los agentes de IA, pese a las expectativas, siguen atrapados en fase experimental en muchas empresas.
La promesa incumplida de los agentes de IA
El 2025 debía ser, según varios expertos, el año de los agentes de IA: implementaciones específicas impulsadas por modelos de lenguaje grandes (LLMs) como los que ofrecen OpenAI, Anthropic, Google y DeepSeek. Sin embargo, la realidad ha sido diferente. Según una encuesta reciente realizada por VentureBeat, la mayoría de estos agentes siguen siendo proyectos piloto experimentales, atrapados en una especie de «purgatorio corporativo».
Los agentes de IA prometen automatizar tareas complejas que requieren razonamiento y toma de decisiones, pero hasta ahora su implementación en entornos empresariales ha estado limitada por problemas de fiabilidad.
RAGEN: una nueva solución para entrenar agentes más confiables
Para abordar estos desafíos, un equipo colaborativo de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington ha introducido RAGEN, según anunció Wang en la red social X. El sistema se basa en un marco personalizado de aprendizaje por refuerzo llamado StarPO (State-Thinking-Actions-Reward Policy Optimization).
A diferencia de los métodos tradicionales que se enfocan en tareas estáticas como resolver problemas matemáticos o generar código, RAGEN se centra en entornos interactivos de múltiples turnos, donde los agentes deben adaptarse, recordar y razonar en situaciones de incertidumbre.
StarPO explora cómo los modelos de lenguaje grandes pueden aprender a través de la experiencia en lugar de la memorización. El sistema se enfoca en trayectorias completas de toma de decisiones, no solo en respuestas de un solo paso, lo que proporciona una visión más holística del comportamiento del agente.
La trampa del eco: cuando los modelos pierden capacidad de razonamiento
Uno de los hallazgos más importantes del equipo investigador es lo que denominan la «trampa del eco». Wang lo resumió en X: «¿Por qué tu entrenamiento por refuerzo siempre colapsa?»
Según los investigadores, los agentes basados en LLMs inicialmente generan respuestas simbólicas bien razonadas. Sin embargo, con el tiempo, los sistemas de aprendizaje por refuerzo tienden a recompensar los atajos, lo que conduce a comportamientos repetitivos que degradan el rendimiento general.
Este fenómeno se produce cuando ciertas frases o estrategias obtienen altas recompensas al principio, lo que fomenta su uso excesivo y sofoca la exploración. El equipo descubrió que los síntomas son medibles: acantilados de varianza de recompensa, picos de gradiente y desaparición de rastros de razonamiento.
Entornos de prueba de RAGEN
Para estudiar estos comportamientos en un entorno controlado, el equipo evaluó los agentes en tres entornos simbólicos diferentes:
- Bandit: Una tarea estocástica de un solo turno que prueba el razonamiento simbólico de riesgo-recompensa.
- Sokoban: Un rompecabezas determinista de múltiples turnos que implica decisiones irreversibles.
- Frozen Lake: Una tarea estocástica de múltiples turnos que requiere planificación adaptativa.
Cada entorno está diseñado para minimizar los conocimientos previos del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante el entrenamiento.
Por ejemplo, en el entorno Bandit, se le dice a los agentes que los brazos «Dragón» y «Fénix» representan diferentes distribuciones de recompensa. En lugar de recibir las probabilidades directamente, deben razonar simbólicamente (interpretando, por ejemplo, Dragón como «fuerza» y Fénix como «esperanza») para predecir los resultados.
StarPO-S: estabilizando el aprendizaje por refuerzo
Para abordar el colapso del entrenamiento, los investigadores introdujeron StarPO-S, una versión estabilizada del marco original. StarPO-S incorpora tres intervenciones clave:
- Filtrado de despliegue basado en incertidumbre: Prioriza los despliegues donde el agente muestra incertidumbre sobre el resultado.
- Eliminación de la penalización KL: Permite que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
- Recorte asimétrico PPO: Amplifica las trayectorias de alta recompensa más que las de baja recompensa para impulsar el aprendizaje.
Estos cambios retrasan o eliminan el colapso del entrenamiento y mejoran el rendimiento en las tres tareas. Como expresó Wang: «StarPO-S… funciona en las 3 tareas. Alivia el colapso. Mejor recompensa.»
Claves para desarrollar buenos modelos de IA agénticos
El equipo identificó tres dimensiones que impactan significativamente el entrenamiento:
- Diversidad de tareas: Exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
- Granularidad de interacción: Permitir múltiples acciones por turno posibilita una planificación más significativa.
- Frescura del despliegue: Mantener los datos de entrenamiento alineados con la política actual del modelo evita señales de aprendizaje obsoletas.
La demo interactiva publicada por los investigadores en Github visualiza los despliegues del agente como turnos completos de diálogo, incluyendo no solo las acciones, sino también el proceso de pensamiento paso a paso que las precedió.
Por ejemplo, al resolver un problema matemático, un agente puede primero ‘pensar’ en aislar una variable y luego enviar una respuesta como ‘x = 5’. Estos pensamientos intermedios son visibles y rastreables, lo que añade transparencia sobre cómo los agentes llegan a sus decisiones.
El desafío del razonamiento sostenido
Aunque el razonamiento explícito mejora el rendimiento en tareas simples de un solo turno como Bandit, tiende a decaer durante el entrenamiento de múltiples turnos. A pesar del uso de indicaciones estructuradas y tokens específicos, los rastros de razonamiento a menudo se reducen o desaparecen a menos que sean directamente recompensados.
Esto apunta a una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de tareas puede descuidar la calidad del proceso detrás de ella. El equipo experimentó con penalizaciones basadas en el formato para fomentar un razonamiento mejor estructurado, pero reconoce que probablemente se necesite un diseño de recompensas más refinado.
Herramientas abiertas para investigadores y desarrolladores
RAGEN, junto con sus marcos StarPO y StarPO-S, está ahora disponible como proyecto de código abierto en GitHub. Sin embargo, en el momento de la publicación, no se enumera ninguna licencia explícita en el repositorio, lo que podría limitar su uso o redistribución.
El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que hagan más que completar tareas: que piensen, planifiquen y evolucionen. A medida que la IA continúa avanzando hacia la autonomía, proyectos como RAGEN ayudan a iluminar lo que se necesita para entrenar modelos que aprendan no solo de los datos, sino también de las consecuencias de sus propias acciones.
Desafíos para la adopción empresarial
Aunque el trabajo de RAGEN ofrece una hoja de ruta técnica detallada, quedan varias preguntas prácticas para quienes buscan aplicar estos métodos en entornos empresariales.
Por ejemplo, ¿qué tan transferible es el enfoque de RAGEN más allá de tareas simbólicas estilizadas? ¿Las empresas necesitarían diseñar entornos y funciones de recompensa completamente nuevos para usar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?
Cuando se le preguntó sobre esto, Wang comentó a VentureBeat a través de mensaje directo en X:
«Creo que mejorar la diversidad de tareas puede ayudar, ya que las tareas de juego actuales solo tienen observaciones muy similares como representaciones de cuadrícula pero no información semántica, o algo así.»
Respecto a si las empresas podrían diseñar sus propios ejercicios de entrenamiento para sus agentes de IA utilizando RAGEN, Wang se mostró optimista, escribiendo:
«Sí, algo muy bueno de RAGEN es que alguien puede añadir fácilmente sus propios entornos a este marco para entrenar en sus propias tareas agénticas. En el enlace de Github tenemos una introducción simple sobre cómo añadir un nuevo entorno.»
Otra área crítica es la escalabilidad. Incluso con las mejoras proporcionadas por StarPO-S, el artículo reconoce que el entrenamiento eventualmente colapsa en horizontes más largos. Esto plantea la pregunta: ¿existe un camino teórico o práctico para mantener el razonamiento en secuencias de tareas de final abierto o en evolución continua?
A pesar de estos desafíos, RAGEN destaca no solo como una contribución técnica sino como un paso conceptual hacia agentes de IA más autónomos y capaces de razonar. Si bien queda por ver si se convertirá en parte del ecosistema empresarial de IA, sus ideas sobre la dinámica de aprendizaje de agentes ya están ayudando a redefinir la frontera del entrenamiento de LLM.