Investigadores de Together AI y Agentica han presentado DeepCoder-14B, un nuevo modelo de codificación de código abierto que promete un rendimiento comparable a modelos propietarios líderes como el o3-mini de OpenAI. Construido sobre la base de DeepSeek-R1, este modelo de 14.000 millones de parámetros ofrece la flexibilidad necesaria para integrar capacidades de generación y razonamiento de código de alto rendimiento en aplicaciones del mundo real. Lo más destacable es que los equipos han liberado completamente el código fuente del modelo, sus datos de entrenamiento, el código en sí, los registros y las optimizaciones del sistema, facilitando a otros investigadores la mejora de su trabajo y la aceleración del progreso en este campo.
Rendimiento Competitivo en un Paquete Más Pequeño
Los experimentos realizados por el equipo de investigación demuestran que DeepCoder-14B presenta un sólido rendimiento en varios benchmarks de codificación desafiantes, incluyendo LiveCodeBench (LCB), Codeforces y HumanEval+. Según los investigadores, "nuestro modelo demuestra un fuerte rendimiento en todos los benchmarks de codificación… comparable al rendimiento de o3-mini (bajo) y o1", tal y como explican en una publicación de blog donde se describe el modelo.
Un aspecto particularmente interesante es que, a pesar de haber sido entrenado principalmente en tareas de codificación, el modelo muestra una mejora notable en el razonamiento matemático, obteniendo una puntuación del 73.8% en el benchmark AIME 2024, lo que representa una mejora del 4.1% con respecto a su modelo base (DeepSeek-R1-Distill-Qwen-14B). Esto sugiere que las habilidades de razonamiento desarrolladas a través del aprendizaje por refuerzo (RL) en el contexto del código pueden generalizarse eficazmente a otros dominios.
La característica más llamativa de DeepCoder-14B es su capacidad para lograr este nivel de rendimiento con solo 14.000 millones de parámetros. Esto lo convierte en un modelo significativamente más pequeño y, potencialmente, más eficiente de ejecutar en comparación con muchos modelos de vanguardia.
Innovaciones que Impulsan el Rendimiento de DeepCoder
Durante el desarrollo del modelo, los investigadores abordaron algunos de los desafíos clave en el entrenamiento de modelos de codificación utilizando el aprendizaje por refuerzo (RL).
El primer desafío fue la curación de los datos de entrenamiento. El aprendizaje por refuerzo requiere señales de recompensa fiables que indiquen si la salida del modelo es correcta. Como señalan los investigadores, "a diferencia de las matemáticas, donde abundan los datos verificables de alta calidad disponibles en Internet, el dominio de la codificación sufre de una relativa escasez de dichos datos".
Para abordar este problema, el equipo de DeepCoder implementó una canalización estricta que recopila ejemplos de diferentes conjuntos de datos y los filtra según la validez, la complejidad y la duplicación. Este proceso produjo 24.000 problemas de alta calidad, proporcionando una base sólida para un entrenamiento RL efectivo.
El equipo también diseñó una función de recompensa sencilla que solo proporciona una señal positiva si el código generado pasa todas las pruebas unitarias muestreadas para el problema dentro de un límite de tiempo específico. Combinado con los ejemplos de entrenamiento de alta calidad, este sistema de recompensa centrado en los resultados evita que el modelo aprenda trucos como imprimir respuestas memorizadas para pruebas públicas u optimizar para casos límite simples sin resolver el problema central.
El algoritmo central de entrenamiento del modelo se basa en Group Relative Policy Optimization (GRPO), un algoritmo de aprendizaje por refuerzo que demostró ser muy exitoso en DeepSeek-R1. Sin embargo, el equipo realizó varias modificaciones al algoritmo para hacerlo más estable y permitir que el modelo continúe mejorando a medida que el entrenamiento se extiende por más tiempo.
Finalmente, el equipo extendió la ventana de contexto del modelo de forma iterativa, primero entrenándolo en secuencias de razonamiento más cortas y aumentando gradualmente la longitud. También desarrollaron un método de filtrado para evitar penalizar al modelo cuando creaba cadenas de razonamiento que excedían los límites del contexto al resolver un prompt difícil.
Según los investigadores, la idea central es: “Para preservar el razonamiento de contexto largo y permitir un entrenamiento eficiente, incorporamos el filtrado extralargo… Esta técnica enmascara las secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que excedan el límite de contexto actual".
El entrenamiento se escaló gradualmente de una ventana de contexto de 16K a 32K, y el modelo resultante también pudo resolver problemas que requerían hasta 64K tokens.
Optimización del Entrenamiento RL de Contexto Largo
Entrenar modelos grandes con RL, especialmente en tareas que requieren secuencias generadas largas como la codificación o el razonamiento complejo, es computacionalmente intensivo y lento. Un cuello de botella importante es el paso de "muestreo", donde el modelo genera potencialmente miles de tokens por ejemplo en el lote. Las variaciones en la longitud de la respuesta significan que algunas respuestas terminan mucho más tarde que otras, lo que deja las GPU inactivas y ralentiza todo el bucle de entrenamiento.
Para acelerar esto, el equipo desarrolló verl-pipeline, una extensión optimizada de la biblioteca de código abierto verl para aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). La innovación clave, que llaman "One-Off Pipelining", reorganiza el muestreo de la respuesta y las actualizaciones del modelo para reducir los cuellos de botella y el tiempo de inactividad del acelerador.
Sus experimentos mostraron que One-Off Pipelining proporcionó hasta una aceleración de 2x para las tareas de codificación RL en comparación con las implementaciones de referencia. Esta optimización fue crucial para entrenar DeepCoder dentro de un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de verl-pipeline para que la comunidad lo use y construya sobre él.
Impacto Empresarial
Los investigadores han puesto a disposición todos los artefactos para entrenar y ejecutar DeepCoder-14B en GitHub y Hugging Face bajo una licencia permisiva.
"Al compartir completamente nuestro conjunto de datos, código y receta de entrenamiento, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que el entrenamiento RL sea accesible para todos", escriben los investigadores.
DeepCoder-14B ilustra poderosamente una tendencia más amplia y acelerada en el panorama de la IA: el auge de modelos altamente capaces pero eficientes y de acceso abierto.
Para el mundo empresarial, este cambio significa más opciones y una mayor accesibilidad de los modelos avanzados. El rendimiento de vanguardia ya no es únicamente dominio de los hiperescaladores o de aquellos dispuestos a pagar tarifas API premium. Modelos como DeepCoder pueden empoderar a organizaciones de todos los tamaños para aprovechar la generación y el razonamiento de código sofisticados, personalizar soluciones para sus necesidades específicas e implementarlas de forma segura dentro de sus entornos.
Esta tendencia puede reducir la barrera de entrada para la adopción de la IA y fomentar un ecosistema más competitivo e innovador, donde el progreso se impulsa a través de la colaboración de código abierto.
En resumen, DeepCoder-14B representa un avance significativo en el campo de la IA para la codificación, al ofrecer un modelo potente, eficiente y de código abierto que puede beneficiar tanto a investigadores como a empresas.