Nvidia lanza Llama-3.1 Nemotron Ultra, un modelo de lenguaje que supera a DeepSeek R1 con la mitad de tamaño

Droids

Updated on:

Nvidia lanza Llama-3.1 Nemotron Ultra, un modelo de lenguaje que supera a DeepSeek R1 con la mitad de tamaño

Nvidia ha lanzado un nuevo modelo de lenguaje de código abierto, el Llama-3.1-Nemotron-Ultra-253B-v1, basado en el modelo Llama-3.1 de Meta. Este nuevo modelo ha demostrado un rendimiento superior a su competidor, el DeepSeek R1, en varias pruebas de referencia, a pesar de tener menos de la mitad del tamaño. Este lanzamiento consolida la apuesta de Nvidia por la innovación en la inteligencia artificial y el desarrollo de modelos de lenguaje de alto rendimiento accesibles para la comunidad.

¿Qué es Llama-3.1 Nemotron Ultra?

El Llama-3.1-Nemotron-Ultra-253B-v1 es un modelo denso de 253 mil millones de parámetros diseñado para apoyar el razonamiento avanzado, el seguimiento de instrucciones y los flujos de trabajo de asistentes de IA. Según VentureBeat, este modelo se mencionó por primera vez durante la Conferencia de Tecnología GPU (GTC) anual de Nvidia en marzo.

Nvidia ha puesto a disposición el código del modelo en Hugging Face con pesos abiertos y datos de post-entrenamiento. El modelo está diseñado para operar eficientemente tanto en modos de "razonamiento activado" como "razonamiento desactivado", lo que permite a los desarrolladores alternar entre tareas de razonamiento de alta complejidad y resultados más directos basados en las indicaciones del sistema.

Rendimiento Superior

Una de las características más destacadas de Llama-3.1-Nemotron-Ultra-253B es su capacidad para superar a DeepSeek R1 en varias pruebas de referencia, a pesar de tener un tamaño significativamente menor. DeepSeek R1 es un modelo de última generación con una arquitectura MoE (Mixture of Experts) y 671 mil millones de parámetros.

Según VentureBeat, Llama-3.1-Nemotron-Ultra-253B muestra resultados competitivos a pesar de tener menos de la mitad del número de parámetros, superando a DeepSeek R1 en tareas como GPQA (76.01 vs. 71.5), IFEval instruction following (89.45 vs. 83.3) y LiveCodeBench coding tasks (66.31 vs. 65.9).

Si bien DeepSeek R1 mantiene una clara ventaja en ciertas evaluaciones matemáticas, particularmente AIME25 (79.8 vs. 72.50) y supera ligeramente a MATH500 (97.3 vs. 97.00), los resultados generales sugieren que el modelo de Nvidia iguala o supera a las alternativas MoE en tareas de razonamiento y alineación de instrucciones generales.

Diseño para la Eficiencia

El Llama-3.1-Nemotron-Ultra-253B se basa en el trabajo previo de Nvidia en el desarrollo de LLM optimizados para la inferencia. Su arquitectura, personalizada a través de un proceso de búsqueda de arquitectura neural (NAS), introduce variaciones estructurales como capas de atención omitidas, redes feedforward fusionadas (FFN) y relaciones de compresión FFN variables.

Esta revisión arquitectónica reduce la huella de memoria y las demandas computacionales sin afectar gravemente la calidad de la salida, lo que permite su implementación en un solo nodo GPU 8x H100.

Según VentureBeat, el resultado es un modelo que ofrece un rendimiento sólido a la vez que es más rentable de implementar en entornos de centros de datos. La compatibilidad de hardware adicional incluye soporte para las microarquitecturas B100 y Hopper de Nvidia, con configuraciones validadas tanto en modos de precisión BF16 como FP8.

Post-Entrenamiento para Razonamiento y Alineación

Nvidia mejoró el modelo base a través de una canalización de post-entrenamiento multifase. Esto incluyó el ajuste fino supervisado en dominios como matemáticas, generación de código, chat y uso de herramientas, seguido del aprendizaje por refuerzo con Group Relative Policy Optimization (GRPO) para impulsar aún más el seguimiento de instrucciones y el rendimiento del razonamiento.

El modelo se sometió a una fase de destilación de conocimiento sobre 65 mil millones de tokens, seguida de un preentrenamiento continuo en 88 mil millones de tokens adicionales.

Los conjuntos de datos de entrenamiento incluyeron fuentes como FineWeb, Buzz-V1.2 y Dolma. Las indicaciones y respuestas posteriores al entrenamiento se extrajeron de una combinación de corpus públicos y métodos de generación sintética, incluidos conjuntos de datos que enseñaron al modelo a diferenciar entre sus modos de razonamiento.

Según VentureBeat, los resultados de la evaluación muestran ganancias notables cuando el modelo opera en modo de razonamiento habilitado. Por ejemplo, en el benchmark MATH500, el rendimiento aumentó del 80.40% en modo estándar al 97.00% con el razonamiento habilitado.

De manera similar, los resultados en el benchmark AIME25 aumentaron del 16.67% al 72.50%, y los puntajes de LiveCodeBench se duplicaron con creces, saltando del 29.03% al 66.31%.

También se observaron ganancias de rendimiento en tareas basadas en herramientas como BFCL V2 y composición de funciones, así como en preguntas y respuestas generales (GPQA), donde el modelo obtuvo un 76.01% en modo de razonamiento frente al 56.60% sin él.

Estas pruebas de referencia se realizaron con una longitud de secuencia máxima de 32,000 tokens, y cada prueba se repitió hasta 16 veces para garantizar la precisión.

Uso e Integración

El modelo es compatible con la biblioteca Hugging Face Transformers (se recomienda la versión 4.48.3) y admite secuencias de entrada y salida de hasta 128,000 tokens.

Los desarrolladores pueden controlar el comportamiento del razonamiento a través de indicaciones del sistema y seleccionar estrategias de decodificación basadas en los requisitos de la tarea.

Para tareas de razonamiento, Nvidia recomienda usar muestreo de temperatura (0.6) con un valor top-p de 0.95. Para salidas deterministas, se prefiere la decodificación greedy.

El Llama-3.1-Nemotron-Ultra-253B admite aplicaciones multilingües, con capacidades en inglés y varios idiomas adicionales, incluidos alemán, francés, italiano, portugués, hindi, español y tailandés.

También es adecuado para casos de uso comunes de LLM, como el desarrollo de chatbot, flujos de trabajo de agentes de IA, generación aumentada de recuperación (RAG) y generación de código.

Licencia y Uso Comercial

Lanzado bajo la licencia Nvidia Open Model License y regido por el Acuerdo de Licencia Comunitaria Llama 3.1, el modelo está listo para uso comercial.

Nvidia ha enfatizado la importancia del desarrollo responsable de la IA, alentando a los equipos a evaluar el perfil de alineación, seguridad y sesgo del modelo para sus casos de uso específicos.

Oleksii Kuchaiev, Director de AI Model Post-Training en Nvidia, compartió el anuncio en X, afirmando que el equipo estaba emocionado de compartir la versión abierta, describiéndola como un modelo denso de 253B diseñado con capacidades de razonamiento ON/OFF y lanzado con pesos y datos abiertos.

Conclusión

El lanzamiento de Llama-3.1 Nemotron Ultra representa un avance significativo en el campo de los modelos de lenguaje. Su capacidad para superar a modelos más grandes como DeepSeek R1, combinada con su diseño eficiente y licencia permisiva, lo convierte en una herramienta valiosa para investigadores, desarrolladores y empresas que buscan aprovechar el poder de la IA. La apuesta de Nvidia por el código abierto y el desarrollo responsable de la IA también es un paso importante para democratizar el acceso a esta tecnología y garantizar su uso ético y beneficioso para la sociedad.

Deja un comentario