Nvidia lanza Nemotron-Nano-9B-v2: SLM con razonamiento ajustable y rendimiento líder, bajo licencia abierta

Droids

Updated on:

Nvidia lanza Nemotron-Nano-9B-V2, un modelo de lenguaje pequeño con capacidad de razonamiento ajustable

Nvidia ha publicado hoy Nemotron-Nano-9B-V2, un modelo de lenguaje pequeño (SLM) que alcanza el mayor rendimiento en su clase en benchmarks seleccionados. El modelo, disponible en Hugging Face y el catálogo de modelos de Nvidia, permite a los usuarios activar o desactivar el «razonamiento» de la IA, donde el sistema se autoverifica antes de generar una respuesta.

Este modelo unificado de chat y razonamiento solo de texto, entrenado desde cero, cuenta con 9.000 millones de parámetros, una reducción significativa desde los 12.000 millones originales. Oleksii Kuchiaev, Director de Post-Entrenamiento de Modelos de IA en Nvidia, explicó que el modelo se redujo específicamente para caber en una sola GPU Nvidia A10, una opción popular para implementación. Según Kuchiaev, es un modelo híbrido que puede procesar lotes más grandes y ser hasta 6 veces más rápido que modelos transformadores de tamaño similar.

Nemotron-Nano-9B-V2 se basa en Nemotron-H, un conjunto de modelos híbridos Mamba-Transformer. A diferencia de los LLM populares que son modelos «Transformer» puros y dependen completamente de capas de atención, este modelo incorpora modelos de espacio de estados selectivos (SSMs) desarrollados por investigadores de Carnegie Mellon y Princeton en la arquitectura Mamba.

Los SSMs pueden manejar secuencias muy largas de información manteniendo el estado, escalando linealmente con la longitud de la secuencia. Un híbrido Mamba-Transformer reduce costos sustituyendo la mayoría de la atención con capas de espacio de estados de tiempo lineal, logrando un rendimiento 2-3 veces mayor en contextos largos con precisión comparable.

El modelo maneja múltiples idiomas, incluidos inglés, alemán, español, francés, italiano, japonés, coreano, portugués, ruso y chino. Es adecuado tanto para seguir instrucciones como para generación de código.

Por defecto, Nemotron-Nano-9B-v2 genera una traza de razonamiento antes de proporcionar una respuesta final. Los usuarios pueden alternar este comportamiento mediante tokens de control como /think o /no_think. El modelo introduce gestión de «presupuesto de pensamiento» en tiempo de ejecución, permitiendo a los desarrolladores limitar tokens para razonamiento interno. Este mecanismo busca equilibrar precisión con latencia, particularmente en aplicaciones como soporte al cliente o agentes autónomos.

En pruebas en modo «reasoning on» usando la suite NeMo-Skills, Nemotron-Nano-9B-v2 alcanzó 72,1% en AIME25, 97,8% en MATH500, 64,0% en GPQA y 71,1% en LiveCodeBench. También logró 90,3% en IFEval y 78,9% en la prueba RULER 128K, mostrando mayor precisión que Qwen3-8B en todos los aspectos.

El modelo se publica bajo el Acuerdo de Licencia de Modelo Abierto de Nvidia, actualizado en junio de 2025. La licencia es permisiva y empresarial: los modelos son comercialmente utilizables de inmediato, los desarrolladores pueden crear y distribuir modelos derivados, y Nvidia no reclama propiedad sobre las salidas generadas.

No hay cláusulas que requieran una licencia pagada una vez que una empresa alcanza cierta escala. Sin embargo, los usuarios deben observar varias condiciones: no pueden eludir mecanismos de seguridad incorporados sin implementar reemplazos comparables, cualquier redistribución debe incluir el texto de licencia y atribución, deben cumplir con regulaciones comerciales, el uso debe alinearse con las pautas de IA Confiable de Nvidia, y si un usuario inicia litigios por infracción de patentes contra otra entidad alegando infracción por el modelo, la licencia se termina automáticamente.

El modelo y sus conjuntos de datos de pre-entrenamiento están disponibles ahora mismo. Los datos de entrenamiento incluyen una mezcla de contenido curado, extraído de la web y sintético, abarcando texto general, código, matemáticas, ciencia, documentos legales y financieros, y conjuntos de datos de preguntas y respuestas. Nvidia confirma el uso de trazas de razonamiento sintéticas generadas por otros modelos grandes para fortalecer el rendimiento en benchmarks complejos.