Los Chips Blackwell de Nvidia Marcan un Nuevo Hito en el Entrenamiento de Inteligencia Artificial según Pruebas MLPerf

Droids

Updated on:

Los Chips Blackwell de Nvidia Marcan un Nuevo Hito en el Entrenamiento de Inteligencia Artificial según Pruebas MLPerf

Nvidia, el gigante tecnológico conocido por sus unidades de procesamiento gráfico (GPU), ha anunciado que su más reciente arquitectura de chips, Blackwell, está estableciendo nuevos récords de rendimiento en el entrenamiento de modelos de inteligencia artificial (IA), especialmente los grandes modelos de lenguaje (LLM). Según un comunicado oficial de la compañía, los chips Blackwell están liderando las pruebas de referencia de la industria, conocidas como MLPerf, consolidando la posición de Nvidia en la vanguardia de la revolución de la IA.

Este avance es crucial en un momento en que los centros de datos y las denominadas "fábricas de IA" de todo el mundo están adoptando rápidamente estas nuevas tecnologías para acelerar el desarrollo y la implementación de aplicaciones de IA de próxima generación. La arquitectura Nvidia Blackwell ha sido diseñada específicamente para satisfacer las crecientes demandas de rendimiento de estas nuevas aplicaciones.

Dominio en las Pruebas MLPerf Training v5.0

En la duodécima ronda de MLPerf Training, una serie de pruebas de referencia que se realiza desde 2018, la plataforma de IA de Nvidia demostró un rendimiento superior en todos los benchmarks. Un logro particularmente notable fue su desempeño en la prueba más exigente centrada en LLM: el preentrenamiento del modelo Llama 3.1 405B. Nvidia no solo lideró esta prueba, sino que su plataforma fue la única que presentó resultados en todos los benchmarks de MLPerf Training v5.0. Este hecho subraya, según la compañía, "su rendimiento excepcional y versatilidad en una amplia gama de cargas de trabajo de IA", que incluyen LLMs, sistemas de recomendación, LLMs multimodales, detección de objetos y redes neuronales de grafos.

Para estas pruebas a gran escala, Nvidia utilizó dos supercomputadoras impulsadas por la plataforma Blackwell:

  • Tyche: Construida con sistemas a escala de rack Nvidia GB200 NVL72.
  • Nyx: Basada en sistemas Nvidia DGX B200.

Además, Nvidia colaboró con socios estratégicos como CoreWeave e IBM para presentar resultados de los sistemas GB200 NVL72, utilizando un impresionante total de 2.496 GPUs Blackwell y 1.248 CPUs Nvidia Grace. Estas primeras presentaciones de MLPerf Training con GB200 fueron desarrolladas por la MLCommons Association, una organización con más de 125 miembros y afiliados que supervisa estos benchmarks.

Saltos de Rendimiento y Avances Tecnológicos de Blackwell

Los resultados hablan por sí solos. En el nuevo benchmark de preentrenamiento Llama 3.1 405B, la arquitectura Blackwell ofreció un rendimiento 2,2 veces superior en comparación con la arquitectura de la generación anterior (Hopper) a la misma escala. Este tipo de mejora es fundamental para entrenar modelos cada vez más grandes y complejos en tiempos razonables.

En otra prueba clave, el benchmark de ajuste fino (fine-tuning) Llama 2 70B LoRA, los sistemas Nvidia DGX B200, equipados con ocho GPUs Blackwell, demostraron ser 2,5 veces más potentes que una presentación con el mismo número de GPUs de la generación anterior en la ronda previa. Incluso en la generación de imágenes, Nvidia observó una mejora de 2,5 veces al pasar de Hopper a Blackwell.

Estos significativos avances en rendimiento son el resultado de una serie de innovaciones en la arquitectura Blackwell, entre las que destacan:

  • Racks de alta densidad refrigerados por líquido: Esenciales para manejar la potencia y el calor generados por estos chips avanzados.
  • 13,4 TB de memoria coherente por rack: Permite manejar conjuntos de datos y modelos masivos.
  • Nvidia NVLink de quinta generación y tecnologías de interconexión Nvidia NVLink Switch: Para una comunicación ultrarrápida entre GPUs (scale-up).
  • Redes Nvidia Quantum-2 InfiniBand: Para la interconexión a gran escala entre múltiples sistemas (scale-out).

A esto se suman las innovaciones en la pila de software, como el Nvidia NeMo Framework, que según la compañía, "eleva el listón para el entrenamiento de LLM multimodales de próxima generación", un componente crítico para llevar al mercado aplicaciones de IA agéntica.

Impulsando las Futuras «Fábricas de IA»

Nvidia visualiza un futuro donde estas aplicaciones de IA agéntica operarán en lo que denomina "fábricas de IA". Estas fábricas no producirán bienes físicos, sino "tokens e inteligencia valiosa que pueden aplicarse a casi todas las industrias y dominios académicos", según explica VentureBeat en su cobertura.

La plataforma de centro de datos de Nvidia es un ecosistema complejo que incluye GPUs, CPUs, tejidos de alta velocidad y redes, complementado por una vasta gama de software como las bibliotecas Nvidia CUDA-X, el mencionado NeMo Framework, Nvidia TensorRT-LLM y Nvidia Dynamo. Este conjunto afinado de tecnologías de hardware y software permite a las organizaciones entrenar e implementar modelos más rápidamente, acelerando drásticamente el tiempo de obtención de valor.

MLPerf: El Estándar Oro para Medir el Rendimiento en IA

Dave Salvator, director de productos de computación acelerada en el Grupo de Computación Acelerada de Nvidia, y antiguo miembro de la prensa tecnológica, ofreció una perspectiva sobre la importancia de estos benchmarks en una sesión informativa. Salvator señaló que el CEO de Nvidia, Jensen Huang, a menudo habla sobre las "leyes de escalado para la IA". Estas incluyen el preentrenamiento, donde se enseña conocimiento al modelo de IA desde cero, una tarea computacionalmente intensiva que forma la columna vertebral de la IA. Luego viene el post-entrenamiento, donde los modelos se especializan mediante técnicas como el ajuste fino (fine-tuning), adaptándolos a conjuntos de datos específicos. Finalmente, está el escalado de prueba de tiempo o razonamiento, también conocido como IA agéntica, donde la IA puede "pensar, razonar y resolver problemas complejos".

Salvator enfatizó la relevancia de MLPerf, ahora en su duodécima ronda, para aportar credibilidad en un campo donde las afirmaciones de rendimiento pueden ser confusas. "Como estoy seguro que muchos de ustedes saben, a veces las afirmaciones de rendimiento en el mundo de la IA pueden ser un poco el salvaje oeste. MLPerf busca poner algo de orden en ese caos", dijo Salvator, según VentureBeat. "Todo el mundo tiene que hacer la misma cantidad de trabajo. Todo el mundo se rige por el mismo estándar en términos de convergencia. Y una vez que se envían los resultados, estos son revisados y examinados por todos los demás participantes, y la gente puede hacer preguntas e incluso desafiar los resultados".

La métrica más intuitiva en el entrenamiento es el "tiempo para entrenar" un modelo hasta alcanzar un nivel de precisión específico, conocido como convergencia. Esto asegura una comparación "manzanas con manzanas", teniendo en cuenta cargas de trabajo que cambian constantemente. Este año, por ejemplo, se introdujo una nueva carga de trabajo Llama 3.1 405B, reemplazando la anterior de ChatGPT 175B.

La Evolución de Nvidia: De Fabricante de GPUs a Arquitecto de Infraestructuras de IA

Salvator también reflexionó sobre la transformación de Nvidia. "Debido a la herencia de Nvidia, hemos sido conocidos durante mucho tiempo como 'esos tipos de las GPU'. Ciertamente hacemos grandes GPU, pero hemos pasado de ser solo una empresa de chips a no solo ser una empresa de sistemas con cosas como nuestros servidores DGX, sino a construir ahora racks y centros de datos completos con nuestros diseños de rack, que ahora son diseños de referencia para ayudar a nuestros socios a llegar al mercado más rápido, a construir centros de datos completos, que en última instancia construyen toda una infraestructura, a la que ahora nos referimos como fábricas de IA. Realmente ha sido este viaje tan interesante", comentó Salvator a VentureBeat.

Este enfoque holístico, que combina hardware y software optimizado, es lo que, según Salvator, permite a Nvidia alcanzar estos niveles de rendimiento. "El gran rendimiento que estamos logrando proviene de una combinación de cosas. Es nuestro NVLink y NVSwitch de quinta generación que ofrecen hasta 2,66 veces más rendimiento, junto con otras bondades arquitectónicas generales en Blackwell, además de nuestras continuas optimizaciones de software que hacen posible ese rendimiento".

Un Ecosistema de Socios Clave para el Avance

El éxito de Nvidia en esta ronda de MLPerf no es un esfuerzo solitario. La compañía destacó la extensa participación de su ecosistema de socios. Además de la ya mencionada colaboración con CoreWeave e IBM, otras presentaciones destacadas provinieron de empresas como ASUS, Cisco, Giga Computing, Lambda, Lenovo, Quanta Cloud Technology y Supermicro. Esta amplia adopción y participación subraya la confianza de la industria en la plataforma de Nvidia.

Perspectivas Futuras y Optimización Continua

A pesar de estos impresionantes resultados, Nvidia considera que todavía hay margen de mejora. "Todavía estamos bastante temprano en el ciclo de vida del producto Blackwell, por lo que esperamos obtener más rendimiento con el tiempo de la arquitectura Blackwell, a medida que continuamos refinando nuestras optimizaciones de software y a medida que nuevas cargas de trabajo, francamente más pesadas, lleguen al mercado", afirmó Salvator, citado por VentureBeat.

El liderazgo de los chips Blackwell en los benchmarks MLPerf no solo reafirma la destreza tecnológica de Nvidia, sino que también señala una aceleración continua en la capacidad de entrenar modelos de IA cada vez más sofisticados. Esto tiene profundas implicaciones para el futuro de la inteligencia artificial, prometiendo avances más rápidos en una multitud de campos que dependen de estas poderosas herramientas computacionales.