HART: la herramienta de IA que genera imágenes de alta calidad 9 veces más rápido

Droids

Updated on:

Investigadores del MIT desarrollan herramienta de IA que genera imágenes de alta calidad 9 veces más rápido

La capacidad de generar imágenes de alta calidad rápidamente resulta crucial para numerosas aplicaciones tecnológicas, desde el entrenamiento de vehículos autónomos hasta el diseño de videojuegos. Ahora, un equipo de investigadores del MIT y NVIDIA ha logrado un avance significativo en este campo con el desarrollo de HART (Hybrid Autoregressive Transformer), una herramienta de inteligencia artificial que puede crear imágenes realistas aproximadamente nueve veces más rápido que los métodos más avanzados actuales.

La fusión de dos tecnologías de IA

El nuevo enfoque combina las fortalezas de dos métodos populares de generación de imágenes por IA: los modelos de difusión y los modelos autorregresivos. Los modelos de difusión, como Stable Diffusion y DALL-E, son conocidos por producir imágenes altamente detalladas, pero son lentos y requieren muchos recursos computacionales. Por otro lado, los modelos autorregresivos (el mismo tipo que impulsa chatbots como ChatGPT) son mucho más rápidos, pero generan imágenes de menor calidad y con más errores.

"Si estás pintando un paisaje y pintas todo el lienzo de una sola vez, puede que no se vea muy bien. Pero si pintas la imagen general y luego refinas la imagen con pinceladas más pequeñas, tu pintura podría verse mucho mejor. Esa es la idea básica con HART", explica Haotian Tang, coautor principal del estudio y reciente graduado del MIT (PhD '25).

Ventajas sobre los métodos tradicionales

Los modelos de difusión tradicionales generan imágenes a través de un proceso iterativo donde predicen cierta cantidad de ruido aleatorio en cada píxel, restan el ruido, y luego repiten este proceso de predicción y "eliminación de ruido" múltiples veces hasta crear una nueva imagen completamente libre de ruido. Este enfoque suele requerir 30 o más pasos para cada imagen, lo que ralentiza considerablemente el proceso.

HART utiliza un modelo autorregresivo para captar rápidamente la imagen general y luego emplea un pequeño modelo de difusión para refinar los detalles. Como resultado, el modelo de difusión dentro de HART solo necesita ocho pasos para completar su tarea, en lugar de los 30 o más que requieren los modelos de difusión estándar.

Lo más impresionante es que HART, que utiliza un modelo autorregresivo de 700 millones de parámetros y un modelo de difusión ligero de apenas 37 millones de parámetros, puede generar imágenes de calidad equivalente o superior a las creadas por modelos de difusión con 2.000 millones de parámetros. Y todo esto consumiendo aproximadamente un 31% menos de recursos computacionales.

Cómo funciona HART

Para entender el funcionamiento de HART, es importante conocer primero cómo operan cada uno de los modelos que integra.

Los modelos autorregresivos utilizan representaciones conocidas como "tokens" para hacer predicciones. Emplean un "autocodificador" para comprimir los píxeles de la imagen en tokens discretos y reconstruir la imagen a partir de esos tokens. Esto acelera el proceso, pero la pérdida de información durante la compresión causa errores en la imagen generada.

HART soluciona este problema utilizando un enfoque híbrido: primero emplea el modelo autorregresivo para predecir los tokens discretos de la imagen comprimida, y luego utiliza un pequeño modelo de difusión para predecir "tokens residuales". Estos tokens residuales compensan la pérdida de información capturando detalles que quedaron fuera de los tokens discretos.

"Podemos lograr un enorme impulso en términos de calidad de reconstrucción. Nuestros tokens residuales aprenden detalles de alta frecuencia, como bordes de un objeto, o el cabello, ojos o boca de una persona. Estos son lugares donde los tokens discretos pueden cometer errores", señala Tang.

Aplicaciones potenciales

El desarrollo de HART abre un amplio abanico de posibilidades prácticas. Una de las aplicaciones más prometedoras es la creación de entornos simulados realistas para entrenar vehículos autónomos, ayudándoles a evitar peligros impredecibles y haciéndolos más seguros en calles reales.

Además, HART podría ayudar a investigadores a entrenar robots para completar tareas complejas en el mundo real y asistir a diseñadores en la producción de escenas impactantes para videojuegos.

Una ventaja adicional de HART es que, al utilizar principalmente un modelo autorregresivo (el mismo tipo de modelo que impulsa los LLMs), resulta más compatible para su integración con la nueva clase de modelos generativos unificados de visión y lenguaje. Esto podría permitir, por ejemplo, interactuar con un modelo generativo unificado de visión y lenguaje para visualizar los pasos intermedios necesarios para ensamblar un mueble.

"Los LLMs son una buena interfaz para todo tipo de modelos, como modelos multimodales y modelos que pueden razonar. Esta es una forma de impulsar la inteligencia hacia una nueva frontera. Un modelo eficiente de generación de imágenes desbloquearía muchas posibilidades", comenta Tang.

El futuro de HART

Los investigadores no se detienen aquí. En el futuro, planean seguir este camino y construir modelos de visión-lenguaje sobre la arquitectura HART. Dado que HART es escalable y generalizable a múltiples modalidades, también quieren aplicarlo para tareas de generación de video y predicción de audio.

Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab, el MIT and Amazon Science Hub, el MIT AI Hardware Program y la Fundación Nacional de Ciencias de EE.UU. La infraestructura GPU para entrenar este modelo fue donada por NVIDIA.

El estudio será presentado en la Conferencia Internacional sobre Representaciones de Aprendizaje, según informan desde el MIT News.

Un paso adelante en la accesibilidad de la IA generativa

Uno de los aspectos más destacables de HART es su capacidad para ejecutarse en dispositivos comunes. A diferencia de muchos modelos de difusión que requieren potentes servidores o procesamiento en la nube, el proceso de generación de HART consume menos recursos computacionales, lo que permite su funcionamiento local en un ordenador portátil comercial o incluso en un smartphone.

El usuario solo necesita introducir una indicación en lenguaje natural en la interfaz de HART para generar una imagen, democratizando así el acceso a herramientas avanzadas de IA generativa.

Esta característica podría acelerar la adopción de tecnologías de generación de imágenes en sectores donde el acceso a infraestructuras computacionales costosas es limitado, como pequeñas empresas creativas, instituciones educativas o países en desarrollo.

En un momento en que la IA generativa está transformando numerosos campos, HART representa un avance significativo hacia sistemas más eficientes, accesibles y prácticos para la generación de contenido visual de alta calidad.

Deja un comentario