Google DeepMind presenta Genie 3, modelo de IA capaz de generar mundos 3D interactivos por minutos

Droids

Updated on:

Google DeepMind reveló Genie 3, su último modelo fundacional de mundo que puede generar entornos 3D interactivos durante varios minutos a partir de simples indicaciones de texto, según anunció el laboratorio de inteligencia artificial el 5 de agosto de 2025.

«Genie 3 es el primer modelo de mundo interactivo en tiempo real de propósito general», afirmó Shlomi Fruchter, director de investigación de DeepMind, durante una sesión informativa. El modelo «va más allá de los modelos de mundo limitados que existían antes» y «no es específico de ningún entorno particular», añadió Fruchter.

El nuevo modelo genera múltiples minutos de entornos 3D interactivos a 720p de resolución y 24 fotogramas por segundo, un salto significativo respecto a los 10-20 segundos que podía producir su predecesor, Genie 2. Según DeepMind, Genie 3 puede crear tanto mundos fotorrealistas como imaginarios.

Una característica distintiva son los «eventos de mundo activables por indicaciones», que permiten modificar el mundo generado mediante comandos de texto. El modelo mantiene consistencia física a lo largo del tiempo porque puede recordar lo que ha generado previamente, una capacidad que DeepMind dice no haber programado explícitamente.

«El verdadero potencial se manifestará en el entrenamiento de agentes para tareas de propósito general», declaró Fruchter, quien añadió que esto «es indispensable para alcanzar la AGI» (inteligencia artificial general).

Jack Parker-Holder, científico investigador del equipo de apertura de DeepMind, explicó: «Los modelos de mundo son vitales en el camino hacia la AGI, específicamente para agentes corporalizados, donde simular escenarios del mundo real es particularmente desafiante».

Genie 3 se basa en Veo 3, el último modelo de generación de video de DeepMind. Al igual que Veo, no depende de un motor de física programado. «El modelo es autorregresivo, lo que significa que genera un fotograma a la vez», explicó Fruchter a TechCrunch. «Tiene que mirar hacia atrás a lo que se generó antes para decidir qué sucederá después».

DeepMind probó Genie 3 con SIMA (Agente Multiworld Escalable e Instruible), su agente generalista más reciente. En una prueba en un entorno de almacén, SIMA logró completar objetivos como «acercarse al compactador de basura verde brillante» o «caminar hacia la carretilla elevadora roja empaquetada». «En los tres casos, el agente SIMA pudo lograr el objetivo», señaló Parker-Holder, atribuyéndolo a que «Genie 3 permanece consistente».

El modelo presenta limitaciones. Una demostración de un esquiador no reflejó movimiento preciso de la nieve. El rango de acciones que puede realizar un agente es limitado, los eventos activables por indicaciones no necesariamente los realiza el propio agente, y modelar interacciones complejas entre múltiples agentes independientes sigue siendo difícil. Además, Genie 3 solo puede soportar unos minutos de interacción continua, mientras que serían necesarias horas para un entrenamiento adecuado.

«No hemos tenido realmente un momento Movimiento 37 para agentes corporalizados todavía, donde puedan tomar acciones novedosas en el mundo real», comentó Parker-Holder, refiriéndose al momento simbólico del juego de Go de 2016 entre AlphaGo de DeepMind y Lee Sedol. «Pero ahora, podemos potencialmente inaugurar una nueva era».

Genie 3 está actualmente en vista previa de investigación y no está disponible públicamente.

Este desarrollo llega mientras Google está formando un nuevo equipo liderado por Tim Brooks, ex colíder del generador de video Sora de OpenAI, para trabajar en modelos de IA que puedan simular el mundo físico. El equipo colaborará con los equipos de Gemini, Veo y Genie de Google para abordar «nuevos problemas críticos» y escalar modelos «a los niveles más altos de cómputo».