Google presenta un nuevo modo de voz para Gemini capaz de mantener conversaciones fluidas

Droids

Updated on:

En su conferencia anual para desarrolladores Google I/O, el gigante tecnológico ha desvelado una importante actualización para su inteligencia artificial, Gemini. La nueva versión introduce un modo de voz que permite mantener conversaciones naturales, en tiempo real y con capacidad de «ver» a través de la cámara del móvil, en un claro paso para competir directamente con las recientes innovaciones de OpenAI.

La interacción con los asistentes de voz está a punto de cambiar radicalmente. Lejos de las respuestas robóticas y las pausas incómodas a las que estamos acostumbrados, Google ha mostrado un futuro donde conversar con una IA será tan fluido como hacerlo con una persona. Durante su evento principal, la compañía presentó una nueva capacidad para Gemini que no solo responde preguntas, sino que comprende el contexto visual, recuerda interacciones pasadas y permite un diálogo dinámico y sin interrupciones, muy al estilo de lo que la ciencia ficción, en películas como Her, nos había adelantado.

Una conversación casi humana: así funciona el nuevo Gemini

La principal novedad es la capacidad de Gemini para procesar información de manera multimodal en tiempo real. Este término, que puede sonar técnico, significa simplemente que la IA puede comprender y combinar simultáneamente diferentes tipos de datos: lo que escucha (nuestra voz), lo que ve (a través de la cámara) y la información que ya posee (texto y datos). El resultado es una experiencia de conversación sorprendentemente natural.

Según lo mostrado en las demostraciones oficiales de Google, un usuario puede iniciar una conversación con Gemini y, mientras la IA responde, interrumpirla para hacer una nueva pregunta o añadir información. El sistema es capaz de detenerse y reorientar su respuesta al instante, sin perder el hilo.

En uno de los ejemplos, se le pidió a Gemini que ayudara a un usuario a prepararse para una entrevista de trabajo. El asistente no solo dio consejos, sino que utilizó la cámara frontal del móvil para analizar el entorno y sugerir una ubicación con mejor iluminación para una videollamada. En otra demostración, la IA fue capaz de identificar un barrio de Londres simplemente mirando un mapa que el usuario le mostraba y ofreciendo datos de interés sobre la zona.

Estas capacidades se sustentan en una latencia —el tiempo de respuesta— casi inexistente, lo que elimina las pausas artificiales y crea un flujo de diálogo constante. Como señaló el CEO de Google, Sundar Pichai, el objetivo es «hacer la interacción más intuitiva y útil», transformando el asistente en un verdadero compañero inteligente.

Project Astra: el futuro de los asistentes según Google

Más allá de la actualización inmediata de Gemini, Google ofreció un vistazo a su proyecto más ambicioso: Project Astra. Presentado por Demis Hassabis, CEO de Google DeepMind, este proyecto representa la visión de la compañía para la próxima generación de asistentes de IA. El objetivo de Astra es ser un «agente universal» capaz de ayudar en las tareas cotidianas de una forma proactiva y contextual.

La demostración de Project Astra fue uno de los momentos más impactantes del evento. En un vídeo grabado en una sola toma, un usuario recorría una oficina mientras interactuaba con el asistente a través de su móvil. La IA fue capaz de:

  • Identificar objetos y su función: Reconoció un altavoz y señaló uno de sus componentes clave.
  • Interpretar código: Analizó unas líneas de código en una pantalla y explicó para qué servían.
  • Resolver acertijos visuales: Creó una historia sobre unos objetos que estaban en un escritorio.
  • Tener memoria contextual: Lo más sorprendente fue cuando el usuario preguntó: «¿Recuerdas dónde viste mis gafas?». La IA, recordando haberlas visto minutos antes sobre un escritorio, respondió correctamente sobre su ubicación.

«Hemos querido construir un agente de IA universal que pueda ser realmente útil en la vida diaria», explicó Hassabis. Project Astra, aunque todavía en fase de prototipo, muestra un camino claro hacia asistentes que no solo responden a nuestras órdenes, sino que entienden nuestro mundo y nos asisten de forma inteligente.

La carrera de la IA se acelera: Google responde a OpenAI

El momento elegido por Google para este anuncio no es casual. Apenas un día antes, su principal competidor, OpenAI, había presentado GPT-4o, un nuevo modelo con capacidades de conversación de voz y visión muy similares. La demostración de OpenAI también mostró una IA capaz de mantener conversaciones fluidas, detectar emociones en la voz y analizar su entorno a través de la cámara.

Esta sucesión de anuncios pone de manifiesto la feroz competencia que se vive en el sector de la inteligencia artificial. Ambas compañías están compitiendo por ofrecer el asistente más avanzado, natural y útil, en una carrera tecnológica que avanza a un ritmo vertiginoso. Para el usuario, esta rivalidad se traduce en un acceso cada vez más rápido a tecnologías que hasta hace poco parecían reservadas a la ciencia ficción.

Disponibilidad y próximos pasos

Aunque las demostraciones han generado una gran expectación, Google ha aclarado que la implementación de estas nuevas funciones será gradual. Las capacidades de conversación de voz mejoradas comenzarán a llegar a un grupo reducido de probadores en los próximos meses, para después expandirse a los suscriptores de Gemini Advanced, el plan de pago de la compañía.

A largo plazo, la intención de Google es integrar estas potentes capacidades multimodales en todo su ecosistema de productos. Esto significa que, en el futuro, podríamos ver versiones más inteligentes de esta IA en el sistema operativo Android, en el Buscador de Google e incluso en dispositivos como las gafas inteligentes. El objetivo final es que la tecnología se vuelva invisible y la interacción con nuestros dispositivos sea, por fin, verdaderamente conversacional.

Deja un comentario