Google actualiza Gemini con potentes herramientas de creación y edición de imágenes

Google ha anunciado una significativa mejora en su chatbot de inteligencia artificial Gemini, incorporando nuevas y potentes herramientas de creación y edición de imágenes que permitirán a los usuarios modificar tanto imágenes generadas por IA como fotografías personales subidas desde sus dispositivos.

La compañía anunció esta actualización en un comunicado de blog este miércoles, destacando que el despliegue comenzará gradualmente hoy mismo y se expandirá a más usuarios en las próximas semanas, llegando eventualmente a más de 45 idiomas y la mayoría de países del mundo.

Una edición de imágenes más integrada y contextual

La nueva funcionalidad de Gemini permite a los usuarios realizar modificaciones complejas en imágenes dentro del flujo de conversación del chatbot. Google ha descrito esta actualización como un sistema de edición «multi-paso» que ofrece respuestas «más ricas y contextuales» a cada instrucción, integrando perfectamente texto e imágenes.

Entre las posibilidades que ofrece la herramienta actualizada se encuentran:

Cambiar el fondo de las imágenes
Reemplazar objetos dentro de una imagen
Añadir nuevos elementos a fotografías existentes
Realizar ediciones creativas en fotos personales

«Por ejemplo, puedes subir una foto personal y pedir a Gemini que genere una imagen de cómo te verías con diferentes colores de pelo», explica Google en su publicación. «O podrías pedirle a Gemini que cree un primer borrador de un cuento para dormir sobre dragones y proporcione imágenes para acompañar la historia».

Contexto y evolución de las herramientas de imagen en Google

Esta actualización llega después de que Google implementara un modelo de edición de imágenes por IA en su plataforma AI Studio en marzo, que generó polémica al hacerse viral por su capacidad para eliminar marcas de agua de cualquier imagen, según informa TechCrunch.

La nueva funcionalidad de Gemini se posiciona directamente como competencia a la recientemente mejorada herramienta de generación de imágenes de ChatGPT, desarrollada por OpenAI. Google afirma que su enfoque integrado dentro del flujo de conversación puede lograr mejores resultados que los generadores de imágenes por IA independientes.

Medidas de seguridad ante el riesgo de deepfakes

Una preocupación evidente con estas tecnologías es su potencial uso para crear imágenes manipuladas o «deepfakes» que podrían usarse para desinformar o suplantar identidades. Google parece consciente de este riesgo y ha implementado dos medidas de seguridad:

Marcas de agua invisibles: Todas las imágenes creadas o editadas con la función nativa de generación de imágenes de Gemini incluirán una marca de agua invisible que permitiría identificar su origen.
Experimentación con marcas visibles: La compañía también está probando la implementación de marcas de agua visibles en todas las imágenes generadas por Gemini como medida adicional de transparencia.

Estas precauciones llegan en un momento en que la regulación global sobre inteligencia artificial está en desarrollo, con un énfasis particular en la transparencia sobre el contenido generado por IA.

Un despliegue progresivo a nivel mundial

Google ha señalado que la implementación de esta nueva funcionalidad será gradual. La edición nativa de imágenes en Gemini comenzará a desplegarse hoy mismo, pero la expansión completa a todos los usuarios, en más de 45 idiomas y en la mayoría de países, ocurrirá durante las próximas semanas.

Este enfoque escalonado es habitual en los grandes lanzamientos tecnológicos, permitiendo a la compañía monitorizar el rendimiento del sistema y realizar ajustes antes de su disponibilidad generalizada.

La carrera por dominar las herramientas de IA creativa

Esta actualización de Gemini representa otro movimiento en la intensa competencia entre los grandes actores tecnológicos por dominar el espacio de las herramientas de IA creativa. Google, OpenAI (con ChatGPT), Microsoft y Meta están invirtiendo fuertemente en el desarrollo de capacidades de generación y edición de imágenes impulsadas por inteligencia artificial.

Para los usuarios, esto significa un acceso cada vez más sencillo a herramientas de edición potentes que antes requerían conocimientos especializados o software profesional. La integración de estas capacidades directamente en un chatbot como Gemini simplifica aún más el proceso, permitiendo modificaciones mediante comandos en lenguaje natural.

¿Qué es Gemini?

Para quienes no estén familiarizados, Gemini es el chatbot de inteligencia artificial de Google, anteriormente conocido como Bard. Representa la respuesta de Google a ChatGPT de OpenAI y está basado en los modelos de lenguaje más avanzados de la compañía. Esta plataforma conversacional permite a los usuarios interactuar con la IA a través de texto, imágenes y ahora con capacidades más sofisticadas de edición visual.

Las herramientas de edición de imágenes son solo una parte de las capacidades de Gemini, que también puede responder preguntas, ayudar con tareas creativas, escribir texto y asistir en tareas de programación, entre otras funcionalidades.

Implicaciones futuras

El desarrollo continuo de estas herramientas plantea importantes cuestiones sobre el futuro de la creación de contenido visual. Por un lado, democratizan capacidades que antes requerían conocimientos técnicos significativos. Por otro, plantean desafíos relacionados con la propiedad intelectual, la autenticidad de las imágenes y el potencial uso indebido.

La decisión de Google de implementar sistemas de marcas de agua muestra una conciencia creciente en la industria sobre la necesidad de establecer estándares éticos para las tecnologías generativas, anticipándose a posibles regulaciones más estrictas en el futuro.

A medida que estas herramientas se vuelven más accesibles y potentes, la educación sobre su uso responsable y la capacidad de identificar contenido generado por IA serán habilidades cada vez más importantes tanto para creadores como para consumidores de contenido digital.

Una edición de imágenes más integrada y contextual

Contexto y evolución de las herramientas de imagen en Google

Medidas de seguridad ante el riesgo de deepfakes

Un despliegue progresivo a nivel mundial

La carrera por dominar las herramientas de IA creativa

¿Qué es Gemini?

Implicaciones futuras

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Google actualiza Gemini con potentes herramientas de creación y edición de imágenes

Una edición de imágenes más integrada y contextual

Contexto y evolución de las herramientas de imagen en Google

Medidas de seguridad ante el riesgo de deepfakes

Un despliegue progresivo a nivel mundial

La carrera por dominar las herramientas de IA creativa

¿Qué es Gemini?

Implicaciones futuras

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras