Google lanza Imagen 4, su nueva IA para crear imágenes que promete revolucionar la calidad y la precisión

Droids

Updated on:

Google ha anunciado el lanzamiento de Imagen 4, su generación más reciente y potente de modelos de inteligencia artificial capaces de crear imágenes a partir de descripciones de texto. Esta nueva herramienta ya está disponible en una versión preliminar para desarrolladores a través de la API de Gemini y en la plataforma Google AI Studio, marcando un paso significativo en la carrera por alcanzar el fotorrealismo y la coherencia en el contenido generado por IA.

El anuncio, publicado en el blog oficial para desarrolladores de Google, destaca que Imagen 4 no solo mejora la calidad general de la imagen, sino que resuelve uno de los mayores desafíos para este tipo de tecnología: la capacidad de renderizar texto legible y coherente dentro de las propias imágenes. Este avance abre un nuevo abanico de posibilidades para creativos, diseñadores y empresas que dependen de la fusión de elementos visuales y textuales.

Un salto cualitativo en la generación de imágenes por IA

La tecnología de «texto a imagen» permite a cualquier usuario describir una escena con palabras y obtener una representación visual creada por una inteligencia artificial. Sin embargo, hasta ahora, la mayoría de los modelos mostraban dificultades para generar texto claro y sin errores ortográficos o formales dentro de las imágenes, como en carteles, logotipos o etiquetas.

Según el equipo de Google, compuesto por los Product Managers Alisa Fortin y Seth Odoom, y el Developer Advocate Guillaume Vernade, Imagen 4 ofrece «mejoras significativas en la renderización de texto» en comparación con sus predecesores. Esto significa que los usuarios pueden solicitar imágenes que incluyan frases, nombres o mensajes específicos con una probabilidad mucho mayor de que el resultado sea correcto y estéticamente integrado. Este avance es crucial para aplicaciones como la creación de material publicitario, prototipos de diseño de producto o ilustraciones para contenido editorial.

Google presenta a Imagen 4 como su «mejor modelo de texto a imagen hasta la fecha», una afirmación que busca posicionarlo como un competidor directo de otras herramientas líderes en el mercado, como Midjourney o DALL-E 3 de OpenAI.

Dos modelos para cada necesidad: Imagen 4 e Imagen 4 Ultra

Para adaptarse a las distintas exigencias de los creadores, Google ha lanzado dos variantes dentro de la familia Imagen 4.

Imagen 4: Es el modelo insignia, diseñado para ser un todoterreno capaz de gestionar una amplia gama de tareas de generación de imágenes. Según Google, ofrece una calidad superior a la de Imagen 3 y es la opción recomendada para la mayoría de los proyectos que no requieren una precisión extrema.

Imagen 4 Ultra: Esta es la versión premium, optimizada para un objetivo clave: la fidelidad al prompt. Un prompt es la instrucción de texto que el usuario proporciona a la IA. Imagen 4 Ultra está diseñado para interpretar y ejecutar estas instrucciones de manera mucho más precisa, incluso cuando son muy detalladas o complejas. Esto lo convierte en la herramienta ideal para profesionales que necesitan que el resultado final se ajuste con exactitud a su visión, desde directores de arte hasta ilustradores de cómics.

Acceso y precios para desarrolladores y creativos

Actualmente, Imagen 4 se encuentra en una fase de «vista previa de pago» (paid preview) a través de la API de Gemini, lo que permite a los desarrolladores integrarlo en sus propias aplicaciones y servicios. Además, se ofrece un periodo de «pruebas gratuitas limitadas» en la plataforma Google AI Studio, un entorno web donde los usuarios pueden experimentar directamente con el modelo.

Los precios iniciales se han fijado por imagen generada, una estructura de costes transparente para los usuarios. Según la página de precios de la API de Gemini, los costes son:

  • Imagen 4: 0,04 dólares por imagen (aproximadamente 0,04 euros).
  • Imagen 4 Ultra: 0,06 dólares por imagen (aproximadamente 0,06 euros).

Google ha adelantado que introducirá «niveles de facturación adicionales en las próximas semanas» y que los desarrolladores que necesiten un volumen de generación más alto pueden solicitar un aumento en sus límites de uso. Se espera que los modelos pasen a estar disponibles de forma generalizada en un futuro próximo.

Transparencia y responsabilidad con la tecnología SynthID

Consciente del debate en torno a la autenticidad del contenido digital, Google ha reafirmado su compromiso con la IA responsable. Todas las imágenes creadas con los modelos de Imagen 4 incorporarán SynthID, una tecnología de marca de agua digital que es imperceptible para el ojo humano pero detectable por herramientas específicas.

Esta marca de agua permite verificar si una imagen ha sido generada por una inteligencia artificial de Google, ayudando a combatir la desinformación y a proporcionar transparencia sobre el origen del contenido. A diferencia de las marcas de agua visibles, SynthID está diseñada para resistir modificaciones comunes como recortes, cambios de color o compresiones, lo que la convierte en una solución más robusta.

Demostración de poder: las capacidades de Imagen 4 en acción

Para ilustrar el potencial de su nuevo modelo, Google ha compartido varios ejemplos generados con Imagen 4 Ultra que demuestran su versatilidad. Uno de ellos es un complejo cómic de ciencia ficción de tres paneles que incluye texto en las consolas de una nave espacial («ANOMALY DETECTED», «WARNING!», «EVADE!»), demostrando la mejora en la renderización de texto.

Otros ejemplos incluyen una postal vintage de Kioto, una fotografía hiperrealista de una pareja en la cima de una montaña y una editorial de moda de vanguardia con una estética surrealista. Estos casos de uso subrayan la capacidad del modelo para adaptarse a diferentes estilos artísticos e interpretar conceptos abstractos y detallados con gran precisión.

Con este lanzamiento, Google no solo pone a disposición de la comunidad creativa una herramienta más potente, sino que también eleva el listón de lo que se puede esperar de la inteligencia artificial generativa, especialmente en la delicada simbiosis entre imagen y palabra.