OpenAI ha dado un importante paso adelante en su oferta de inteligencia artificial al integrar nuevas capacidades de generación de imágenes directamente en ChatGPT. Esta actualización, denominada "Images in ChatGPT", permite a los usuarios utilizar el modelo GPT-4o para crear imágenes dentro de la propia interfaz de ChatGPT, sin necesidad de herramientas adicionales.
La nueva funcionalidad ya está disponible para todos los niveles de suscripción, incluyendo ChatGPT Plus, Pro, Team y la versión gratuita, aunque con limitaciones de uso en esta última.
Una nueva generación de imágenes con GPT-4o
Esta actualización representa un avance significativo respecto a las capacidades anteriores de generación de imágenes de OpenAI. Según Gabriel Goh, líder de investigación de la compañía, "este modelo supone un cambio radical respecto a los modelos anteriores", según declaró a The Verge. El equipo ha utilizado la base "omnimodal" de GPT-4o —un modelo capaz de generar cualquier tipo de datos como texto, imagen, audio y vídeo— para desarrollar esta función.
La versión gratuita mantendrá limitaciones similares a las que existían con DALL-E. Según Taya Christianson, portavoz de OpenAI, los límites son los mismos que con DALL-E, aunque no especificó un número concreto, indicando que "estos pueden cambiar con el tiempo según la demanda". Anteriormente, como indica el FAQ de ChatGPT, los usuarios gratuitos podían generar "tres imágenes al día con DALL-E 3".
Para los usuarios de DALL-E, Christianson aseguró que "los fans seguirán teniendo acceso a través de un GPT personalizado".
Mejoras significativas en la generación de imágenes
Mejor "binding" de atributos y objetos
Una de las mejoras más notables es lo que el equipo llama "binding", que se refiere a la capacidad del modelo para mantener relaciones correctas entre atributos y objetos. Los modelos de generación de imágenes tradicionales suelen confundirse cuando se les pide crear múltiples objetos con diferentes atributos, mezclando colores y formas cuando se trata de entre 5 y 8 elementos.
Goh afirma que esta nueva herramienta puede asociar correctamente atributos para 15-20 objetos sin confusión, lo que representa una mejora significativa en precisión y fiabilidad.
Renderización de texto mejorada
Otra mejora importante es la renderización de texto en las imágenes generadas. Los usuarios de herramientas de IA generativa saben que uno de los problemas más comunes es que el texto en imágenes generadas suele aparecer distorsionado o con errores.
"Fue un proceso de iteración que llevó muchos, muchos meses para hacerlo bien", explicó Goh. Aunque reconoce que no es perfecto, especialmente con texto muy pequeño, el equipo ha alcanzado un punto donde la calidad del texto es consistentemente utilizable.
La tecnología detrás de la nueva función
A diferencia de la mayoría de generadores de imágenes (como DALL-E) que utilizan modelos de difusión que crean toda la imagen a la vez, este sistema emplea un enfoque autoregresivo, generando imágenes secuencialmente de izquierda a derecha y de arriba a abajo, similar a cómo se escribe un texto.
Goh especula que esta diferencia técnica podría ser lo que proporciona a Images in ChatGPT mejores capacidades de renderización de texto y binding.
Demostraciones y aplicaciones prácticas
Durante una presentación previa al lanzamiento de la función, el equipo mostró varios ejemplos que demostraban las capacidades del sistema, incluyendo:
- Diagramas científicos, como el experimento del prisma de Newton con componentes correctamente etiquetados
- Cómics de varios paneles con personajes consistentes y burbujas de texto
- Pósters informativos con texto preciso
- Imágenes con fondos transparentes para pegatinas
- Menús de restaurantes y logotipos
Jackie Shannon, líder de producto multimodal de ChatGPT, destacó la ventaja de combinar la generación de imágenes con el conocimiento del mundo: "Si voy a dibujar una imagen, lo hago con la limitación de mi propia habilidad… pero también con todo el conocimiento del mundo que he acumulado. El modelo aporta conocimiento del mundo a la ecuación, por lo que cuando pides una imagen del experimento del prisma de Newton, no tienes que explicar qué es para obtener una imagen de vuelta".
Tiempo de generación y calidad
El nuevo sistema tarda más en generar imágenes que antes, aunque OpenAI sugiere que este compromiso vale la pena. "Aunque ciertamente tenemos margen para mejorar la latencia… la calidad de estas imágenes, la capacidad, el conocimiento del mundo, realmente compensa los segundos adicionales que pasarán esperando", señaló Shannon.
Salvaguardas y consideraciones éticas
Ante preguntas sobre las salvaguardas —recordando casos problemáticos como los deepfakes desnudos de Taylor Swift generados usando un modelo de Microsoft— el equipo de OpenAI enfatizó que el sistema incluye robustas protecciones para prevenir el mal uso.
Shannon explicó que la herramienta evita la eliminación de marcas de agua, bloquea la generación de deepfakes sexuales y rechaza solicitudes de generación de CSAM (material de abuso sexual infantil).
El nuevo sistema de generación de imágenes de OpenAI no incluye marcas de agua visuales o indicadores que muestren que las imágenes son generadas por IA. Sin embargo, Shannon explicó que "todas nuestras imágenes generadas incluirán metadatos C2PA estándar para marcar la imagen como creada por OpenAI" y la compañía "tendrá algunas herramientas internas para poder buscar imágenes también".
"En última instancia, ningún sistema es perfecto para este tipo de cosas, pero estamos mejorando continuamente nuestras salvaguardas y consideramos esto como un punto de partida", añadió Shannon. "Una cosa que es cierta sobre todas las imágenes generadas desde ChatGPT es que el usuario es propietario de ellas y puede utilizarlas libremente dentro de los límites de nuestras políticas de uso como desee".
Una nueva era para la generación de imágenes con IA
Esta integración marca un avance significativo en las capacidades de ChatGPT y refleja la evolución continua de los modelos de IA generativa de OpenAI. Las mejoras en la representación de texto y la capacidad de binding abren nuevas posibilidades para creadores, diseñadores y usuarios cotidianos que buscan generar imágenes más precisas y útiles.
Con esta actualización, OpenAI continúa consolidando su posición como líder en el desarrollo de IA generativa, ofreciendo herramientas cada vez más potentes y accesibles para la creación de contenido visual.