OpenAI pone a disposición de los desarrolladores su generador de imágenes mejorado

Droids

Updated on:

OpenAI pone a disposición de los desarrolladores su generador de imágenes mejorado

OpenAI ha dado un paso importante este miércoles al lanzar para desarrolladores la tecnología detrás de su reciente y mejorado generador de imágenes a través de su API. Esta herramienta, que inicialmente se implementó en ChatGPT a finales de marzo, permitirá ahora a los desarrolladores integrar estas capacidades avanzadas de generación de imágenes en sus propias aplicaciones y servicios.

Un generador que se hizo viral

El generador de imágenes de OpenAI causó sensación al debutar en ChatGPT. Como informó TechCrunch, la herramienta se hizo viral rápidamente por su capacidad para crear realistas fotografías al estilo Studio Ghibli y lo que se denominó «figuras de acción de IA». Este éxito inmediato supuso tanto una bendición como un desafío para OpenAI, atrayendo millones de nuevos usuarios a ChatGPT pero también poniendo a prueba la capacidad de sus sistemas.

Según los datos compartidos por la compañía, más de 130 millones de usuarios de ChatGPT crearon más de 700 millones de imágenes durante solo la primera semana tras su lanzamiento, cifras que demuestran el enorme interés que despertó esta funcionalidad.

El modelo detrás de la tecnología

En la API de OpenAI, esta capacidad de generación de imágenes está impulsada por un modelo de IA denominado «gpt-image-1». Se trata de un modelo nativamente multimodal, lo que significa que puede:

  • Crear imágenes en diferentes estilos
  • Seguir instrucciones personalizadas
  • Aprovechar conocimiento general del mundo
  • Renderizar texto dentro de las imágenes generadas

Los desarrolladores podrán generar múltiples imágenes simultáneamente utilizando gpt-image-1, así como controlar la calidad de la generación —y, por tanto, la velocidad del proceso.

Seguridad y protecciones integradas

OpenAI ha enfatizado que gpt-image-1 emplea las mismas protecciones que la función de generación de imágenes en ChatGPT, incluyendo salvaguardas que restringen al modelo para que no genere contenido que infrinja las políticas de la empresa.

Los desarrolladores tendrán la posibilidad de controlar la sensibilidad de la moderación, que puede configurarse en modo «automático» para un filtrado estándar o en «bajo» para un filtrado menos restrictivo. Según la documentación proporcionada a TechCrunch, el filtrado bajo limita menos categorías de contenido potencialmente inapropiado para menores.

Un aspecto importante a destacar es que todas las imágenes creadas con gpt-image-1 son marcadas con metadatos C2PA, lo que permite identificarlas como generadas por IA en plataformas y aplicaciones compatibles.

Estructura de precios

OpenAI ha establecido la siguiente estructura de precios para el uso de gpt-image-1:

  • 5 dólares (aproximadamente 4,60€) por millón de tokens de entrada para texto
  • 10 dólares (aproximadamente 9,20€) por millón de tokens de entrada para imágenes
  • 40 dólares (aproximadamente 36,80€) por millón de tokens de salida para imágenes

Según los cálculos de OpenAI, esto se traduce aproximadamente en:

  • 2 centavos de dólar (unos 1,8 céntimos de euro) por imagen cuadrada de baja calidad
  • 7 centavos de dólar (unos 6,4 céntimos de euro) por imagen de calidad media
  • 19 centavos de dólar (unos 17,5 céntimos de euro) por imagen de alta calidad

Los tokens son las unidades básicas de datos que procesa el modelo, funcionando como fragmentos de información tanto para la entrada como para la salida.

Empresas que ya lo utilizan

Varias empresas importantes ya están utilizando o experimentando con gpt-image-1, según ha informado OpenAI. Entre ellas se encuentran Adobe, Airtable, Wix, Instacart, GoDaddy, Canva y Figma.

Por ejemplo, la plataforma Figma Design ahora permite a los usuarios generar y editar imágenes mediante gpt-image-1, mientras que Instacart está probando el modelo para generar imágenes para recetas y listas de compra, lo que demuestra la versatilidad de la tecnología en diferentes contextos y aplicaciones.

Implicaciones para desarrolladores y el futuro de las imágenes generadas por IA

Este lanzamiento representa una oportunidad significativa para los desarrolladores que desean incorporar capacidades avanzadas de generación de imágenes en sus aplicaciones sin tener que entrenar sus propios modelos, un proceso que requiere enormes recursos computacionales y expertise técnico.

La disponibilidad de gpt-image-1 a través de la API democratiza el acceso a esta tecnología, permitiendo que empresas de todos los tamaños puedan implementar soluciones de generación de imágenes por IA. Sin embargo, también plantea preguntas sobre cómo se gestionarán los aspectos relacionados con los derechos de autor y la autenticidad del contenido visual en un entorno donde crear imágenes fotorrealistas es cada vez más accesible.

OpenAI continúa liderando la carrera en el desarrollo de modelos de IA generativa, y este movimiento fortalece su posición en el competitivo mercado de generación de imágenes por IA, donde compite con otros gigantes tecnológicos y startups especializadas.

La integración de estas capacidades en aplicaciones populares probablemente acelerará la adopción de imágenes generadas por IA en diversos sectores, desde el diseño y la publicidad hasta el comercio electrónico y la educación, cambiando la forma en que creamos y consumimos contenido visual.

Al poner esta tecnología en manos de los desarrolladores, OpenAI está ampliando el ecosistema de aplicaciones basadas en IA generativa, al tiempo que refuerza la importancia de los mecanismos para identificar contenido generado artificialmente mediante el uso de metadatos C2PA y otras técnicas de marcado.

Deja un comentario