Midjourney lanza V7, su primer nuevo modelo de generación de imágenes con IA en casi un año

Droids

Updated on:

Midjourney lanza V7, su primer nuevo modelo de generación de imágenes con IA en casi un año

Midjourney, una de las primeras plataformas de generación de imágenes basadas en inteligencia artificial, ha presentado su nuevo modelo V7, el primero que lanza en casi un año. Este lanzamiento llega apenas una semana después de que OpenAI presentara su nuevo generador de imágenes en ChatGPT, que se viralizó rápidamente por su capacidad para crear imágenes al estilo Studio Ghibli.

El modelo V7 comenzó a implementarse en versión alfa alrededor de la medianoche (hora del este de EE.UU.) del jueves 3 de abril, según informó TechCrunch.

Una arquitectura completamente renovada

David Holz, CEO de Midjourney, describió V7 como una "arquitectura totalmente diferente" en una publicación en X. Este nuevo modelo presenta mejoras significativas respecto a sus versiones anteriores, especialmente en la comprensión de textos y la calidad de imagen.

"V7 es mucho más inteligente con las instrucciones de texto", explicó Holz en un anuncio en Discord. "Las imágenes indicadas se ven fantásticas, la calidad de imagen es notablemente superior con texturas hermosas, y los cuerpos, manos y objetos de todo tipo tienen una coherencia significativamente mejor en todos los detalles".

Personalización como elemento distintivo

Una característica destacada de V7 es que será el primer modelo de Midjourney en tener la personalización activada por defecto. Para utilizarlo, los usuarios primero deberán calificar aproximadamente 200 imágenes para crear un "perfil de personalización" que ajustará el modelo a sus preferencias visuales individuales.

Una vez completado este proceso, los usuarios podrán activar o desactivar V7 tanto en el sitio web de Midjourney como en su chatbot de Discord, si son miembros del servidor de Discord de la empresa. En la aplicación web, pueden seleccionar rápidamente el modelo desde el menú desplegable junto a la etiqueta "versión".

Dos variantes y un nuevo modo de borrador

V7 está disponible en dos variantes:

  • Turbo: La versión más costosa de ejecutar
  • Relax: Una alternativa más económica

Además, el modelo impulsa una nueva herramienta llamada Draft Mode (Modo Borrador) que renderiza imágenes 10 veces más rápido y a mitad de coste que el modo estándar. Las imágenes en modo borrador son de menor calidad, pero pueden mejorarse y volver a renderizarse con un solo clic.

Interfaz de Midjourney V7

Sin embargo, varias funciones estándar de Midjourney aún no están disponibles para V7, incluyendo el escalado de imágenes y el retexturizado. Según Holz, estas características llegarán en un futuro próximo, posiblemente en los próximos dos meses.

"Este es un modelo completamente nuevo con fortalezas únicas y probablemente algunas debilidades", escribió Holz en Discord. "Queremos aprender de ustedes en qué es bueno y malo, pero definitivamente tengan en cuenta que puede requerir diferentes estilos de instrucciones. Así que experimenten un poco".

Una empresa con un modelo de negocio poco convencional

Midjourney representa un caso inusual en el sector tecnológico. Fundada en 2022 por Holz, quien anteriormente cofundó la empresa de periféricos para PC Leap Motion, no ha recaudado ni un céntimo de financiación externa.

A finales de 2023, se informó que Midjourney esperaba generar alrededor de 200 millones de dólares (aproximadamente 185 millones de euros) en ingresos. Recientemente, la empresa con sede en San Francisco anunció que estaba formando un equipo de hardware para trabajar en proyectos que no ha detallado, y continúa entrenando modelos anunciados previamente para generación de vídeo y objetos 3D.

Desafíos legales en el horizonte

A pesar de su éxito comercial, la compañía enfrenta varias demandas que la acusan de infringir los derechos de millones de artistas al entrenar herramientas de IA con imágenes extraídas de la web sin el consentimiento de los creadores de esas imágenes.

Estos desafíos legales son similares a los que enfrentan otras empresas de IA generativa y reflejan la creciente tensión entre el avance tecnológico y los derechos de propiedad intelectual en el ámbito digital.

Competencia en el sector de la IA generativa

El lanzamiento de V7 llega en un momento en que la competencia en el sector de la generación de imágenes con IA se intensifica. Apenas una semana antes, OpenAI presentó un nuevo generador de imágenes en ChatGPT que rápidamente se viralizó por su capacidad para crear fotos al estilo Ghibli.

Aunque el modelo de Midjourney no está oficialmente optimizado para imitar el estilo Ghibli, puede generar obras estéticamente agradables según las primeras impresiones.

Personaje estilo Ghibli generado con Midjourney V7

En las pruebas iniciales realizadas por TechCrunch, V7 se adhirió razonablemente bien a las instrucciones proporcionadas, aunque el reportero señaló que no tuvo tiempo para poner el modelo a prueba exhaustivamente.

Perspectivas futuras

Con el lanzamiento de V7, Midjourney reafirma su posición en el competitivo mercado de IA generativa. Las mejoras en la comprensión de texto, calidad de imagen y coherencia en los detalles podrían dar a la empresa una ventaja significativa.

Sin embargo, los desafíos legales relacionados con los derechos de autor y la creciente competencia de empresas como OpenAI plantean interrogantes sobre el futuro a largo plazo de la compañía. La capacidad de Midjourney para innovar mientras navega por estas aguas turbulentas determinará en gran medida su éxito continuo en el sector.

El desarrollo de equipos de hardware y modelos para generación de vídeo y objetos 3D sugiere que la empresa está diversificando sus ofertas, preparándose potencialmente para un futuro más allá de la simple generación de imágenes estáticas.

Deja un comentario