La compañía de inteligencia artificial Krea AI ha anunciado el lanzamiento de una versión de código abierto de su nuevo modelo de generación de imágenes, FLUX.1 Krea [dev]. Desarrollado en colaboración con el prestigioso laboratorio Black Forest Labs, este modelo no solo busca mejorar la calidad y el fotorrealismo, sino que se ha creado con un objetivo muy claro: acabar con el conocido «aspecto de IA» que impregna muchas de las creaciones visuales generadas por algoritmos.
En una publicación detallada en su blog oficial, los ingenieros Sangwu Lee y Erwann Millon explican que su meta desde el principio era simple: «Hacer imágenes de IA que no parezcan de IA». Con esta premisa, han diseñado un modelo que prioriza la estética y la naturalidad por encima de las métricas tradicionales, ofreciendo a la comunidad una herramienta que produce resultados más creativos y menos predecibles.
El problema del «aspecto de IA»
Cualquier persona que haya experimentado con generadores de imágenes como Midjourney, DALL-E o Stable Diffusion probablemente reconocerá ciertos patrones visuales recurrentes: fondos excesivamente desenfocados, pieles con una textura cerosa y poco natural, composiciones simétricas y composiciones de color predecibles. Este conjunto de características es lo que la comunidad ha bautizado como el «AI look» o «aspecto de IA».
Según Krea, este fenómeno es en parte consecuencia de cómo se mide el éxito de los modelos de IA. A menudo, el enfoque se centra en la capacidad técnica: «¿Puede dibujar a un astronauta montando a caballo? ¿Entiende conceptos complejos? ¿Genera texto correctamente?». Para medirlo, la industria se apoya en métricas como el FID (Fréchet Inception Distance) o el CLIP Score, que evalúan la coherencia o la adherencia a un texto.
Sin embargo, desde Krea argumentan que esta optimización de métricas ha dejado de lado la diversidad estilística y la creatividad genuina. Como afirma la ley de Goodhart, citada en su artículo, «cuando una medida se convierte en un objetivo, deja de ser una buena medida».
El equipo también critica los modelos que se usan para valorar la estética, como LAION-Aesthetics. Señalan que estos sistemas, aunque útiles para filtrar imágenes de mala calidad, introducen sesgos significativos. Por ejemplo, tienden a puntuar mejor las imágenes con «fondos borrosos, texturas demasiado suaves e imágenes brillantes», lo que, paradójicamente, refuerza el mismo «aspecto de IA» que se pretende evitar.
Una nueva filosofía: esculpir la IA en lugar de solo entrenarla
Para abordar este desafío, Krea ha adoptado una filosofía de entrenamiento que comparan con el trabajo de un escultor. «La escultura ya está completa dentro del bloque de mármol. (…) Solo tengo que cincelar el material superfluo», decía Miguel Ángel, una cita que Krea utiliza para ilustrar su enfoque.
Este proceso se divide en dos etapas fundamentales:
-
Pre-entrenamiento para la diversidad: En esta primera fase, el objetivo es dotar al modelo de un conocimiento amplio del mundo visual. Se le alimenta con una enorme diversidad de datos sobre objetos, estilos, personas y lugares. Según explican, «el objetivo aquí es maximizar la diversidad». Curiosamente, defienden la inclusión de datos «malos», ya que esto permite al modelo aprender qué es lo que los usuarios no quieren. Así, cuando un usuario utiliza un prompt negativo (instrucciones sobre qué evitar, como «demasiados dedos» o «caras deformadas»), el modelo puede entender y ejecutar esa orden eficazmente.
-
Post-entrenamiento para la estética: Una vez que el modelo tiene una base diversa, comienza la fase de «esculpido». Aquí, el objetivo es «colapsar» esa inmensa distribución de posibilidades hacia una estética concreta y deseable. Se sesga deliberadamente al modelo para que favorezca los resultados de alta calidad que se alinean con la visión artística de Krea.
La base del éxito: una colaboración clave y un modelo «crudo»
Para llevar a cabo este «esculpido» estético, Krea necesitaba un punto de partida adecuado. Muchos de los modelos de código abierto existentes ya están «demasiado cocinados», es decir, han sido tan afinados y post-entrenados que es difícil moldearlos hacia una nueva dirección estética.
Por ello, se asociaron con Black Forest Labs, quienes les proporcionaron un modelo base llamado flux-dev-raw. Se trata de un modelo «crudo» de 12.000 millones de parámetros que, aunque no tenía la calidad de los modelos más avanzados, presentaba tres ventajas clave: un gran conocimiento del mundo, una estructura coherente y, lo más importante, una gran diversidad de resultados sin el «aspecto de IA» predefinido. Era la «materia prima» perfecta para su proyecto.
El proceso de afinado: de la supervisión humana al refuerzo
Con el modelo base en sus manos, el equipo de Krea aplicó un meticuloso proceso de post-entrenamiento en dos fases:
-
Afinamiento Supervisado (SFT – Supervised Finetuning): En primer lugar, seleccionaron a mano un conjunto de datos de altísima calidad que se ajustaba a sus estándares estéticos. Este conjunto también incluía imágenes sintéticas generadas por su modelo interno, Krea-1, para estabilizar el rendimiento.
-
Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF – Reinforcement Learning from Human Feedback): Tras la primera fase, el modelo ya había mejorado significativamente. Para pulir los detalles y clavar la estética deseada, utilizaron RLHF. Este método se basa en datos de preferencia humana, donde etiquetadores internos, con un profundo conocimiento de las fortalezas y debilidades del modelo, seleccionaban las mejores imágenes de entre varias opciones. Este feedback humano se utilizó para «reforzar» las decisiones del modelo hacia los resultados preferidos.
Lecciones aprendidas: calidad sobre cantidad y una visión definida
El desarrollo de FLUX.1 Krea [dev] dejó dos lecciones clave para el equipo, tal y como detallan en su publicación.
La primera es que la calidad de los datos es más importante que la cantidad. Descubrieron que se necesita un conjunto de datos «sorprendentemente pequeño» (menos de un millón de imágenes) para realizar un buen post-entrenamiento, siempre que esos datos sean de una calidad excepcional y estén cuidadosamente seleccionados.
La segunda lección es la importancia de adoptar un enfoque «obstinado» u «opinativo». En lugar de entrenar el modelo con datos de preferencia de miles de usuarios con gustos dispares —lo que, según ellos, lleva a un resultado mediocre que no satisface a nadie—, decidieron alinear el modelo con una dirección artística muy clara y definida por su propio equipo. «Es a menudo mejor y más fácil sobreajustar un modelo hacia un cierto estilo», afirman.
El futuro es personal: próximos pasos para Krea
El lanzamiento de FLUX.1 Krea [dev] es solo el primer paso. La compañía planea seguir mejorando las capacidades del modelo y expandirlo a más dominios visuales. Sin embargo, su objetivo a largo plazo es aún más ambicioso: la personalización.
«Hemos construido un modelo que proporciona una estética obstinada, pero queremos construir algo que sea más personal y adaptado a tu sentido de la estética», concluyen. Su visión es ofrecer a cada creativo un modelo que «haga clic» con su gusto personal y le permita refinar su trabajo de manera intuitiva.
Con la liberación de este modelo, Krea no solo ofrece una nueva herramienta a la comunidad, sino que también abre un debate sobre cómo medimos y valoramos la creatividad en la era de la inteligencia artificial generativa.






