Midjourney, conocida principalmente por su popular generador de imágenes con inteligencia artificial, ha dado un paso sorprendente al expandir sus horizontes hacia el ámbito de la escritura creativa. En colaboración con expertos en aprendizaje automático de la Universidad de Nueva York (NYU), la empresa ha publicado una investigación que presenta nuevas técnicas para lograr que los modelos de lenguaje de gran tamaño (LLMs) escriban de manera más creativa y diversa.
La investigación, publicada en la comunidad de código AI Hugging Face, introduce dos técnicas innovadoras: Optimización de Preferencias Directas Diversificada (DDPO) y Optimización de Preferencias de Ratio de Probabilidades Diversificada (DORPO).
Midjourney expande su horizonte más allá de las imágenes
Con cerca de 20 millones de usuarios en su canal de Discord, según rastreadores independientes, Midjourney se ha consolidado como uno de los principales generadores de imágenes con IA. Sin embargo, sus ambiciones parecen ir mucho más allá. Esta nueva investigación se produce después de que anunciara a finales del verano de 2024 que estaba desarrollando su propio hardware y computación para IA.
La entrada de Midjourney en el campo de la mejora de los modelos de lenguaje plantea una pregunta interesante: ¿podría la empresa estar preparando su propio LLM o una versión perfeccionada de un modelo existente? Aunque VentureBeat intentó contactar con el fundador de Midjourney, David Holz, no recibió respuesta.
Lo cierto es que las implicaciones de esta investigación trascienden el ámbito académico y podrían impulsar una nueva ola de entrenamiento de LLMs entre equipos empresariales de IA, desarrolladores de productos y creadores de contenido que buscan mejorar el texto generado por IA.
El problema de la homogeneidad en la escritura generada por IA
Uno de los principales problemas que aborda la investigación es la tendencia de los LLMs a generar respuestas homogéneas cuando se les pide realizar tareas creativas. A diferencia de ámbitos como la programación o las preguntas basadas en hechos, donde se espera una única respuesta correcta, la escritura creativa es inherentemente abierta a múltiples interpretaciones.
Por ejemplo, ante un prompt como "Escribe una historia sobre un perro en la luna", un LLM podría explorar diversos caminos narrativos:
- La mascota de un astronauta accidentalmente abandonada tras una misión lunar.
- Un perro que se encuentra en una futurista colonia espacial canina.
- Un perro varado que se hace amigo de una especie alienígena.
Sin embargo, los LLMs actuales tienden a converger en narrativas similares debido a tres factores principales:
- Las técnicas de entrenamiento posteriores priorizan la preferencia del usuario sobre la originalidad.
- El ajuste por instrucciones suele suavizar la variación, haciendo que los modelos prefieran respuestas "seguras".
- Las técnicas existentes para promover la diversidad (como el ajuste de temperatura) solo operan en el momento de la inferencia, no durante el aprendizaje del modelo.
Esto conduce a una narración homogeneizada, donde la escritura creativa generada por IA resulta repetitiva y carece de sorpresa o profundidad.
¿Cómo funcionan las nuevas técnicas?
Para superar estas limitaciones, los investigadores introdujeron DDPO y DORPO, dos extensiones de los métodos existentes de optimización de preferencias. La innovación central en estos enfoques es el uso de la desviación —una medida de cuánto difiere una respuesta de otras— para guiar el entrenamiento.
El proceso funciona así:
- Durante el entrenamiento, se da al modelo un prompt de escritura y múltiples respuestas posibles.
- Cada respuesta se compara con otras para el mismo prompt, y se calcula una puntuación de desviación.
- Las respuestas raras pero de alta calidad reciben mayor peso en el entrenamiento, animando al modelo a aprender de ejemplos diversos.
Al incorporar la desviación en los métodos existentes, el modelo aprende a producir respuestas de alta calidad pero más variadas, asegurando que las historias generadas por IA no converjan en una estructura predecible.
Metodología y resultados de la investigación
El estudio implicó entrenar LLMs en tareas de escritura creativa utilizando un conjunto de datos del subreddit r/writingPrompts, una comunidad de Reddit donde los usuarios publican prompts y responden con relatos cortos.
Los investigadores utilizaron dos modelos base:
- Llama-3.1-8B de Meta (un modelo de 8 mil millones de parámetros)
- Mistral-7B-v0.3 de Mistral AI (un modelo de 7 mil millones de parámetros)
Estos modelos pasaron por los siguientes procesos:
- Ajuste fino supervisado (SFT): Los modelos fueron primero ajustados utilizando LoRA (Adaptación de Bajo Rango) para modificar parámetros eficientemente.
- Optimización de preferencias:
- DPO y ORPO se usaron como líneas base
- DDPO y DORPO se aplicaron posteriormente, introduciendo ponderación basada en desviación
La evaluación se realizó mediante métodos automáticos, midiendo la diversidad semántica y estilística, y mediante evaluación humana, donde jueces evaluaron si las salidas eran diversas y atractivas en comparación con GPT-4o y Claude 3.5.
Los resultados fueron reveladores:
- DDPO superó significativamente al DPO estándar en términos de diversidad de salida manteniendo la calidad.
- Llama-3.1-8B con DDPO logró el mejor equilibrio entre calidad y diversidad, produciendo respuestas más variadas que GPT-4o mientras mantenía la coherencia.
- Incluso con conjuntos de datos reducidos, los modelos DDPO mantuvieron la diversidad, aunque necesitaban cierto número de muestras diversas para ser completamente efectivos.
Implicaciones para empresas y creadores de contenido
Para los equipos de IA que gestionan el despliegue de LLMs, mejorar la diversidad de salida mientras se mantiene la calidad es un desafío crítico. Los hallazgos tienen implicaciones significativas para organizaciones que dependen de contenido generado por IA en aplicaciones como:
- IA conversacional y chatbots (asegurando respuestas variadas y atractivas)
- Marketing de contenidos y herramientas narrativas (evitando textos repetitivos)
- Desarrollo de videojuegos y diseño narrativo (creando diálogos diversos y tramas ramificadas)
Para los profesionales responsables de ajustar y desplegar modelos en entornos empresariales, esta investigación proporciona:
- Un nuevo enfoque para el post-entrenamiento de LLMs que mejora la creatividad sin sacrificar la calidad
- Una alternativa práctica al ajuste de diversidad en tiempo de inferencia
- El potencial para desarrollar aplicaciones de IA más atractivas, desde herramientas de escritura asistida por IA hasta asistentes virtuales que pueden adaptar dinámicamente sus respuestas
El futuro de los proyectos creativos generados por IA
El éxito de DDPO y DORPO demuestra que entrenar LLMs con objetivos centrados en la diversidad puede producir mejoras significativas en la escritura creativa. Algunas ideas de aplicación incluyen:
- Integrar el aprendizaje basado en la desviación en modelos de IA empresariales para mejorar la diversidad de respuesta en aplicaciones orientadas al cliente.
- Explorar cómo estos métodos se aplican a otras tareas generativas, como poesía, guiones o narrativas para videojuegos.
- Desarrollar enfoques híbridos de entrenamiento que equilibren capacidades de diversidad y seguimiento de instrucciones para asistentes de IA.
Para aquellos interesados en aplicar estas técnicas, los investigadores planean hacer su código públicamente disponible en este Repositorio de GitHub.
Ya sea que estés ajustando LLMs para aplicaciones empresariales u optimizando orquestación de IA a gran escala, este estudio proporciona ideas accionables sobre cómo los modelos pueden ser más dinámicos, atractivos y sensibles a tareas creativas.
Al adoptar estas técnicas, los equipos de IA pueden ir más allá de las salidas rígidas y formulaicas, construyendo sistemas de IA que no solo sean inteligentes sino también verdaderamente imaginativos.