Meta utiliza versión modificada de su IA Maverick para obtener mejores resultados en pruebas comparativas

Droids

Updated on:

Meta utiliza versión modificada de su IA Maverick para obtener mejores resultados en pruebas comparativas

Meta, la empresa matriz de Facebook, ha sido descubierta utilizando una versión especialmente optimizada de su modelo de inteligencia artificial Maverick en pruebas comparativas, mientras ofrece una versión diferente a los desarrolladores, según ha revelado un análisis reciente.

La discrepancia entre versiones

Uno de los nuevos modelos insignia de IA que Meta lanzó el pasado sábado, Maverick, ocupa el segundo puesto en LM Arena, una prueba en la que evaluadores humanos comparan los resultados de diferentes modelos de IA y eligen cuál prefieren. Sin embargo, parece que la versión de Maverick que Meta desplegó en LM Arena difiere significativamente de la versión que está ampliamente disponible para los desarrolladores.

Como señalaron varios investigadores en la plataforma X (anteriormente Twitter), Meta indicó en su anuncio que la versión de Maverick presente en LM Arena es una "versión experimental de chat". Mientras tanto, un gráfico en el sitio web oficial de Llama revela que las pruebas de Meta en LM Arena se realizaron utilizando "Llama 4 Maverick optimizado para conversacionalidad".

Por qué esto es problemático

El problema de personalizar un modelo para un benchmark específico, retenerlo y luego lanzar una variante "estándar" de ese mismo modelo es que dificulta enormemente que los desarrolladores predigan con exactitud el rendimiento real del modelo en contextos particulares.

Además, esta práctica resulta engañosa. Idealmente, los benchmarks —por inadecuados que sean— deberían proporcionar una instantánea de las fortalezas y debilidades de un único modelo en una variedad de tareas.

Diferencias notables entre versiones

Los investigadores han observado diferencias drásticas en el comportamiento de la versión de Maverick disponible públicamente en comparación con el modelo alojado en LM Arena. La versión de LM Arena parece usar muchos emojis y ofrecer respuestas extremadamente largas y detalladas.

Un usuario de X compartió un ejemplo de estas diferencias con el comentario: "Okay Llama 4 is def a littled cooked lol, what is this yap city" (Vaya, Llama 4 definitivamente está un poco manipulado, ¿qué es esta verbosidad?), mostrando capturas de pantalla de las extensas respuestas generadas por la versión de LM Arena.

Otro usuario señaló en X que "por alguna razón, el modelo Llama 4 en Arena usa muchos más emojis" y compartió comparaciones con la versión disponible en plataformas como Together.ai.

Contexto sobre LM Arena y sus limitaciones

Como ha explicado anteriormente TechCrunch, LM Arena nunca ha sido la medida más fiable del rendimiento de un modelo de IA por diversas razones. Sin embargo, las empresas de IA generalmente no han personalizado o ajustado sus modelos específicamente para obtener mejores puntuaciones en LM Arena, o al menos no han admitido hacerlo.

Los benchmarks en la industria de la IA tienen limitaciones significativas, pero siguen siendo una herramienta importante para que desarrolladores y empresas evalúen el rendimiento relativo de diferentes modelos. Cuando una empresa utiliza versiones diferentes para las pruebas y para la distribución, socava la utilidad de estas comparaciones.

El lanzamiento de Llama 4

Esta controversia surge en el contexto del lanzamiento de Llama 4, la nueva colección de modelos de IA de Meta. Además de Maverick, Meta presentó otros modelos como Llama 4 Scout y Llama 4 Behemoth, todos entrenados con grandes cantidades de texto, imágenes y datos de video para proporcionarles una "amplia comprensión visual", según la empresa.

Meta afirma que Maverick, destinado a casos de uso como "asistente general y chat" incluyendo escritura creativa, supera a modelos como GPT-4o de OpenAI y Gemini 2.0 de Google en ciertos benchmarks de codificación, razonamiento, multilingüismo, contexto largo e imágenes.

La importancia de la transparencia en IA

Este incidente subraya la importancia de la transparencia en el desarrollo y evaluación de modelos de IA. A medida que estas tecnologías se vuelven más influyentes en diversos sectores, la claridad sobre cómo se prueban y comparan es fundamental para que los desarrolladores y usuarios puedan tomar decisiones informadas.

TechCrunch ha contactado tanto a Meta como a Chatbot Arena, la organización que mantiene LM Arena, para obtener comentarios sobre esta situación, aunque no se ha mencionado si han respondido hasta el momento.

¿Una práctica común en la industria?

Aunque este caso específico ha llamado la atención, cabe preguntarse si otras empresas de IA podrían estar utilizando prácticas similares para mejorar artificialmente su posición en los rankings comparativos, lo que plantea preguntas más amplias sobre la fiabilidad de los benchmarks en general.

En un campo que avanza tan rápidamente como la inteligencia artificial, con inversiones multimillonarias y una feroz competencia entre gigantes tecnológicos, la tentación de presentar los resultados de la manera más favorable posible es comprensible, pero potencialmente problemática para el progreso colectivo de la industria.

Mientras tanto, los desarrolladores que confían en estos modelos para sus aplicaciones deberán ser conscientes de que el rendimiento publicitado en pruebas comparativas podría no reflejar con precisión lo que experimentarán en entornos de producción reales.

Deja un comentario