Nous Research: IA abierta usa 1,5–4× más tokens que cerrada en tareas idénticas

Droids

Updated on:

Los modelos de inteligencia artificial de código abierto consumen entre 1,5 y 4 veces más recursos computacionales que sus competidores de código cerrado al realizar tareas idénticas, según un estudio exhaustivo publicado por la empresa de IA Nous Research.

La investigación examinó 19 modelos diferentes de IA en tres categorías de tareas: preguntas de conocimiento básico, problemas matemáticos y acertijos lógicos. El equipo midió la «eficiencia de tokens», es decir, cuántas unidades computacionales utilizan los modelos en relación con la complejidad de sus soluciones.

Para preguntas simples de conocimiento, la diferencia se amplió drásticamente: algunos modelos abiertos usaron hasta 10 veces más tokens. «Los modelos de peso abierto usan 1,5-4× más tokens que los cerrados (hasta 10× para preguntas simples de conocimiento), haciéndolos a veces más caros por consulta a pesar de los menores costos por token», tuiteó Nous Research el miércoles.

Los hallazgos desafían la suposición prevalente en la industria de IA de que los modelos de código abierto ofrecen claras ventajas económicas sobre las alternativas propietarias. Aunque los modelos de código abierto suelen costar menos por token para ejecutar, esta ventaja puede «compensarse fácilmente si requieren más tokens para razonar sobre un problema dado», señala el estudio.

La ineficiencia es particularmente pronunciada en los Modelos de Razonamiento Grandes (LRMs) que utilizan «cadenas de pensamiento» extendidas. Para preguntas básicas como «¿Cuál es la capital de Australia?», los modelos de razonamiento gastan «cientos de tokens reflexionando sobre preguntas simples de conocimiento» que podrían responderse en una sola palabra.

Los modelos de OpenAI, particularmente su o4-mini y las variantes gpt-oss de código abierto recientemente lanzadas, demostraron eficiencia excepcional en tokens, especialmente para problemas matemáticos, usando hasta tres veces menos tokens que otros modelos comerciales. Entre los modelos de peso abierto, el llama-3.3-nemotron-super-49b-v1 de Nvidia emergió como «el modelo de peso abierto más eficiente en tokens en todos los dominios».

El estudio reveló que los modelos de código cerrado «han sido optimizados iterativamente para usar menos tokens y reducir el costo de inferencia», mientras que los modelos de código abierto «han aumentado su uso de tokens en versiones más nuevas, posiblemente reflejando una prioridad hacia un mejor rendimiento de razonamiento».

La brecha de eficiencia varió significativamente según el tipo de tarea. Los modelos abiertos usaron aproximadamente el doble de tokens para problemas matemáticos y lógicos, pero la diferencia se disparó para preguntas simples de conocimiento.

Los investigadores encontraron que «la mejor eficiencia de tokens de los modelos de peso cerrado a menudo compensa el mayor precio de API de esos modelos» al analizar los costos totales de inferencia.

La metodología del estudio incluyó pruebas con versiones modificadas de problemas conocidos, como alterar variables en problemas del American Invitational Mathematics Examination (AIME), para minimizar la influencia de soluciones memorizadas.

Los investigadores recomiendan que la eficiencia de tokens se convierta en un objetivo de optimización primario junto con la precisión para el desarrollo futuro de modelos. Sugieren que la liberación de los modelos gpt-oss de código abierto de OpenAI, que demuestran eficiencia de vanguardia, podría servir como punto de referencia para optimizar otros modelos de código abierto.

El conjunto de datos completo de la investigación y el código de evaluación están disponibles en GitHub para permitir a otros investigadores validar y extender los hallazgos.

Fuente: VentureBeat