El auge de los modelos de IA de 'razonamiento' dispara los costes de evaluación comparativa

Droids

Updated on:

El auge de los modelos de IA de 'razonamiento' dispara los costes de evaluación comparativa

Los laboratorios de inteligencia artificial (IA) como OpenAI pregonan las capacidades de sus nuevos modelos, denominados de «razonamiento». Estos sistemas, capaces de «pensar» en problemas paso a paso, prometen un rendimiento superior en campos complejos como la física frente a sus predecesores. Sin embargo, aunque esta afirmación parece ser cierta en general, una realidad incómoda emerge: evaluar el rendimiento real de estos avanzados modelos se está volviendo extremadamente caro, dificultando la verificación independiente de dichas afirmaciones.

El benchmarking, o evaluación comparativa, es un proceso crucial en el desarrollo de la IA. Consiste en someter a los modelos a una serie de pruebas estandarizadas para medir objetivamente sus capacidades en diferentes tareas. Tradicionalmente, esto ha permitido a investigadores, desarrolladores y al público en general comparar diferentes modelos y seguir su progreso. Pero la nueva generación de IA de razonamiento está poniendo este proceso fuera del alcance de muchos debido a sus elevados costes operativos.

Modelos de IA que «piensan»: una nueva frontera

Los llamados modelos de IA de «razonamiento» representan un cambio significativo en la arquitectura y el funcionamiento de la inteligencia artificial. A diferencia de modelos anteriores que a menudo generan respuestas directas, estos sistemas están diseñados para descomponer problemas complejos en múltiples pasos, mostrando una especie de «cadena de pensamiento» similar a como un humano podría abordar una tarea difícil.

Empresas como OpenAI sostienen que esta capacidad de razonamiento paso a paso les otorga una ventaja significativa en dominios específicos que requieren lógica compleja, planificación o comprensión profunda. Evaluar si estas promesas se traducen en un rendimiento real superior es fundamental, pero es aquí donde empiezan los problemas económicos.

La factura del benchmarking: cifras que alarman

Los datos recopilados por Artificial Analysis, una firma independiente dedicada a probar modelos de IA, ilustran claramente el aumento de los costes. Evaluar el modelo de razonamiento o1 de OpenAI a través de un conjunto de siete benchmarks populares (MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 y MATH-500) costó la friolera de $2.767,05 (aproximadamente €2.550).

Otros modelos de razonamiento también presentan costes elevados. Probar el reciente modelo «híbrido» de razonamiento Claude 3.7 Sonnet de Anthropic en las mismas pruebas costó $1.485,35 (unos €1.370). Evaluar el o3-mini-high de OpenAI supuso un desembolso de $344,59 (cerca de €320).

Si bien existen modelos de razonamiento más económicos –Artificial Analysis gastó $141,22 (unos €130) en evaluar el o1-mini de OpenAI– la tendencia general es clara: son caros de probar. En total, Artificial Analysis ha gastado aproximadamente $5.200 (unos €4.800) evaluando una docena de modelos de razonamiento. Esta cifra es casi el doble de lo que la firma invirtió en analizar más de 80 modelos no razonamiento, cuyo coste total fue de $2.400 (unos €2.200).

Para ponerlo en perspectiva, evaluar el modelo GPT-4o de OpenAI (lanzado en mayo de 2024 y considerado no razonamiento) costó a Artificial Analysis solo $108,85 (unos €100). Su competidor directo en ese momento, Claude 3.6 Sonnet de Anthropic, costó $81,41 (unos €75) evaluar.

George Cameron, cofundador de Artificial Analysis, confirmó a TechCrunch que la organización prevé aumentar su presupuesto para benchmarking a medida que más laboratorios lancen modelos de razonamiento. «En Artificial Analysis, realizamos cientos de evaluaciones mensualmente y dedicamos un presupuesto significativo a ellas», dijo Cameron. «Estamos planeando que este gasto aumente a medida que los modelos se lancen con más frecuencia».

Esta preocupación no es exclusiva de Artificial Analysis. Ross Taylor, CEO de la startup de IA General Reasoning, compartió su experiencia: recientemente gastó $580 (unos €535) evaluando Claude 3.7 Sonnet con alrededor de 3.700 prompts únicos. Taylor estima que una sola pasada completa del benchmark MMLU Pro, diseñado para medir la comprensión del lenguaje, habría costado más de $1.800 (unos €1.660).

¿Por qué evaluar estos modelos es tan costoso?

La razón principal detrás de estos costes exorbitantes radica en la cantidad de tokens que generan estos modelos. Los tokens son las unidades básicas en las que los modelos de IA procesan y generan texto (por ejemplo, una palabra puede dividirse en varios tokens). Dado que los modelos de razonamiento «muestran su trabajo» generando explicaciones paso a paso, producen una cantidad masiva de texto.

Según Artificial Analysis, el modelo o1 de OpenAI generó más de 44 millones de tokens durante sus pruebas de benchmarking, aproximadamente ocho veces más que los generados por GPT-4o en las mismas pruebas.

La inmensa mayoría de las empresas de IA cobran por el uso de sus modelos en función del número de tokens procesados (tanto de entrada como de salida). Con millones de tokens generados en cada evaluación comparativa, es fácil ver cómo los costes se disparan rápidamente.

Además, la naturaleza de los propios benchmarks contribuye al problema. Jean-Stanislas Denain, investigador senior en Epoch AI (una organización que desarrolla sus propios benchmarks), explicó a TechCrunch que las pruebas modernas son intrínsecamente más complejas. «Los benchmarks [actuales] son más complejos [aunque] el número de preguntas por benchmark ha disminuido en general», señaló Denain. «A menudo intentan evaluar la capacidad de los modelos para realizar tareas del mundo real, como escribir y ejecutar código, navegar por internet y usar ordenadores». Estas tareas complejas, naturalmente, requieren respuestas más largas y detalladas, incrementando el consumo de tokens.

A esto se suma otro factor: el coste por token de los modelos más avanzados también ha ido en aumento. Denain aportó ejemplos: el modelo Claude 3 Opus de Anthropic, lanzado en mayo de 2024, era el más caro en su momento, costando $75 (unos €70) por millón de tokens de salida. Modelos posteriores como GPT-4.5 de OpenAI y o1-pro (ambos lanzados a principios de 2025) elevaron el listón a $150 (unos €140) y $600 (unos €550) por millón de tokens de salida, respectivamente.

Denain matiza, sin embargo, que «dado que los modelos han mejorado con el tiempo, sigue siendo cierto que el coste para alcanzar un nivel de rendimiento determinado ha disminuido considerablemente». Pero la conclusión es clara: «si quieres evaluar los mejores y más grandes modelos en cualquier momento, sigues pagando más».

El desafío de la reproducibilidad y la integridad científica

Este panorama de costes crecientes plantea serias dudas sobre la reproducibilidad de los resultados y la transparencia en el campo de la IA. Si solo las grandes corporaciones o entidades con presupuestos abultados pueden permitirse realizar evaluaciones comparativas exhaustivas, ¿cómo pueden los investigadores académicos, las startups más pequeñas o los organismos de control independientes verificar las afirmaciones de rendimiento?

Ross Taylor, de General Reasoning, expresó esta preocupación de forma contundente en una reciente publicación en la red social X: «Nos dirigimos a un mundo donde un laboratorio informa x% en un benchmark gastando una cantidad y de cómputo, pero donde los recursos para los académicos son << y […] nadie va a poder reproducir los resultados».

La situación se complica aún más por el hecho de que muchos laboratorios de IA, incluido OpenAI, proporcionan acceso gratuito o subvencionado a sus modelos a organizaciones de benchmarking para fines de prueba. Si bien esto puede parecer una ayuda bienvenida, algunos expertos advierten que podría comprometer la independencia de las evaluaciones. Aunque no existan pruebas de manipulación directa, la mera implicación de un laboratorio de IA en el proceso de evaluación de sus propios modelos puede arrojar sombras de duda sobre la integridad de los resultados publicados.

Taylor profundizó en esta cuestión en un post posterior en X, preguntando retóricamente: «Desde [un] punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿sigue siendo ciencia?».

El rápido avance de la inteligencia artificial es innegable, y los modelos de razonamiento representan un paso potencialmente importante hacia sistemas más capaces. Sin embargo, el creciente coste asociado a su evaluación rigurosa está creando una barrera económica significativa. Esto no solo dificulta la validación independiente de las capacidades de estos modelos, sino que también amenaza los principios de reproducibilidad y transparencia que son fundamentales para el progreso científico fiable. A medida que estos modelos se vuelven más potentes y costosos, la comunidad de IA se enfrenta al desafío de encontrar formas sostenibles y accesibles para garantizar que sus avances puedan ser examinados y verificados de forma independiente.

Deja un comentario