Google lanza Gemini 2.5 Flash con "presupuestos de pensamiento" que reducen costes de IA hasta un 600%

Droids

Updated on:

Google lanza Gemini 2.5 Flash con "presupuestos de pensamiento" que reducen costes de IA hasta un 600%

Google ha presentado Gemini 2.5 Flash, una importante actualización de su suite de inteligencia artificial que introduce un concepto revolucionario: los «presupuestos de pensamiento». Esta nueva característica permite a empresas y desarrolladores controlar con precisión cuánto «razonamiento» realiza la IA antes de generar respuestas, con un impacto directo en los costes de uso que pueden reducirse hasta un 600% cuando se desactiva la capacidad de razonamiento profundo.

El nuevo modelo, disponible en versión preliminar a través de Google AI Studio y Vertex AI, representa un esfuerzo estratégico para ofrecer mayores capacidades de razonamiento manteniendo precios competitivos en un mercado de IA cada vez más disputado.

¿Qué es Gemini 2.5 Flash y cómo funcionan los «presupuestos de pensamiento»?

El «presupuesto de pensamiento» es un mecanismo que permite a los desarrolladores especificar cuánta potencia computacional debería asignarse al razonamiento de problemas complejos antes de generar una respuesta. Este enfoque aborda una tensión fundamental en el mercado actual de IA: un razonamiento más sofisticado típicamente conlleva mayor latencia y precios más altos.

«Sabemos que el coste y la latencia son importantes para muchos casos de uso de los desarrolladores, por lo que queremos ofrecerles la flexibilidad de adaptar la cantidad de pensamiento que realiza el modelo, dependiendo de sus necesidades», explicó Tulsee Doshi, Directora de Producto para Modelos Gemini en Google DeepMind, en una entrevista exclusiva con VentureBeat.

Esta flexibilidad revela el enfoque pragmático de Google para el despliegue de IA, especialmente cuando la tecnología se integra cada vez más en aplicaciones empresariales donde la previsibilidad de costes es esencial. Al permitir que la capacidad de pensamiento se active o desactive, Google ha creado lo que denomina su «primer modelo de razonamiento completamente híbrido».

Un nuevo modelo de precios basado en el razonamiento

La nueva estructura de precios pone de manifiesto el coste real del razonamiento en los sistemas de IA actuales. Al utilizar Gemini 2.5 Flash, los desarrolladores pagan:

  • $0,15 (aproximadamente 0,14€) por millón de tokens para entrada
  • $0,60 (aproximadamente 0,56€) por millón de tokens para salida con el pensamiento desactivado
  • $3,50 (aproximadamente 3,25€) por millón de tokens para salida con el razonamiento activado

Esta diferencia de precio, casi seis veces mayor para las salidas con razonamiento, refleja la intensidad computacional del proceso de «pensamiento», donde el modelo evalúa múltiples caminos potenciales y consideraciones antes de generar una respuesta.

«Los clientes pagan por cualquier token de pensamiento y salida que el modelo genera», explicó Doshi a VentureBeat. «En la interfaz de AI Studio, puedes ver estos pensamientos antes de una respuesta. En la API, actualmente no proporcionamos acceso a los pensamientos, pero un desarrollador puede ver cuántos tokens se generaron».

El presupuesto de pensamiento puede ajustarse desde 0 hasta 24.576 tokens, operando como un límite máximo en lugar de una asignación fija. Según Google, el modelo determina de forma inteligente cuánto de este presupuesto usar basándose en la complejidad de la tarea, preservando recursos cuando no es necesario un razonamiento elaborado.

Rendimiento de Gemini 2.5 Flash frente a la competencia

Google afirma que Gemini 2.5 Flash demuestra un rendimiento competitivo en benchmarks clave mientras mantiene un tamaño de modelo más pequeño que las alternativas. En Humanity’s Last Exam, una prueba rigurosa diseñada para evaluar razonamiento y conocimiento, 2.5 Flash obtuvo una puntuación de 12,1%, superando a Claude 3.7 Sonnet de Anthropic (8,9%) y DeepSeek R1 (8,6%), aunque por debajo del recientemente lanzado o4-mini de OpenAI (14,3%).

El modelo también mostró resultados sólidos en benchmarks técnicos como GPQA diamond (78,3%) y exámenes de matemáticas AIME (78,0% en pruebas de 2025 y 88,0% en pruebas de 2024).

«Las empresas deberían elegir 2.5 Flash porque proporciona el mejor valor por su coste y velocidad», comentó Doshi. «Es particularmente fuerte en comparación con los competidores en matemáticas, razonamiento multimodal, contexto largo y varias otras métricas clave».

Los analistas de la industria señalan que estos benchmarks indican que Google está reduciendo la brecha de rendimiento con sus competidores mientras mantiene una ventaja en precios, una estrategia que puede resonar con clientes empresariales que vigilan sus presupuestos de IA.

Optimizando el uso de IA: ¿cuándo necesita «pensar» tu modelo?

La introducción del razonamiento ajustable representa una evolución significativa en cómo las empresas pueden desplegar la IA. Con los modelos tradicionales, los usuarios tienen poca visibilidad o control sobre el proceso interno de razonamiento del modelo.

El enfoque de Google permite a los desarrolladores optimizar para diferentes escenarios:

  • Para consultas simples como traducción de idiomas o recuperación básica de información, el pensamiento puede desactivarse para máxima eficiencia de costes.
  • Para tareas complejas que requieren razonamiento en múltiples pasos, como resolución de problemas matemáticos o análisis matizado, la función de pensamiento puede activarse y ajustarse.

Una innovación clave es la capacidad del modelo para determinar cuánto razonamiento es apropiado según la consulta. Google ilustra esto con ejemplos: una pregunta simple como «¿Cuántas provincias tiene Canadá?» requiere un razonamiento mínimo, mientras que una pregunta compleja de ingeniería sobre cálculos de tensión de vigas activaría automáticamente procesos de pensamiento más profundos.

«Integrar capacidades de pensamiento en nuestros modelos principales de Gemini, combinado con mejoras en todos los aspectos, ha llevado a respuestas de mayor calidad», dijo Doshi. «Estas mejoras son consistentes en todos los benchmarks académicos, incluido SimpleQA, que mide la factualidad».

Otras novedades de Google en IA

El lanzamiento de Gemini 2.5 Flash llega durante una semana de movimientos agresivos de Google en el espacio de la IA. El lunes, la compañía implementó las capacidades de generación de vídeo Veo 2 para suscriptores de Gemini Advanced, permitiendo a los usuarios crear clips de vídeo de ocho segundos a partir de indicaciones de texto.

Junto al anuncio de 2.5 Flash, Google reveló que todos los estudiantes universitarios estadounidenses recibirán acceso gratuito a Gemini Advanced hasta la primavera de 2026 — un movimiento interpretado por los analistas como un esfuerzo para crear lealtad entre los futuros trabajadores del conocimiento.

Estos anuncios reflejan la estrategia multifacética de Google para competir en un mercado dominado por ChatGPT de OpenAI, que según informes tiene más de 800 millones de usuarios semanales en comparación con los estimados 250-275 millones de usuarios mensuales de Gemini, según análisis de terceros.

El modelo 2.5 Flash, con su enfoque explícito en la eficiencia de costes y la personalización del rendimiento, parece diseñado para atraer particularmente a clientes empresariales que necesitan gestionar cuidadosamente los costes de implementación de IA mientras acceden a capacidades avanzadas.

El futuro de Gemini 2.5 Flash

Aunque esta versión está en fase preliminar, el modelo ya está disponible para que los desarrolladores comiencen a construir con él, aunque Google no ha especificado un plazo para la disponibilidad general. La compañía indica que continuará refinando las capacidades dinámicas de pensamiento basadas en los comentarios de los desarrolladores durante esta fase de vista previa.

Para las empresas que adoptan IA, este lanzamiento representa una oportunidad para experimentar con enfoques más matizados en la implementación de IA, potencialmente asignando más recursos computacionales a tareas de alta importancia mientras conservan costes en aplicaciones rutinarias.

El modelo también está disponible para los consumidores a través de la aplicación Gemini, donde aparece como «2.5 Flash (Experimental)» en el menú desplegable de modelos, reemplazando la opción anterior 2.0 Thinking (Experimental). Esta implementación orientada al consumidor sugiere que Google está utilizando el ecosistema de aplicaciones para recopilar comentarios más amplios sobre su arquitectura de razonamiento.

A medida que la IA se integra cada vez más en los flujos de trabajo empresariales, el enfoque de Google con razonamiento personalizable refleja un mercado en maduración donde la optimización de costes y el ajuste del rendimiento se están volviendo tan importantes como las capacidades básicas, señalando una nueva fase en la comercialización de las tecnologías de IA generativa.

Deja un comentario