Google Cloud ha desvelado su séptima generación de Tensor Processing Unit (TPU) denominada Ironwood, un acelerador de IA personalizado que, según la compañía, ofrece una potencia de cálculo 24 veces superior a la del supercomputador más rápido del mundo cuando se despliega a escala completa.
El nuevo chip, anunciado durante el evento Google Cloud Next '25, representa un cambio significativo en la estrategia de desarrollo de chips de IA que Google ha seguido durante la última década. Mientras que las generaciones anteriores de TPU estaban diseñadas principalmente para cargas de trabajo tanto de entrenamiento como de inferencia, Ironwood es el primero creado específicamente para la inferencia —el proceso de desplegar modelos de IA ya entrenados para realizar predicciones o generar respuestas.
La potencia detrás del nuevo chip Ironwood
Las especificaciones técnicas de Ironwood son realmente impresionantes. Cuando se escala a 9.216 chips por pod, Ironwood proporciona 42,5 exaflops de potencia de cálculo, eclipsando los 1,7 exaflops de El Capitan, actualmente el supercomputador más rápido del mundo. Cada chip individual de Ironwood ofrece una capacidad de cálculo máxima de 4.614 teraflops.
Ironwood también presenta mejoras significativas en memoria y ancho de banda. Cada chip viene con 192GB de memoria de alto ancho de banda (HBM), seis veces más que Trillium, la TPU de generación anterior anunciada el año pasado. El ancho de banda de memoria alcanza los 7,2 terabits por segundo por chip, una mejora de 4,5 veces respecto a Trillium.
Quizás lo más importante en una era de centros de datos con limitaciones energéticas es que Ironwood ofrece el doble de rendimiento por vatio en comparación con Trillium, y es casi 30 veces más eficiente energéticamente que la primera TPU Cloud de Google de 2018.
"En un momento en que la energía disponible es una de las limitaciones para ofrecer capacidades de IA, proporcionamos significativamente más capacidad por vatio para las cargas de trabajo de los clientes", explicó Amin Vahdat, Vicepresidente y Gerente General de ML, Systems y Cloud AI de Google, durante una conferencia de prensa virtual previa al evento.
Un cambio de enfoque hacia la inferencia
El énfasis en la inferencia en lugar del entrenamiento representa un punto de inflexión significativo en la línea temporal de la IA. Durante años, la industria ha estado obsesionada con la construcción de modelos fundacionales cada vez más masivos, compitiendo principalmente en el tamaño de los parámetros y las capacidades de entrenamiento. El giro de Google hacia la optimización de la inferencia sugiere que estamos entrando en una nueva fase donde la eficiencia de despliegue y las capacidades de razonamiento ocupan un lugar central.
Esta transición tiene sentido. El entrenamiento ocurre una vez, pero las operaciones de inferencia se producen miles de millones de veces diariamente a medida que los usuarios interactúan con los sistemas de IA. La economía de la IA está cada vez más vinculada a los costes de inferencia, especialmente a medida que los modelos se vuelven más complejos y computacionalmente intensivos.
Durante la conferencia de prensa, Vahdat reveló que Google ha observado un aumento de 10 veces en la demanda de computación de IA año tras año durante los últimos ocho años, un factor asombroso de 100 millones en total. Ninguna progresión de la Ley de Moore podría satisfacer esta curva de crecimiento sin arquitecturas especializadas como Ironwood.
Gemini y las nuevas capacidades de "pensamiento"
Google está posicionando a Ironwood como la base para sus modelos de IA más avanzados, incluido Gemini 2.5, que la empresa describe como un sistema con "capacidades de pensamiento integradas de forma nativa".
En la conferencia, Google también anunció Gemini 2.5 Flash, una versión más rentable de su modelo insignia que "ajusta la profundidad del razonamiento según la complejidad de la consulta". Mientras que Gemini 2.5 Pro está diseñado para casos de uso complejos como el descubrimiento de fármacos y el modelado financiero, Gemini 2.5 Flash está posicionado para aplicaciones cotidianas donde la capacidad de respuesta es crítica.
La compañía también mostró su suite completa de modelos de medios generativos, incluidos texto a imagen, texto a vídeo y una capacidad de texto a música recientemente anunciada llamada Lyria. Una demostración mostró cómo estas herramientas podrían usarse juntas para crear un vídeo promocional completo para un concierto.
Estrategia integral de infraestructura
Ironwood es solo una parte de la estrategia de infraestructura de IA más amplia de Google. La compañía también anunció Cloud WAN, un servicio de red de área amplia gestionado que proporciona a las empresas acceso a la infraestructura de red privada de Google a escala global.
"Cloud WAN es una columna vertebral de red empresarial totalmente gestionada, viable y segura que proporciona hasta un 40% de mejora en el rendimiento de la red, al tiempo que reduce el coste total de propiedad en ese mismo 40%", dijo Vahdat.
Google también está ampliando sus ofertas de software para cargas de trabajo de IA, incluido Pathways, su tiempo de ejecución de aprendizaje automático desarrollado por Google DeepMind. Pathways en Google Cloud permite a los clientes escalar el servicio de modelos en cientos de TPUs.
Implicaciones para las empresas
Para las empresas que implementan IA, estos anuncios podrían reducir significativamente el coste y la complejidad de ejecutar modelos de IA sofisticados. La mayor eficiencia de Ironwood podría hacer que la ejecución de modelos de razonamiento avanzados sea más económica, mientras que el protocolo de interoperabilidad de agentes podría ayudar a las empresas a evitar la dependencia de un solo proveedor.
El impacto en el mundo real de estos avances no debe subestimarse. Muchas organizaciones han sido reacias a implementar modelos avanzados de IA debido a los prohibitivos costes de infraestructura y al consumo de energía. Si Google puede cumplir sus promesas de rendimiento por vatio, podríamos ver una nueva ola de adopción de IA en industrias que hasta ahora han permanecido al margen.
Durante la conferencia de prensa, Google enfatizó que más de 400 historias de clientes serían compartidas en Next '25, mostrando el impacto empresarial real de sus innovaciones en IA.
La carrera tecnológica en la industria de la IA
Estos anuncios llegan en un momento crucial para Google Cloud, que reportó 12 mil millones de dólares (aproximadamente 11.000 millones de euros) en ingresos en el cuarto trimestre de 2024, un aumento del 30% interanual, en su último informe de ganancias.
La economía del despliegue de IA se está convirtiendo cada vez más en un factor diferenciador en las guerras de la nube. Google se enfrenta a una intensa competencia de Microsoft Azure, que ha aprovechado su asociación con OpenAI, y Amazon Web Services, que continúa expandiendo sus ofertas de chips Trainium e Inferentia.
Lo que distingue el enfoque de Google es su integración vertical. Mientras que los rivales tienen asociaciones con fabricantes de chips o han adquirido startups, Google ha estado desarrollando TPUs internamente durante más de una década. Esto le da a la empresa un control sin igual sobre su stack de IA, desde el silicio hasta el software y los servicios.
Al llevar esta tecnología a los clientes empresariales, Google está apostando a que su experiencia duramente ganada en la construcción de chips para Search, Gmail y YouTube se traducirá en ventajas competitivas en el mercado empresarial. La estrategia es clara: ofrecer la misma infraestructura que impulsa la propia IA de Google, a escala, a cualquiera que esté dispuesto a pagar por ella.
Más allá del hardware, Google esbozó una visión para la IA centrada en sistemas multiagente. La compañía anunció un Kit de Desarrollo de Agentes (ADK) que permite a los desarrolladores construir sistemas donde múltiples agentes de IA pueden trabajar juntos.
Quizás lo más significativo, Google anunció un "protocolo de interoperabilidad de agente a agente" (A2A) que permite que los agentes de IA construidos sobre diferentes marcos y por diferentes proveedores se comuniquen entre sí.
"2025 será un año de transición donde la IA generativa pasará de responder preguntas individuales a resolver problemas complejos a través de sistemas con agentes", predijo Vahdat.
A medida que la IA continúa avanzando, la infraestructura que la impulsa se volverá cada vez más crítica. Las inversiones de Google en hardware especializado como Ironwood, combinadas con sus iniciativas de interoperabilidad de agentes, sugieren que la compañía se está posicionando para un futuro donde la IA se vuelve más distribuida, más compleja y más profundamente integrada en las operaciones comerciales.
"Los modelos de pensamiento líderes como Gemini 2.5 y AlphaFold, ganador del Premio Nobel, funcionan en TPUs hoy", señaló Vahdat. "Con Ironwood, estamos ansiosos por ver qué avances en IA son generados por nuestros propios desarrolladores y clientes de Google Cloud cuando esté disponible a finales de este año".