Meta lanza API de Llama 18 veces más rápida que OpenAI gracias a su asociación con Cerebras

Droids

Updated on:

Meta lanza API de Llama 18 veces más rápida que OpenAI gracias a su asociación con Cerebras

Meta ha anunciado una alianza estratégica con Cerebras Systems para impulsar su nueva API de Llama, ofreciendo a los desarrolladores acceso a velocidades de inferencia hasta 18 veces más rápidas que las soluciones tradicionales basadas en GPU. El sistema puede procesar un impresionante volumen de 2.600 tokens por segundo, lo que representa un salto cualitativo en el mercado de servicios de IA.

El anuncio, realizado durante la conferencia inaugural LlamaCon de Meta en Menlo Park, posiciona a la compañía para competir directamente con gigantes como OpenAI, Anthropic y Google en el creciente mercado de servicios de inferencia de IA.

Meta irrumpe en el mercado de servicios de IA con su nueva API

La nueva API de Llama marca la entrada formal de Meta en el negocio de venta de computación de IA, transformando sus populares modelos de código abierto en un servicio comercial. Hasta ahora, a pesar de que los modelos Llama de Meta han acumulado más de mil millones de descargas, la compañía no había ofrecido una infraestructura en la nube de primera parte para que los desarrolladores construyeran aplicaciones con ellos.

«Meta está ahora en el negocio de vender tokens, y es genial para el ecosistema de IA estadounidense», señaló James Wang, ejecutivo senior de Cerebras, durante la conferencia de prensa según VentureBeat.

Esta API representa un cambio significativo en la estrategia de IA de Meta, que pasa de ser principalmente un proveedor de modelos a convertirse en una compañía de infraestructura de IA de servicio completo, creando un flujo de ingresos a partir de sus inversiones en IA mientras mantiene su compromiso con los modelos abiertos.

Velocidad sin precedentes: la ventaja competitiva de Cerebras

Lo que distingue a la oferta de Meta es el dramático aumento de velocidad proporcionado por los chips de IA especializados de Cerebras. El sistema Cerebras ofrece más de 2.600 tokens por segundo para Llama 4 Scout, en comparación con aproximadamente 130 tokens por segundo para ChatGPT y alrededor de 25 tokens por segundo para DeepSeek, según los puntos de referencia de Artificial Analysis.

«Si comparas API con API, Gemini y GPT son excelentes modelos, pero todos funcionan a velocidades de GPU, que es aproximadamente 100 tokens por segundo», explicó Wang. «Y 100 tokens por segundo está bien para chat, pero es muy lento para razonamiento. Es muy lento para agentes. Y la gente está luchando con eso hoy».

Nuevas posibilidades para desarrolladores y aplicaciones

Esta ventaja de velocidad permite categorías completamente nuevas de aplicaciones que anteriormente eran impracticables, incluyendo:

  • Agentes en tiempo real
  • Sistemas de voz conversacionales de baja latencia
  • Generación interactiva de código
  • Razonamiento instantáneo de múltiples pasos

Todas estas aplicaciones requieren encadenar múltiples llamadas de modelos de lenguaje grandes que ahora pueden completarse en segundos en lugar de minutos.

La API de Llama ofrecerá herramientas para ajuste fino y evaluación, comenzando con el modelo Llama 3.3 8B, permitiendo a los desarrolladores generar datos, entrenar con ellos y probar la calidad de sus modelos personalizados.

Meta enfatiza que no utilizará los datos de los clientes para entrenar sus propios modelos, y los modelos construidos utilizando la API de Llama pueden ser transferidos a otros hosts, una clara diferenciación de los enfoques más cerrados de algunos competidores.

La infraestructura detrás de la velocidad

Cerebras alimentará el nuevo servicio de Meta a través de su red de centros de datos ubicados en toda Norteamérica, incluyendo instalaciones en Dallas, Oklahoma, Minnesota, Montreal y California.

«Todos nuestros centros de datos que sirven inferencia están en Norteamérica en este momento», explicó Julie Shin Choi, directora de marketing de Cerebras. «Serviremos a Meta con toda la capacidad de Cerebras. La carga de trabajo se equilibrará entre todos estos diferentes centros de datos».

El acuerdo comercial sigue lo que Choi describió como «el modelo clásico de proveedor de computación para un hiperescalador», similar a cómo Nvidia proporciona hardware a los principales proveedores de nube. «Están reservando bloques de nuestra computación que pueden servir a su población de desarrolladores», dijo.

Además de Cerebras, Meta también ha anunciado una asociación con Groq para proporcionar opciones de inferencia rápida, dando a los desarrolladores múltiples alternativas de alto rendimiento más allá de la inferencia tradicional basada en GPU.

Impacto en el mercado y competencia

La entrada de Meta en el mercado de APIs de inferencia con métricas de rendimiento superiores podría potencialmente alterar el orden establecido dominado por OpenAI, Google y Anthropic. Al combinar la popularidad de sus modelos de código abierto con capacidades de inferencia dramáticamente más rápidas, Meta se está posicionando como un competidor formidable en el espacio comercial de IA.

«Meta está en una posición única con 3 mil millones de usuarios, centros de datos a hiperescala y un enorme ecosistema de desarrolladores», según los materiales de presentación de Cerebras. La integración de la tecnología de Cerebras «ayuda a Meta a superar a OpenAI y Google en rendimiento en aproximadamente 20 veces».

Para Cerebras, esta asociación representa un hito importante y una validación de su enfoque de hardware de IA especializado. «Hemos estado construyendo este motor a escala de oblea durante años, y siempre supimos que la tecnología es de primera clase, pero en última instancia tiene que terminar como parte de la nube hiperescala de alguien más. Ese era el objetivo final desde una perspectiva de estrategia comercial, y finalmente hemos alcanzado ese hito», dijo Wang.

Disponibilidad y acceso

La API de Llama está actualmente disponible como una vista previa limitada, con Meta planeando un lanzamiento más amplio en las próximas semanas y meses. Los desarrolladores interesados en acceder a la inferencia ultrarrápida de Llama 4 pueden solicitar acceso anticipado seleccionando Cerebras de las opciones de modelo dentro de la API de Llama.

«Si imaginas a un desarrollador que no sabe nada sobre Cerebras porque somos una empresa relativamente pequeña, puede simplemente hacer clic en dos botones en el SDK de software estándar de Meta, generar una clave API, seleccionar la bandera de Cerebras, y de repente, sus tokens están siendo procesados en un motor gigante a escala de oblea», explicó Wang. «Ese tipo de estar en el backend de todo el ecosistema de desarrolladores de Meta es simplemente tremendo para nosotros».

El futuro de la IA: la velocidad como ventaja competitiva

La elección de silicio especializado por parte de Meta señala algo profundo: en la próxima fase de la IA, no se trata solo de lo que tus modelos saben, sino de la rapidez con la que pueden pensarlo. En ese futuro, la velocidad no es solo una característica, es el punto central.

Esta iniciativa de Meta podría cambiar significativamente las expectativas de los desarrolladores sobre la velocidad de procesamiento, abriendo la puerta a aplicaciones que requieren respuestas casi instantáneas y trasladando la competencia en el mercado de IA desde la capacidad de los modelos hacia la eficiencia en su ejecución.

La batalla por la supremacía en el mercado de la IA acaba de entrar en una nueva fase donde la velocidad podría ser tan importante como la precisión o la versatilidad de los modelos.

Deja un comentario