ByteDance lanza Seed-OSS-36B, familia de modelos abiertos con contexto de 512.000 tokens

Droids

Updated on:

ByteDance, empresa matriz de TikTok, ha lanzado Seed-OSS-36B, una nueva línea de modelos de lenguaje de código abierto con capacidad de contexto de 512.000 tokens, disponible en Hugging Face.

El equipo Seed de investigadores de IA de ByteDance publicó hoy tres variantes del modelo: Seed-OSS-36B-Base (con datos sintéticos), Seed-OSS-36B-Base (sin datos sintéticos) y Seed-OSS-36B-Instruct. Los modelos están diseñados para razonamiento avanzado y usabilidad orientada a desarrolladores.

La capacidad de contexto de 512.000 tokens duplica la del nuevo modelo GPT-5 de OpenAI (256.000 tokens) y equivale aproximadamente a 1.600 páginas de texto. Esta característica posiciona a Seed-OSS-36B por encima de muchos modelos competidores de empresas tecnológicas estadounidenses, incluidas OpenAI y Anthropic.

La variante con datos sintéticos obtiene 65,1 en MMLU-Pro y 81,7 en MATH, resultados de vanguardia en sus categorías. El modelo sin datos sintéticos ofrece una base más limpia que evita posibles sesgos de los datos de instrucción sintéticos y supera a su contraparte sintética en GPQA-D.

Seed-OSS-36B-Instruct, post-entrenado con datos de instrucción, prioriza la ejecución de tareas. Logra 91,7% en AIME24 y 65 en BeyondAIME (ambos de vanguardia en código abierto), 67,4 en LiveCodeBench v6 y 94,6 en RULER con contexto de 128K, el resultado más alto reportado en código abierto.

Los tres modelos se publican bajo licencia Apache-2.0, permitiendo uso, modificación y redistribución gratuitos. Las empresas pueden utilizarlos en aplicaciones comerciales sin pagar licencias a ByteDance ni costos de API.

El lanzamiento incluye una función de «presupuesto de pensamiento» que permite a los desarrolladores especificar cuánto razonamiento debe realizar el modelo antes de entregar una respuesta. Los presupuestos se recomiendan en múltiplos de 512 tokens, con 0 proporcionando un modo de respuesta directa. Nvidia implementó una característica similar en su modelo Nemotron-Nano-9B-v2.

Cada modelo contiene 36 mil millones de parámetros distribuidos en 64 capas y soporta un vocabulario de 155.000 tokens. La arquitectura combina modelado de lenguaje causal, atención de consulta agrupada, activación SwiGLU, RMSNorm y codificación posicional RoPE.

Los modelos pueden desplegarse usando Hugging Face Transformers, con soporte de cuantización en formatos de 4 y 8 bits. También se integran con vLLM para servicio escalable. El equipo incluye scripts para inferencia, personalización de prompts e integración de herramientas.

El equipo Seed, formado en 2023, se ha concentrado en construir modelos base para casos de uso de investigación y aplicados, posicionando Seed-OSS para aplicaciones internacionales con versatilidad en razonamiento, ejecución de tareas tipo agente y configuraciones multilingües.

Este lanzamiento se produce mientras OpenAI regresó a sus raíces de código abierto este mes con los modelos gpt-oss-120b y gpt-oss-20b, en medio de una tendencia del verano de 2025 de empresas chinas lanzando poderosos modelos de código abierto.

Fuente: VentureBeat