ByteDance se une a la carrera de la IA de razonamiento con Seed-Thinking-v1.5

Droids

ByteDance se une a la carrera de la IA de razonamiento con Seed-Thinking-v1.5

ByteDance, la empresa matriz de TikTok, se une a la creciente tendencia de la inteligencia artificial (IA) de razonamiento con el lanzamiento de su nuevo modelo, Seed-Thinking-v1.5. Este anuncio, según se desprende de una publicación en X de Eric Haibin Lin y la publicación del documento técnico en GitHub, marca un paso significativo en la búsqueda de modelos de lenguaje más inteligentes y capaces.

En un panorama donde empresas como OpenAI con su modelo o1 y DeepSeek con R1 están liderando la carga en la IA de razonamiento, ByteDance busca posicionarse como un competidor clave. La noticia fue reportada originalmente por VentureBeat.

Seed-Thinking-v1.5: Un Modelo de Razonamiento Avanzado

Seed-Thinking-v1.5 es un modelo de lenguaje grande (LLM) diseñado para mejorar el rendimiento del razonamiento tanto en campos de ciencia, tecnología, ingeniería y matemáticas (STEM) como en dominios de propósito general. Si bien el modelo aún no está disponible para su descarga o uso, y los términos de licencia son inciertos (ya sea de código cerrado, código abierto o algo intermedio), el documento técnico publicado por ByteDance en GitHub ofrece detalles valiosos sobre su arquitectura y capacidades.

Una de las características clave de Seed-Thinking-v1.5 es su arquitectura Mixture-of-Experts (MoE). Al igual que Llama 4 de Meta y Mixtral de Mistral, esta arquitectura combina las fortalezas de múltiples modelos, cada uno especializado en un dominio diferente, para lograr una mayor eficiencia. En el caso de Seed-Thinking-v1.5, esto significa que utiliza solo 20 mil millones de los 200 mil millones de parámetros a la vez, optimizando así el uso de recursos.

Según el documento técnico de ByteDance, el modelo prioriza el razonamiento estructurado y la generación de respuestas reflexivas. Este enfoque busca mejorar la calidad y la profundidad de las respuestas generadas por el modelo.

Rendimiento y Benchmarks

Los resultados de Seed-Thinking-v1.5 son prometedores. En varias evaluaciones de terceros, el modelo supera a DeepSeek R1 y se acerca a Gemini 2.5 Pro de Google y o3-mini-high reasoner de OpenAI. Incluso supera a estos dos últimos en el benchmark ARC-AGI, que mide el progreso hacia la inteligencia artificial general (AGI), considerada el "Santo Grial" de la IA. Según la definición de OpenAI, este modelo supera a los humanos en la mayoría de las tareas económicamente valiosas.

Como alternativa compacta pero capaz a los modelos de última generación más grandes, Seed-Thinking-v1.5 logra resultados de referencia competitivos. Introduce innovaciones en el aprendizaje por refuerzo (RL), la curación de datos de entrenamiento y la infraestructura de IA.

En tareas desafiantes, Seed-Thinking-v1.5 muestra un gran rendimiento, obteniendo un 86,7% en AIME 2024, un 55,0% pass@8 en Codeforces y un 77,3% en el benchmark científico GPQA. Estos resultados lo sitúan cerca o igualando a modelos como o3-mini-high de OpenAI y Gemini 2.5 Pro de Google en métricas de razonamiento específicas.

En tareas que no son de razonamiento, el modelo se evaluó mediante comparaciones de preferencias humanas y logró una tasa de victorias un 8,0% mayor que DeepSeek R1, lo que sugiere que sus puntos fuertes se generalizan más allá de los retos de lógica o con mucha carga matemática.

Para abordar la saturación en benchmarks estándar como AIME, ByteDance introdujo BeyondAIME, un nuevo benchmark de matemáticas más difícil con problemas seleccionados diseñados para resistir la memorización y discriminar mejor el rendimiento del modelo. Se espera que este conjunto de evaluación y el de Codeforces se publiquen para apoyar futuras investigaciones.

Estrategia de Datos y Reinforcement Learning

Los datos de entrenamiento desempeñaron un papel central en el desarrollo del modelo. Para el ajuste fino supervisado (SFT), el equipo seleccionó 400.000 muestras, incluyendo 300.000 verificables (tareas de STEM, lógica y codificación) y 100.000 problemas no verificables como escritura creativa y juegos de rol.

Para el entrenamiento de RL, los datos se segmentaron en:

  • Problemas verificables: 100.000 preguntas de STEM y rompecabezas lógicos rigurosamente filtrados con respuestas conocidas, procedentes de competiciones de élite y revisiones de expertos.
  • Tareas no verificables: Conjuntos de datos de preferencias humanas centrados en indicaciones abiertas, evaluados mediante modelos de recompensa por pares.

Los datos de STEM se inclinaron fuertemente hacia las matemáticas avanzadas, representando más del 80% del conjunto de problemas. Los datos lógicos adicionales incluyeron tareas como Sudoku y rompecabezas de 24 puntos, con dificultad ajustable para coincidir con el progreso del modelo.

El aprendizaje por refuerzo en Seed-Thinking-v1.5 está impulsado por marcos personalizados de actor-crítico (VAPO) y de gradiente de políticas (DAPO), desarrollados para abordar las inestabilidades conocidas en el entrenamiento de RL. Estas técnicas reducen la escasez de señales de recompensa y mejoran la estabilidad del entrenamiento, especialmente en entornos largos de cadena de pensamiento (CoT).

Los modelos de recompensa desempeñan un papel fundamental en la supervisión de las salidas de RL. ByteDance introdujo dos herramientas clave:

  • Seed-Verifier: Un LLM basado en reglas que comprueba si las respuestas generadas y las de referencia son matemáticamente equivalentes.
  • Seed-Thinking-Verifier: Un juez basado en el razonamiento paso a paso que mejora la consistencia del juicio y resiste la piratería de recompensas.

Este sistema de recompensa de dos niveles permite una evaluación matizada tanto para tareas sencillas como complejas.

Infraestructura y Escalado

Para soportar un entrenamiento eficiente a gran escala, ByteDance construyó un sistema sobre su framework HybridFlow. La ejecución se gestiona mediante clústeres Ray, y los procesos de entrenamiento e inferencia se co-localizan para reducir el tiempo de inactividad de la GPU.

El Streaming Rollout System (SRS) es una innovación notable que separa la evolución del modelo de la ejecución en tiempo de ejecución. Acelera la velocidad de iteración gestionando asíncronamente las generaciones parcialmente completadas entre las versiones del modelo. Esta arquitectura supuestamente ofrece ciclos de RL hasta 3 veces más rápidos.

Las técnicas de infraestructura adicionales incluyen:

  • Precisión mixta (FP8) para el ahorro de memoria
  • Paralelismo de expertos y autoajuste del kernel para la eficiencia MoE
  • ByteCheckpoint para la comprobación resiliente y flexible
  • AutoTuner para optimizar el paralelismo y las configuraciones de memoria

Evaluación Humana e Impacto en el Mundo Real

Para evaluar la alineación con las preferencias centradas en el ser humano, ByteDance llevó a cabo pruebas con humanos en una serie de dominios, incluyendo la escritura creativa, el conocimiento de las humanidades y la conversación general.

Seed-Thinking-v1.5 superó consistentemente a DeepSeek R1 en todas las sesiones, reforzando su aplicabilidad a las necesidades de los usuarios del mundo real.

El equipo de desarrollo señala que los modelos de razonamiento entrenados principalmente en tareas verificables demostraron una fuerte generalización a los dominios creativos, un resultado atribuido a la estructura y el rigor integrados en los flujos de trabajo de entrenamiento matemático.

Implicaciones para Líderes Técnicos y Empresas

Para los líderes técnicos que gestionan el ciclo de vida de los grandes modelos lingüísticos -desde la curación de datos hasta la implementación-, Seed-Thinking-v1.5 presenta una oportunidad para replantearse cómo se integran las capacidades de razonamiento en las pilas de IA de la empresa.

Su proceso de entrenamiento modular, que incluye conjuntos de datos de razonamiento verificables y aprendizaje por refuerzo multifásico, atrae especialmente a los equipos que buscan escalar el desarrollo de LLM manteniendo un control preciso.

Las iniciativas de ByteDance para introducir Seed-Verifier y Seed-Thinking-Verifier ofrecen mecanismos para un modelado de recompensas más fiable, lo que puede ser fundamental a la hora de implementar modelos en entornos de atención al cliente o regulados.

Para los equipos que operan con plazos ajustados y ancho de banda limitado, la estabilidad del modelo bajo el aprendizaje por refuerzo, habilitada por innovaciones como VAPO y el muestreo dinámico, podría reducir los ciclos de iteración y agilizar el ajuste fino para tareas específicas.

Desde una perspectiva de orquestación e implementación, el enfoque de infraestructura híbrida del modelo -incluyendo el Streaming Rollout System (SRS) y el soporte para la optimización FP8- sugiere ganancias significativas en el rendimiento del entrenamiento y la utilización del hardware.

Estas características serían valiosas para los ingenieros responsables de escalar las operaciones LLM a través de sistemas en la nube y en las instalaciones. El hecho de que Seed-Thinking-v1.5 fuera entrenado con mecanismos para adaptar la retroalimentación de recompensa basada en la dinámica del tiempo de ejecución habla directamente de los retos de la gestión de pipelines de datos heterogéneos y el mantenimiento de la consistencia entre dominios.

Para los equipos encargados de garantizar la fiabilidad, la reproducibilidad y la integración continua de nuevas herramientas, el diseño a nivel de sistema de Seed-Thinking-v1.5 podría servir de modelo para la construcción de sistemas de orquestación robustos y multimodales.

Para los profesionales de la ingeniería de datos, el enfoque estructurado de los datos de entrenamiento -incluyendo el filtrado riguroso, el aumento y la verificación por expertos- refuerza la importancia de la calidad de los datos como multiplicador del rendimiento del modelo. Esto podría inspirar enfoques más deliberados para el desarrollo de conjuntos de datos y las canalizaciones de validación.

Futuro y Colaboración

Seed-Thinking-v1.5 es el resultado de la colaboración dentro del equipo Seed LLM Systems de ByteDance, dirigido por Yonghui Wu y con representación pública por Haibin Lin, un colaborador de la IA desde hace mucho tiempo.

El proyecto también se basa en esfuerzos anteriores, como Doubao 1.5 Pro, e incorpora técnicas compartidas en RLHF y curación de datos.

El equipo planea seguir perfeccionando las técnicas de aprendizaje por refuerzo, centrándose en la eficiencia del entrenamiento y el modelado de recompensas para tareas no verificables. La publicación de benchmarks internos como BeyondAIME tiene como objetivo fomentar un avance más amplio en la investigación de la IA centrada en el razonamiento.

Conclusión

El lanzamiento de Seed-Thinking-v1.5 demuestra el creciente interés y la inversión en la IA de razonamiento. La arquitectura MoE, las técnicas avanzadas de RL y el enfoque en los datos de entrenamiento de alta calidad posicionan a este modelo como un competidor prometedor en el campo. A medida que ByteDance avance en su desarrollo y eventualmente lo ponga a disposición del público, Seed-Thinking-v1.5 podría tener un impacto significativo en diversas aplicaciones, desde la resolución de problemas científicos hasta la creación de contenido creativo. Su enfoque en la eficiencia y la escalabilidad también lo convierte en una opción atractiva para las empresas que buscan integrar la IA de razonamiento en sus operaciones.

Deja un comentario