El laboratorio alemán TNG lanza una variante de DeepSeek un 200 % más rápida y eficiente

Droids

Updated on:

La consultora tecnológica TNG Technology Consulting GmbH ha presentado DeepSeek-TNG R1T2 Chimera, un nuevo modelo de inteligencia artificial que promete ser más del doble de rápido que su predecesor oficial, manteniendo casi toda su capacidad de razonamiento. La clave de este avance reside en una innovadora técnica de fusión de modelos y en la generación de respuestas mucho más concisas.

Apenas un mes después de que la startup china DeepSeek lanzara la última versión de su exitoso modelo de código abierto DeepSeek, R1-0528, la comunidad de desarrolladores de IA ya está explorando nuevas fronteras. Aprovechando su permisiva licencia Apache 2.0, los laboratorios de todo el mundo están adaptando y mejorando este potente modelo, que en su momento sorprendió al sector por su bajo coste de entrenamiento y su alto rendimiento.

Esta semana, la firma alemana con 24 años de historia, TNG Technology Consulting GmbH, ha presentado una de estas adaptaciones: el DeepSeek-TNG R1T2 Chimera. Este nuevo modelo, parte de la familia Chimera de TNG, ofrece un notable impulso en eficiencia y velocidad. Logra obtener más del 90% de las puntuaciones de inteligencia de su predecesor, R1-0528, pero generando respuestas con menos del 40% de la cantidad de «tokens» (las unidades de texto que procesa la IA). En la práctica, esto se traduce en respuestas más cortas, una inferencia más rápida y un menor coste computacional.

Un salto en eficiencia sin sacrificar inteligencia

La propuesta de TNG es clara: mantener la potencia de razonamiento de los modelos más avanzados, pero eliminando su verbosidad. Según la ficha del modelo publicada por TNG en la comunidad de código de IA Hugging Face, el nuevo R1T2 es «aproximadamente un 20% más rápido que el R1 regular» (lanzado en enero) y «más del doble de rápido que el R1-0528», la actualización oficial de mayo.

La reacción de la comunidad de desarrolladores de IA no se ha hecho esperar. «¡IMPRESIONANTE! DeepSeek R1T2 – 200% más rápido que R1-0528 y 20% más rápido que R1», escribió en X Vaibhav (VB) Srivastav, un alto directivo de Hugging Face. «Significativamente mejor que R1 en las pruebas GPQA y AIME 24, creado mediante Assembly of Experts con DS V3, R1 y R1-0528, y tiene licencia MIT, disponible en Hugging Face».

La clave: «Assembly-of-Experts»

Este notable aumento de rendimiento es posible gracias al método Assembly-of-Experts (AoE), o «Ensamblaje de Expertos», una técnica descrita por TNG en un artículo publicado en mayo en el repositorio científico arXiv. En lugar de entrenar un modelo desde cero, AoE construye un nuevo modelo fusionando selectivamente los parámetros internos (conocidos como tensores de peso) de múltiples modelos ya entrenados.

El R1T2 Chimera, sucesor del R1T Chimera original, introduce una nueva configuración «Tri-Mind» (Triple Mente) que integra tres modelos «padre»:

  1. DeepSeek-R1-0528: Aporta su potente capacidad de razonamiento.
  2. DeepSeek-R1: Contribuye con sus patrones de pensamiento estructurado.
  3. DeepSeek-V3-0324: Añade su comportamiento conciso y orientado a seguir instrucciones.

El resultado es un modelo construido sin necesidad de reentrenamiento adicional, que hereda las mejores cualidades de sus progenitores para ofrecer una solución eficiente y capaz para empresas e investigadores.

¿En qué se diferencia de Mixture-of-Experts (MoE)?

Es importante no confundir Assembly-of-Experts (AoE) con la arquitectura Mixture-of-Experts (MoE), o «Mezcla de Expertos», utilizada en modelos como Mixtral o el propio DeepSeek-V3.

  • MoE es una arquitectura: Un modelo MoE contiene múltiples «expertos» (componentes especializados) y solo activa un subconjunto de ellos para cada tarea. Esto permite que los modelos sean muy grandes en número de parámetros, pero eficientes en su ejecución, ya que solo una fracción de la red se utiliza en cada momento.
  • AoE es una técnica de fusión: No es una arquitectura, sino un método para crear un modelo completamente nuevo a partir de varios modelos MoE preexistentes. En lugar de activar expertos en tiempo de ejecución, AoE combina los tensores de esos expertos para crear un modelo único y optimizado.

El enfoque de TNG se centra en fusionar los tensores de los expertos responsables del razonamiento especializado, mientras conserva las capas más eficientes de modelos más rápidos, como el V3-0324.

¿Qué significan realmente las cifras de rendimiento?

Según las comparativas de TNG, el R1T2 alcanza entre el 90% y el 92% del rendimiento de razonamiento de su padre más inteligente, el R1-0528, en pruebas de referencia como AIME-24, AIME-25 y GPQA-Diamond.

Sin embargo, la verdadera innovación reside en cómo logra esta inteligencia. Mientras que el R1-0528 tiende a producir respuestas largas y detalladas, el R1T2 está diseñado para ser mucho más conciso. En lugar de medir la «velocidad» en términos de tiempo de procesamiento bruto, TNG la mide en función del número de tokens de salida por respuesta. Según sus benchmarks, el R1T2 genera respuestas utilizando solo el 40% de los tokens que necesita el R1-0528.

Esto representa una reducción del 60% en la longitud de la respuesta, lo que impacta directamente en la reducción del tiempo de inferencia y la carga computacional, haciendo que las respuestas sean, en efecto, el doble de rápidas.

Disponibilidad, licencia y consideraciones de despliegue

El modelo R1T2 se publica bajo una licencia permisiva MIT y ya está disponible en la plataforma Hugging Face, lo que significa que es de código abierto y puede ser utilizado y modificado para aplicaciones comerciales.

TNG señala que, si bien el modelo es excelente para tareas de razonamiento general, actualmente no se recomienda para casos de uso que requieran «function calling» (la capacidad del modelo para usar herramientas externas), debido a limitaciones heredadas de su linaje DeepSeek-R1.

Además, la compañía advierte a los usuarios europeos que deben evaluar el cumplimiento de la Ley de IA de la UE, que entrará en vigor el 2 de agosto de 2025. Las empresas que operan en la UE deberán revisar las disposiciones pertinentes o considerar la interrupción del uso del modelo si no se pueden cumplir los requisitos.

Beneficios estratégicos para las empresas

Para los directores de tecnología (CTOs), responsables de plataformas de IA y equipos de ingeniería, el R1T2 introduce ventajas tangibles:

  • Menores costes de inferencia: Menos tokens de salida significan menos tiempo de uso de GPU y menor consumo de energía, lo que se traduce en ahorros de infraestructura.
  • Alta calidad de razonamiento sin sobrecarga: Mantiene la potencia de los modelos de primer nivel, pero sin su verbosidad, ideal para tareas estructuradas (matemáticas, programación, lógica) donde se prefieren respuestas concisas.
  • Abierto y modificable: La licencia MIT permite un control total sobre el despliegue, la personalización y el reentrenamiento en entornos privados o regulados.
  • Modularidad emergente: El enfoque AoE sugiere un futuro en el que las empresas podrán ensamblar variantes de modelos especializadas combinando las fortalezas de los modelos existentes, en lugar de entrenarlos desde cero.

TNG anima a los investigadores, desarrolladores y empresas a explorar el modelo y proporcionar feedback. El R1T2 Chimera está disponible en huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera. Para consultas técnicas, el documento de investigación está disponible en arXiv:2506.14794.