La startup japonesa Sakana ha revelado una innovadora arquitectura de inteligencia artificial denominada "Continuous Thought Machines" (CTM) que busca que los modelos de IA razonen de manera más similar al cerebro humano, requiriendo menos guía externa y adaptándose dinámicamente a la complejidad de las tareas.
Esta nueva tecnología, desarrollada por un equipo liderado por ex científicos de Google AI, promete un avance significativo hacia modelos de lenguaje más flexibles y capaces de manejar un amplio espectro de tareas cognitivas sin necesidad de estructuras predefinidas.
Una nueva forma de "pensar" para las máquinas
Las Continuous Thought Machines representan un cambio fundamental respecto a los modelos actuales basados en la arquitectura Transformer, que domina el panorama de la IA generativa. Según explica Sakana en su micrositio, mientras que los modelos tradicionales utilizan capas paralelas fijas que procesan entradas de una sola vez, los CTM despliegan el cálculo a lo largo de pasos dentro de cada unidad de entrada/salida, conocida como "neurona" artificial.
La innovación clave reside en que cada neurona del modelo conserva un historial breve de su actividad previa y utiliza esa memoria para decidir cuándo activarse nuevamente. Este estado interno adicional permite a los CTM ajustar la profundidad y duración de su razonamiento de forma dinámica, dependiendo de la complejidad de la tarea.
"El objetivo es eventualmente alcanzar niveles de competencia que rivalicen o superen a los cerebros humanos", afirma Sakana en la documentación publicada sobre su nueva tecnología.
Cómo funcionan los CTM: neuronas con memoria y sincronización orgánica
La arquitectura CTM se construye alrededor de dos mecanismos fundamentales que la diferencian de otros modelos:
-
Memoria neuronal: Cada neurona mantiene un historial o memoria de trabajo de cuándo se activó y por qué, utilizando esta información para decidir cuándo "dispararse" nuevamente.
-
Sincronización neural: Los grupos de neuronas artificiales del modelo deciden cuándo activarse juntas basándose en su alineación interna, no en instrucciones externas. Estos eventos de sincronización se utilizan para modular la atención y producir resultados.
Esta forma de procesamiento permite a los CTM reducir la carga computacional en tareas más simples mientras aplican un razonamiento más profundo y prolongado cuando es necesario. Es una aproximación más cercana al funcionamiento del cerebro humano, donde diferentes regiones se activan según la naturaleza y complejidad del problema.
El modelo no solo procesa datos, sino que ajusta su "pensamiento" para coincidir con la complejidad de la tarea, similar a cómo los humanos dedicamos más recursos mentales a problemas difíciles.
Diferencias con los modelos actuales basados en Transformer
La mayoría de los modelos de lenguaje grandes (LLM) actuales se basan en la arquitectura Transformer, definida en el influyente artículo de investigadores de Google Brain titulado "Attention Is All You Need" de 2017.
Estos modelos utilizan capas paralelas de profundidad fija para procesar las entradas en una sola pasada. Por el contrario, los CTM permiten que cada neurona artificial opere según su propio cronograma interno, tomando decisiones de activación basadas en una memoria a corto plazo de sus estados anteriores.
Estas decisiones se desarrollan a lo largo de pasos internos llamados "ticks", lo que permite al modelo ajustar su duración de razonamiento de forma dinámica. El número de "ticks" cambia según la información introducida, y puede ser mayor o menor incluso si la información de entrada es idéntica, porque cada neurona decide individualmente cuántos ticks realizar antes de proporcionar una salida.
Esto representa tanto una salida técnica como filosófica de la deep learning convencional, moviéndose hacia un modelo más fundamentado biológicamente.
Resultados iniciales prometedores
Aunque la arquitectura CTM no está diseñada para perseguir puntuaciones récord en benchmarks, sus resultados iniciales muestran que su diseño inspirado biológicamente no sacrifica la capacidad práctica.
En el conocido benchmark ImageNet-1K, el CTM logró una precisión del 72,47% (top-1) y 89,89% (top-5). Si bien esto no supera a modelos transformer de última generación como ViT o ConvNeXt, sigue siendo competitivo, especialmente considerando que la arquitectura CTM es fundamentalmente diferente y no fue optimizada únicamente para rendimiento.
Lo que destaca más son los comportamientos de CTM en tareas secuenciales y adaptativas. En escenarios de resolución de laberintos, el modelo produce salidas direccionales paso a paso a partir de imágenes sin procesar, sin utilizar incrustaciones posicionales, que suelen ser esenciales en los modelos transformer.
Los CTM también muestran una fuerte calibración: sus estimaciones de confianza se alinean estrechamente con la precisión de predicción real. A diferencia de la mayoría de los modelos que requieren ajustes posteriores, los CTM mejoran la calibración naturalmente al promediar predicciones a lo largo del tiempo mientras se desarrolla su razonamiento interno.
Camino hacia la implementación comercial
Aunque los CTM muestran un potencial sustancial, la arquitectura sigue siendo experimental y aún no está optimizada para su despliegue comercial. Sakana AI presenta el modelo como una plataforma para investigación y exploración adicional, más que como una solución empresarial lista para usar.
El entrenamiento de CTM actualmente requiere más recursos que los modelos transformer estándar. Su estructura temporal dinámica expande el espacio de estados, y se necesita un ajuste cuidadoso para garantizar un aprendizaje estable y eficiente. Además, el soporte de herramientas y depuración aún está en desarrollo, ya que muchas de las bibliotecas y perfiladores actuales no están diseñados para modelos que se despliegan en el tiempo.
No obstante, Sakana ha establecido una base sólida para la adopción comunitaria. La implementación completa de CTM está disponible como código abierto en GitHub e incluye scripts de entrenamiento específicos por dominio, puntos de control preentrenados, utilidades de trazado y herramientas de análisis.
Implicaciones para el futuro de la IA empresarial
Aunque la arquitectura CTM todavía está en sus primeras etapas, los responsables de la toma de decisiones empresariales deberían tomar nota. Su capacidad para asignar recursos de cómputo de forma adaptativa, autorregular la profundidad del razonamiento y ofrecer una interpretabilidad clara puede resultar muy valiosa en sistemas de producción que enfrentan complejidad variable de entrada o requisitos regulatorios estrictos.
Los ingenieros de IA que gestionan el despliegue de modelos encontrarán valor en la inferencia energéticamente eficiente de CTM, especialmente en aplicaciones a gran escala o sensibles a la latencia.
Mientras tanto, el razonamiento paso a paso de la arquitectura permite una mayor explicabilidad, permitiendo a las organizaciones rastrear no solo qué predijo un modelo, sino cómo llegó a esa conclusión.
La trayectoria de Sakana en investigación de IA
Es importante contextualizar que Sakana tiene una historia reciente con altibajos en el campo de la IA. En febrero, la empresa introdujo el AI CUDA Engineer, un sistema de IA diseñado para automatizar la producción de kernels CUDA altamente optimizados.
La promesa era significativa: aceleraciones de 10 a 100 veces en operaciones de aprendizaje automático. Sin embargo, poco después del lanzamiento, revisores externos descubrieron que el sistema estaba explotando debilidades en el entorno de evaluación, esencialmente "haciendo trampa" al eludir las comprobaciones de corrección mediante una vulnerabilidad de memoria.
En una publicación pública, Sakana reconoció el problema y dio crédito a los miembros de la comunidad por señalarlo. Desde entonces, han revisado sus herramientas de evaluación y creación de perfiles de tiempo de ejecución para eliminar lagunas similares.
Una apuesta por los mecanismos evolutivos
La filosofía fundacional de Sakana AI reside en la fusión de la computación evolutiva con el aprendizaje automático moderno. La empresa considera que los modelos actuales son demasiado rígidos, bloqueados en arquitecturas fijas y que requieren reentrenamiento para nuevas tareas.
En contraste, Sakana aspira a crear modelos que se adapten en tiempo real, exhiban comportamiento emergente y escalen naturalmente a través de la interacción y la retroalimentación, de manera similar a los organismos en un ecosistema.
Esta visión ya se está manifestando en productos como Transformer², un sistema que ajusta los parámetros de LLM en tiempo de inferencia sin reentrenamiento, utilizando trucos algebraicos como la descomposición de valores singulares.
También es evidente en su compromiso con el código abierto de sistemas como el AI Scientist, demostrando una voluntad de colaborar con la comunidad de investigación más amplia, no solo competir con ella.
Mientras que gigantes como OpenAI y Google apuestan por modelos de fundación cada vez más grandes, Sakana está trazando un camino diferente: sistemas pequeños, dinámicos e inspirados biológicamente que piensan en el tiempo, colaboran por diseño y evolucionan a través de la experiencia.






