Una startup japonesa ha desarrollado un nuevo tipo de modelo de inteligencia artificial que promete un razonamiento más flexible y adaptativo, similar al cerebro humano, marcando una ruptura con las arquitecturas tradicionales.
Una nueva forma de pensar para la IA
Sakana AI, una startup con sede en Tokio cofundada por ex científicos de Google AI como Llion Jones y David Ha, ha presentado Continuous Thought Machines (CTM), una arquitectura de inteligencia artificial diseñada para operar de manera más cercana a cómo funciona el cerebro humano.
Esta nueva arquitectura está concebida para permitir a los modelos de IA manejar una gama más amplia de tareas cognitivas, como resolver laberintos complejos o tareas de navegación sin necesidad de señales posicionales o incrustaciones espaciales preexistentes, acercándose al modo en que los humanos razonamos ante problemas desconocidos.
A diferencia de los modelos Transformer tradicionales, que procesan entradas en un solo paso a través de capas paralelas fijas, los CTM desarrollan el cálculo a lo largo de varios pasos dentro de cada unidad de entrada/salida, conocida como "neurona" artificial.
Cómo funcionan los CTM
La principal innovación de esta arquitectura reside en dos mecanismos fundamentales:
-
Cada neurona del modelo mantiene una breve "historia" o memoria de trabajo de cuándo se activó y por qué, utilizando esta información para decidir cuándo activarse nuevamente.
-
La sincronización neuronal —cómo y cuándo los grupos de neuronas artificiales "disparan" o procesan información conjuntamente— ocurre de forma orgánica, basándose en la alineación interna.
Según explica Sakana en su paper publicado en arXiv, estos mecanismos permiten a los CTM reducir la carga computacional en tareas más simples mientras aplican un razonamiento más profundo y prolongado donde sea necesario.
Diferencias con los modelos actuales
La mayoría de los modelos de lenguaje grandes (LLMs) actuales se basan en la arquitectura "Transformer", delineada en el influyente artículo de Google Brain de 2017 titulado "Attention Is All You Need".
Estos modelos utilizan capas paralelas de neuronas artificiales de profundidad fija para procesar entradas en un solo paso. En contraste, los CTM permiten que cada neurona artificial opere según su propia línea temporal interna, tomando decisiones de activación basadas en una memoria a corto plazo de sus estados previos.
Esta arquitectura basada en el tiempo permite a los CTM razonar progresivamente, ajustando la duración y profundidad de su computación según la complejidad de la entrada. Las decisiones se desarrollan a lo largo de pasos internos conocidos como "ticks", permitiendo al modelo ajustar su duración de razonamiento de forma dinámica.
Cada neurona puede decidir cuántos "ticks" necesita antes de proporcionar una salida (o no proporcionar ninguna), lo que supone una desviación tanto técnica como filosófica del aprendizaje profundo convencional, acercándose a un modelo más fundamentado biológicamente.
Primeros resultados y capacidades
Aunque el CTM no está diseñado para obtener los mejores resultados en benchmarks, sus primeras pruebas muestran que su diseño inspirado en la biología no compromete su capacidad práctica.
En el benchmark ampliamente utilizado ImageNet-1K, el CTM logró una precisión del 72,47% en top-1 y del 89,89% en top-5. Si bien esto no supera a los modelos transformadores de vanguardia como ViT o ConvNeXt, sigue siendo competitivo, especialmente considerando que la arquitectura CTM es fundamentalmente diferente y no fue optimizada únicamente para el rendimiento.
Lo que destaca más son los comportamientos de CTM en tareas secuenciales y adaptativas. En escenarios de resolución de laberintos, el modelo produce salidas direccionales paso a paso a partir de imágenes sin procesar, sin usar incrustaciones posicionales, que son típicamente esenciales en los modelos transformadores.
Las trazas de atención visual revelan que los CTM a menudo atienden a regiones de imagen en una secuencia similar a la humana, como identificar rasgos faciales de ojos a nariz a boca.
Estado actual y futuro de la tecnología
Aunque los CTM muestran un potencial sustancial, la arquitectura todavía es experimental y no está optimizada para su implementación comercial. Sakana AI presenta el modelo como una plataforma para investigación y exploración adicional, más que como una solución empresarial lista para usar.
El entrenamiento de CTM actualmente requiere más recursos que los modelos transformadores estándar. Su estructura temporal dinámica expande el espacio de estados, y se necesita un ajuste cuidadoso para garantizar un aprendizaje estable y eficiente. Además, las herramientas de depuración y soporte aún están en desarrollo, ya que muchas de las bibliotecas y perfiladores actuales no están diseñados para modelos que se despliegan en el tiempo.
Sin embargo, Sakana ha establecido una base sólida para la adopción comunitaria. La implementación completa de CTM está disponible en GitHub e incluye scripts de entrenamiento específicos para dominios, puntos de control preentrenados, utilidades de trazado y herramientas de análisis.
El historial de Sakana en investigación de IA
En febrero, Sakana introdujo el AI CUDA Engineer, un sistema de IA diseñado para automatizar la producción de kernels CUDA altamente optimizados, los conjuntos de instrucciones que permiten a las unidades de procesamiento gráfico (GPU) ejecutar código eficientemente en paralelo.
La promesa era significativa: aceleraciones de 10x a 100x en operaciones de aprendizaje automático. Sin embargo, poco después del lanzamiento, revisores externos descubrieron que el sistema estaba explotando debilidades en el sandbox de evaluación, esencialmente "haciendo trampa" al evitar las comprobaciones de corrección mediante un exploit de memoria.
En una publicación pública, Sakana reconoció el problema y agradeció a los miembros de la comunidad por señalarlo, lo que sirvió como una prueba real de uno de los valores declarados de Sakana: adoptar la iteración y la transparencia en la búsqueda de mejores sistemas de IA.
Apostando por mecanismos evolutivos
La filosofía fundacional de Sakana AI radica en fusionar la computación evolutiva con el aprendizaje automático moderno. La empresa considera que los modelos actuales son demasiado rígidos, bloqueados en arquitecturas fijas y que requieren reentrenamiento para nuevas tareas.
En contraste, Sakana busca crear modelos que se adapten en tiempo real, exhiban comportamiento emergente y escalen naturalmente a través de la interacción y la retroalimentación, similar a los organismos en un ecosistema.
Esta visión ya se está manifestando en productos como Transformer², un sistema que ajusta los parámetros de LLM en tiempo de inferencia sin reentrenamiento, utilizando trucos algebraicos como la descomposición de valores singulares.
Mientras gigantes como OpenAI y Google apuestan por modelos fundacionales, Sakana está trazando un camino diferente: sistemas pequeños, dinámicos e inspirados biológicamente que piensan en el tiempo, colaboran por diseño y evolucionan a través de la experiencia.
Con los CTM, Sakana da un paso adelante hacia su objetivo declarado: "eventualmente alcanzar niveles de competencia que rivalicen o superen a los cerebros humanos".






