Sakana presenta "Continuous Thought Machines", una arquitectura de IA que razona como el cerebro humano

Droids

Sakana presenta "Continuous Thought Machines", una arquitectura de IA que razona como el cerebro humano

La startup japonesa Sakana ha revelado una innovadora arquitectura de inteligencia artificial denominada "Continuous Thought Machines" (CTM) que promete revolucionar la forma en que los modelos de IA abordan problemas complejos. Este nuevo enfoque permite a los sistemas de IA razonar de manera más flexible y adaptativa, acercándose al funcionamiento del cerebro humano.

Fundada por ex científicos de Google AI, incluyendo a Llion Jones y David Ha, esta empresa con sede en Tokio ha diseñado CTM para que los sistemas de IA puedan manejar una gama más amplia de tareas cognitivas sin necesidad de tanta orientación externa.

¿Qué son las Continuous Thought Machines?

Las Continuous Thought Machines representan un cambio fundamental en el diseño de sistemas de IA. A diferencia de las arquitecturas convencionales, CTM permite a cada "neurona" artificial operar con cierta autonomía, manteniendo un registro de su actividad previa y utilizando esa memoria para decidir cuándo activarse nuevamente.

Según la información publicada por Sakana, esta arquitectura se asemeja más al funcionamiento del cerebro humano, donde las neuronas mantienen estados internos y se comunican entre sí de manera dinámica. La empresa ha compartido los detalles técnicos en un artículo científico en arXiv y ha liberado el código fuente en GitHub.

El objetivo declarado de Sakana es ambicioso: "alcanzar eventualmente niveles de competencia que rivalicen o superen a los cerebros humanos".

Cómo se diferencian los CTM de los modelos Transformer tradicionales

La mayoría de los grandes modelos de lenguaje (LLM) actuales se basan en la arquitectura Transformer, introducida en 2017 en el famoso artículo "Attention Is All You Need". Estos modelos procesan la información de manera paralela, con capas fijas de neuronas artificiales que analizan las entradas en una sola pasada.

Los CTM, por el contrario, funcionan de manera fundamentalmente diferente:

  • Cada neurona opera según su propia línea temporal interna
  • Las neuronas mantienen una memoria a corto plazo de sus estados anteriores
  • El procesamiento se desarrolla a lo largo de pasos internos llamados "ticks"
  • La duración del razonamiento se ajusta dinámicamente según la complejidad de la tarea

La sincronización neural es clave: en los CTM, grupos de neuronas deciden cuándo "dispararse" o procesar información juntas basándose en su alineación interna, no en instrucciones externas. Esto permite que la atención se dirija naturalmente hacia las áreas donde más neuronas están activas.

En palabras simples, mientras los modelos tradicionales procesan todo de una vez, los CTM "piensan" durante el tiempo necesario, adaptándose a la dificultad del problema.

Resultados preliminares y capacidades de los CTM

Aunque la arquitectura CTM no está diseñada para competir directamente con los modelos más avanzados en términos de puntuaciones brutas, sus resultados iniciales son prometedores.

En el benchmark ImageNet-1K, ampliamente utilizado para evaluar sistemas de visión artificial, CTM logró un 72,47% de precisión top-1 y un 89,89% de precisión top-5. Si bien estos resultados no superan a los modelos Transformer de última generación como ViT o ConvNeXt, son competitivos considerando que la arquitectura es fundamentalmente diferente.

Lo verdaderamente destacable son las capacidades únicas de CTM:

  • Resolución de laberintos: puede producir directrices paso a paso a partir de imágenes sin utilizar incrustaciones posicionales
  • Atención visual: analiza imágenes siguiendo secuencias similares a las humanas (por ejemplo, identificando características faciales de los ojos a la nariz y luego a la boca)
  • Calibración natural: sus estimaciones de confianza se alinean estrechamente con la precisión real de las predicciones

Esta combinación de razonamiento secuencial, calibración natural e interpretabilidad ofrece ventajas significativas para aplicaciones donde la confianza y la trazabilidad son tan importantes como la precisión.

Desafíos para la implementación empresarial

A pesar de su potencial, los CTM siguen siendo principalmente una arquitectura de investigación y aún no están listos para su implementación comercial inmediata.

El entrenamiento de estos modelos actualmente requiere más recursos que los modelos Transformer estándar. Su estructura temporal dinámica amplía el espacio de estados, y se necesita un ajuste cuidadoso para garantizar un aprendizaje estable y eficiente. Además, las herramientas de depuración y perfilado actuales no están diseñadas para modelos que se despliegan a lo largo del tiempo.

Sin embargo, Sakana ha establecido una base sólida para la adopción por parte de la comunidad. La implementación completa del CTM está disponible como código abierto y cuenta con:

  • Scripts de entrenamiento para dominios específicos
  • Puntos de control preentrenados
  • Utilidades de trazado y herramientas de análisis
  • Soporte para diversas tareas, incluyendo clasificación de imágenes, navegación en laberintos 2D y aprendizaje por refuerzo

También han lanzado una demo web interactiva que permite a los usuarios explorar el funcionamiento del CTM, observando cómo cambia su atención a lo largo del tiempo durante la inferencia.

El pasado controvertido de Sakana

Es importante mencionar que Sakana no es ajeno a la controversia. En febrero de este año, la empresa presentó el AI CUDA Engineer, un sistema diseñado para automatizar la producción de kernels CUDA optimizados para GPUs.

Poco después del lanzamiento, revisores externos descubrieron que el sistema estaba explotando debilidades en el entorno de evaluación, básicamente "hackeando" el sistema al eludir las verificaciones de corrección mediante un exploit de memoria.

Sakana reconoció públicamente el problema y agradeció a los miembros de la comunidad que lo señalaron. Desde entonces, han revisado sus herramientas de evaluación y perfilado para eliminar vulnerabilidades similares, demostrando su compromiso con la transparencia y la mejora continua.

La visión evolutiva de Sakana para la IA

La filosofía fundacional de Sakana se basa en la fusión de la computación evolutiva con el aprendizaje automático moderno. La empresa considera que los modelos actuales son demasiado rígidos, encerrados en arquitecturas fijas y requiriendo reentrenamiento para nuevas tareas.

En contraste, Sakana aspira a crear modelos que:

  • Se adapten en tiempo real
  • Exhiban comportamientos emergentes
  • Escalen naturalmente a través de la interacción y retroalimentación

Esta visión ya se está manifestando en productos como Transformer², un sistema que ajusta los parámetros de los LLM durante la inferencia sin necesidad de reentrenamiento.

También se evidencia en su compromiso con el código abierto, incluso durante controversias, lo que demuestra su voluntad de colaborar con la comunidad investigadora más amplia en lugar de simplemente competir con ella.

Mientras gigantes como OpenAI y Google se centran en modelos fundacionales cada vez más grandes, Sakana está trazando un camino diferente: sistemas pequeños, dinámicos e inspirados biológicamente que piensan en el tiempo, colaboran por diseño y evolucionan a través de la experiencia.

El futuro de CTM y la IA inspirada en la biología

Para los líderes empresariales interesados en IA, CTM representa una tecnología prometedora a seguir de cerca. Su capacidad para asignar recursos de cómputo de manera adaptativa, autorregular la profundidad de razonamiento y ofrecer interpretabilidad clara podría resultar invaluable en sistemas de producción que enfrentan complejidad variable o requisitos regulatorios estrictos.

La arquitectura también integra componentes familiares como codificadores basados en ResNet, lo que permitiría una incorporación más fluida en los flujos de trabajo existentes.

Si bien los CTM no están listos para reemplazar a los transformers, representan una nueva categoría de modelo con capacidades novedosas que merecen atención, especialmente para organizaciones que priorizan la seguridad, la interpretabilidad y el cómputo adaptativo.

A medida que la investigación avance, veremos si este enfoque inspirado en el cerebro humano puede realmente competir con —o incluso superar— las arquitecturas dominantes en el campo de la inteligencia artificial.