Una nueva empresa llamada Deep Cogito ha salido a la luz pública con una familia de modelos de inteligencia artificial de código abierto que ofrecen una característica distintiva: la capacidad de alternar entre modos de "razonamiento" y no razonamiento. Estos modelos híbridos, según la compañía, superan a los mejores modelos abiertos de tamaño similar, incluyendo sistemas desarrollados por Meta y la startup china DeepSeek.
Modelos que pueden "razonar" bajo demanda
Los modelos de razonamiento como el o1 de OpenAI han demostrado gran potencial en áreas como matemáticas y física, gracias a su capacidad para verificarse a sí mismos mientras resuelven problemas complejos paso a paso. Sin embargo, este tipo de razonamiento conlleva un coste significativo: mayor consumo de recursos computacionales y mayor latencia (tiempo de respuesta).
"Cada modelo puede responder directamente […] o reflexionar antes de responder (como los modelos de razonamiento)", explicó la empresa en una entrada de blog. "Todos fueron desarrollados por un pequeño equipo en aproximadamente 75 días".
Este enfoque híbrido permite que los modelos respondan rápidamente a preguntas sencillas, mientras dedican tiempo adicional a considerar consultas más complejas. Es precisamente lo que laboratorios como Anthropic están buscando con arquitecturas que combinan componentes de razonamiento con elementos estándar no razonantes.
Familia de modelos con diferentes capacidades
La familia de modelos de Deep Cogito, denominada Cogito 1, abarca desde 3.000 millones hasta 70.000 millones de parámetros. La empresa ha anunciado que en las próximas semanas y meses se sumarán modelos de hasta 671.000 millones de parámetros. Es importante entender que los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un modelo; generalmente, más parámetros significan mejor rendimiento.
Cabe destacar que Cogito 1 no fue desarrollado desde cero. Deep Cogito se basó en los modelos abiertos Llama de Meta y Qwen de Alibaba para crear los suyos propios. La compañía afirma haber aplicado enfoques de entrenamiento novedosos para mejorar el rendimiento de los modelos base y permitir el razonamiento conmutable.
Rendimiento de Cogito 1 en comparación con otros modelos de IA de código abierto populares. Crédito: Deep Cogito
Según los resultados de las pruebas comparativas internas de la compañía, el modelo más grande de Cogito 1, Cogito 70B, con el razonamiento activado, supera al modelo de razonamiento R1 de DeepSeek en algunas evaluaciones matemáticas y de lenguaje. Además, el Cogito 70B con el razonamiento desactivado también supera al modelo Llama 4 Scout de Meta, de reciente lanzamiento, en LiveBench, una prueba de IA de propósito general.
Todos los modelos Cogito 1 están disponibles para su descarga o uso a través de APIs en proveedores de nube como Fireworks AI y Together AI.
Los fundadores y sus ambiciones
Según documentos presentados en el Estado de California, Deep Cogito fue fundada en junio de 2024 en San Francisco. La página de LinkedIn de la empresa menciona dos cofundadores: Drishan Arora y Dhruv Malhotra.
Malhotra fue anteriormente gerente de producto en el laboratorio de IA DeepMind de Google, donde trabajó en tecnología de búsqueda generativa. Por su parte, Arora trabajó como ingeniero de software senior en Google.
Entre los inversores de Deep Cogito se encuentra South Park Commons, según PitchBook. La empresa tiene la ambiciosa meta de construir una "superinteligencia general", un concepto que sus fundadores entienden como inteligencia artificial capaz de realizar tareas mejor que la mayoría de los humanos y "descubrir capacidades completamente nuevas que aún no hemos imaginado".
El futuro de los modelos de razonamiento
"Actualmente, todavía estamos en las primeras etapas de nuestra curva de escalado, habiendo utilizado solo una fracción de la computación típicamente reservada para el entrenamiento continuo/posterior de modelos de lenguaje grandes tradicionales", escribió Cogito en su entrada de blog. "En el futuro, estamos investigando enfoques complementarios de post-entrenamiento para la auto-mejora".
La aparición de estos modelos híbridos marca un avance importante en el campo de la inteligencia artificial. La capacidad de alternar entre el modo de razonamiento y no razonamiento podría permitir un equilibrio más eficiente entre la precisión de respuesta y la velocidad de procesamiento, adaptándose a diferentes tipos de consultas.
El enfoque de Deep Cogito se suma a una tendencia creciente en el sector: la creación de modelos de IA más versátiles que puedan optimizar sus recursos computacionales según la complejidad de la tarea. Mientras empresas como OpenAI y Anthropic continúan explorando capacidades de razonamiento avanzadas, iniciativas como Cogito 1 amplían el ecosistema de herramientas disponibles para desarrolladores e investigadores.
La disponibilidad pública de estos modelos también contribuye a democratizar el acceso a estas tecnologías, permitiendo que un mayor número de investigadores y desarrolladores puedan experimentar con capacidades de razonamiento que hasta ahora estaban principalmente en manos de grandes laboratorios de IA con enormes recursos computacionales.
Habrá que seguir de cerca la evolución de Deep Cogito para comprobar si sus ambiciosos objetivos de desarrollar una "superinteligencia general" se materializan y cómo sus modelos híbridos de razonamiento se comparan con futuras iteraciones de la competencia.