Cohere lanza Command A Vision, un modelo de IA que supera a GPT-4 en tareas visuales con solo dos GPUs

Droids

Updated on:

La compañía canadiense de inteligencia artificial Cohere ha anunciado el lanzamiento de Command A Vision, un nuevo modelo de lenguaje visual (VLM) diseñado específicamente para el entorno empresarial. Este modelo no solo presume de superar a gigantes como GPT 4.1 de OpenAI y Llama 4 Maverick de Meta en diversas pruebas de rendimiento visual, sino que lo hace con una eficiencia de hardware sin precedentes, requiriendo únicamente dos o menos unidades de procesamiento gráfico (GPU) para su funcionamiento.

Este lanzamiento se enmarca en una tendencia creciente donde las empresas buscan herramientas de IA cada vez más sofisticadas para analizar la gran cantidad de documentos no estructurados que manejan a diario. Con Command A Vision, Cohere busca ofrecer una solución potente, accesible y optimizada para las necesidades concretas del mundo corporativo.

Una herramienta de visión diseñada para el mundo empresarial

Command A Vision es un modelo de 112 mil millones de parámetros construido sobre la base del modelo de texto de la compañía, Command A. Su principal objetivo es «desbloquear información valiosa a partir de datos visuales y tomar decisiones altamente precisas basadas en datos mediante el reconocimiento óptico de caracteres (OCR) y el análisis de imágenes», según afirma la compañía.

Esto significa que el modelo está especializado en interpretar los tipos de imágenes y documentos más comunes en un entorno de negocios: gráficos complejos, diagramas técnicos, tablas de datos, documentos escaneados y archivos PDF. La capacidad de procesar esta información, que a menudo queda fuera del alcance de los modelos de lenguaje tradicionales, es crucial para automatizar flujos de trabajo y extraer conocimiento.

«Ya sea interpretando manuales de productos con diagramas complejos o analizando fotografías de escenas del mundo real para la detección de riesgos, Command A Vision sobresale en la resolución de los desafíos de visión empresarial más exigentes», explicó la empresa en una publicación de su blog. Además, al estar basado en Command A, el modelo conserva sus capacidades de texto y comprende al menos 23 idiomas, lo que lo hace versátil para organizaciones globales.

La eficiencia como clave: reduciendo costes y barreras

Quizás la característica más disruptiva de Command A Vision es su bajo requisito de hardware. Mientras que muchos modelos de IA de gran escala necesitan clústeres de GPUs para funcionar, el nuevo modelo de Cohere puede operar con solo dos o incluso una GPU. Según la fuente original de esta noticia, VentureBeat, esta eficiencia reduce significativamente el coste total de propiedad (TCO) para las empresas.

Esta accesibilidad democratiza el acceso a la IA de vanguardia, permitiendo que empresas de menor tamaño o con presupuestos más ajustados puedan implementar soluciones de análisis visual avanzadas sin realizar una inversión masiva en infraestructura.

Además, Cohere ha optado por ofrecer Command A Vision bajo un sistema de pesos abiertos (open weights). Esta estrategia lo posiciona como una alternativa atractiva frente a los modelos «cerrados» o propietarios de competidores como OpenAI. Al proporcionar un mayor control y transparencia, Cohere espera atraer a empresas que buscan construir sus propias aplicaciones personalizadas y evitar la dependencia de un único proveedor.

¿Cómo funciona? La tecnología detrás de Command A Vision

Para lograr este equilibrio entre potencia y eficiencia, Cohere ha utilizado una arquitectura conocida como Llava. Este enfoque técnico permite transformar las características visuales de una imagen en «tokens», que son unidades de información que el modelo de lenguaje puede entender. Estos tokens visuales se dividen en mosaicos y se introducen en la «torre de texto» de Command A, un modelo de lenguaje denso de 111 mil millones de parámetros. De esta manera, una sola imagen puede consumir hasta 3.328 tokens.

El proceso de entrenamiento del modelo se dividió en tres etapas fundamentales:

  1. Alineación visión-lenguaje: En esta primera fase, se enseñó al modelo a establecer una conexión entre las características de una imagen y el espacio semántico del lenguaje.
  2. Ajuste fino supervisado (SFT): Posteriormente, se entrenó simultáneamente el codificador de visión, el adaptador de visión y el modelo de lenguaje en un conjunto diverso de tareas multimodales, afinando su capacidad para seguir instrucciones que combinan texto e imágenes.
  3. Aprendizaje por refuerzo con retroalimentación humana (RLHF): Finalmente, el modelo fue perfeccionado utilizando la retroalimentación de evaluadores humanos para mejorar su precisión y alinearlo mejor con las preferencias y expectativas de los usuarios.

Superioridad demostrada en las pruebas de rendimiento

Cohere ha respaldado sus afirmaciones con una serie de pruebas de referencia (benchmarks) en las que enfrentó a Command A Vision contra algunos de los modelos más avanzados del mercado. La comparativa incluyó a GPT 4.1 de OpenAI, Llama 4 Maverick de Meta, y Pixtral Large y Mistral Medium 3 de Mistral.

Los resultados, publicados por Cohere, muestran que Command A Vision superó a sus competidores en pruebas clave como ChartQA (preguntas sobre gráficos), OCRBench (reconocimiento de texto en imágenes), AI2D (comprensión de diagramas) y TextVQA (preguntas sobre texto en imágenes). En promedio, Command A Vision alcanzó una puntuación del 83.1%, superando el 78.6% de GPT 4.1, el 80.5% de Llama 4 Maverick y el 78.3% de Mistral Medium 3.

No obstante, la compañía señaló que no se probó el modelo contra la API especializada en OCR de Mistral, Mistral OCR, un detalle importante para contextualizar el alcance de las comparativas.

El contexto: la IA multimodal como motor de la analítica empresarial

El lanzamiento de Command A Vision llega en un momento en que la inteligencia artificial multimodal —aquella capaz de entender y generar contenido a través de diferentes formatos como texto, imágenes y vídeo— se está convirtiendo en un pilar para la innovación empresarial. Las funciones de «Investigación Profunda» (Deep Research), que automatizan el análisis de grandes volúmenes de información, dependen cada vez más de modelos capaces de leer datos no estructurados.

Para muchas organizaciones, la dificultad de extraer información útil de gráficos, informes en PDF o documentos escaneados ha sido un obstáculo persistente. Herramientas como Command A Vision prometen derribar estas barreras, permitiendo una analítica más profunda y decisiones más informadas, todo ello con una eficiencia que podría cambiar las reglas del juego en el competitivo mercado de la inteligencia artificial.