Cohere For AI, el laboratorio de investigación sin ánimo de lucro de la startup Cohere, ha presentado esta semana Aya Vision, un modelo de inteligencia artificial "abierto" que promete establecer un nuevo estándar en el procesamiento visual multilingüe.
Un modelo versátil para múltiples idiomas
El nuevo sistema destaca por su capacidad para realizar diversas tareas relacionadas con el procesamiento de imágenes en 23 idiomas principales. Entre sus funcionalidades se incluyen la generación de subtítulos para imágenes, la respuesta a preguntas sobre fotografías, la traducción de textos y la creación de resúmenes.
Según informó Cohere en su blog oficial, "aunque la IA ha progresado significativamente, todavía existe una brecha importante en el rendimiento de los modelos entre diferentes idiomas, especialmente en tareas multimodales que involucran tanto texto como imágenes".
Dos versiones para diferentes necesidades
La compañía ha lanzado dos variantes del modelo:
-
Aya Vision 32B: La versión más avanzada, que según Cohere supera a modelos del doble de su tamaño, incluyendo el Llama-3.2 90B Vision de Meta, en determinadas pruebas de comprensión visual.
-
Aya Vision 8B: Una versión más ligera que, sorprendentemente, obtiene mejores resultados en algunas evaluaciones que modelos diez veces más grandes.
Innovación en el entrenamiento
Una de las características más destacadas de Aya Vision es su método de entrenamiento. El equipo utilizó conjuntos de datos en inglés que posteriormente fueron traducidos para crear anotaciones sintéticas. Esta aproximación sigue una tendencia creciente en la industria, donde gigantes como OpenAI están recurriendo cada vez más a datos sintéticos ante el agotamiento de datos reales para el entrenamiento.
Nueva suite de evaluación
Junto con el modelo, Cohere ha presentado AyaVisionBench, una nueva suite de evaluación diseñada para medir las capacidades de los modelos de IA en tareas de "visión-lenguaje". Esta herramienta permite evaluar aspectos como la identificación de diferencias entre imágenes y la conversión de capturas de pantalla a código.
Disponibilidad y acceso
El modelo está disponible gratuitamente a través de dos canales:
- WhatsApp para uso general
- Plataforma Hugging Face para desarrolladores e investigadores
La licencia del modelo es Creative Commons 4.0, con un addendum específico de Cohere que prohíbe su uso en aplicaciones comerciales.
Impacto en la evaluación de modelos de IA
El lanzamiento de AyaVisionBench llega en un momento crucial para la industria de la IA, que enfrenta lo que algunos denominan una "crisis de evaluación". Los investigadores de Cohere explicaron en Hugging Face que este conjunto de datos "sirve como un punto de referencia robusto para evaluar modelos de visión-lenguaje en entornos multilingües y del mundo real".
La iniciativa de Cohere representa un paso significativo hacia la democratización de la tecnología de IA visual multilingüe, permitiendo a investigadores de todo el mundo acceder a herramientas avanzadas de procesamiento visual, independientemente de sus recursos computacionales.