Cohere lanza Aya Vision, un nuevo modelo de IA que promete liderar el procesamiento visual multilingüe

Cohere For AI, el laboratorio de investigación sin ánimo de lucro de la startup Cohere, ha presentado esta semana Aya Vision, un modelo de inteligencia artificial "abierto" que promete establecer un nuevo estándar en el procesamiento visual multilingüe.

Un modelo versátil para múltiples idiomas

El nuevo sistema destaca por su capacidad para realizar diversas tareas relacionadas con el procesamiento de imágenes en 23 idiomas principales. Entre sus funcionalidades se incluyen la generación de subtítulos para imágenes, la respuesta a preguntas sobre fotografías, la traducción de textos y la creación de resúmenes.

Según informó Cohere en su blog oficial, "aunque la IA ha progresado significativamente, todavía existe una brecha importante en el rendimiento de los modelos entre diferentes idiomas, especialmente en tareas multimodales que involucran tanto texto como imágenes".

Dos versiones para diferentes necesidades

La compañía ha lanzado dos variantes del modelo:

Aya Vision 32B: La versión más avanzada, que según Cohere supera a modelos del doble de su tamaño, incluyendo el Llama-3.2 90B Vision de Meta, en determinadas pruebas de comprensión visual.
Aya Vision 8B: Una versión más ligera que, sorprendentemente, obtiene mejores resultados en algunas evaluaciones que modelos diez veces más grandes.

Innovación en el entrenamiento

Una de las características más destacadas de Aya Vision es su método de entrenamiento. El equipo utilizó conjuntos de datos en inglés que posteriormente fueron traducidos para crear anotaciones sintéticas. Esta aproximación sigue una tendencia creciente en la industria, donde gigantes como OpenAI están recurriendo cada vez más a datos sintéticos ante el agotamiento de datos reales para el entrenamiento.

Nueva suite de evaluación

Junto con el modelo, Cohere ha presentado AyaVisionBench, una nueva suite de evaluación diseñada para medir las capacidades de los modelos de IA en tareas de "visión-lenguaje". Esta herramienta permite evaluar aspectos como la identificación de diferencias entre imágenes y la conversión de capturas de pantalla a código.

Disponibilidad y acceso

El modelo está disponible gratuitamente a través de dos canales:

WhatsApp para uso general
Plataforma Hugging Face para desarrolladores e investigadores

La licencia del modelo es Creative Commons 4.0, con un addendum específico de Cohere que prohíbe su uso en aplicaciones comerciales.

Impacto en la evaluación de modelos de IA

El lanzamiento de AyaVisionBench llega en un momento crucial para la industria de la IA, que enfrenta lo que algunos denominan una "crisis de evaluación". Los investigadores de Cohere explicaron en Hugging Face que este conjunto de datos "sirve como un punto de referencia robusto para evaluar modelos de visión-lenguaje en entornos multilingües y del mundo real".

La iniciativa de Cohere representa un paso significativo hacia la democratización de la tecnología de IA visual multilingüe, permitiendo a investigadores de todo el mundo acceder a herramientas avanzadas de procesamiento visual, independientemente de sus recursos computacionales.

Un modelo versátil para múltiples idiomas

Dos versiones para diferentes necesidades

Innovación en el entrenamiento

Nueva suite de evaluación

Disponibilidad y acceso

Impacto en la evaluación de modelos de IA

Deja un comentario Cancelar la respuesta

Noticias

Amazon enviará todas las conversaciones con Echo a sus servidores a partir del 28 de marzo

Noticias

China impone estricta vigilancia sobre DeepSeek, su prometedora startup de inteligencia artificial

Noticias

Google sustituirá Google Assistant por Gemini en todos sus dispositivos

Noticias

Dario Amodei sugiere que la IA merece derechos laborales básicos

Noticias

SoftBank adquiere antigua planta de Sharp por 624 millones de euros para su colaboración con OpenAI en Japón

Noticias

Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales

Cohere lanza Aya Vision, un nuevo modelo de IA que promete liderar el procesamiento visual multilingüe

Un modelo versátil para múltiples idiomas

Dos versiones para diferentes necesidades

Innovación en el entrenamiento

Nueva suite de evaluación

Disponibilidad y acceso

Impacto en la evaluación de modelos de IA

Deja un comentario Cancelar la respuesta

LO ÚLTIMO

Noticias

Amazon enviará todas las conversaciones con Echo a sus servidores a partir del 28 de marzo

Noticias

China impone estricta vigilancia sobre DeepSeek, su prometedora startup de inteligencia artificial

Noticias

Google sustituirá Google Assistant por Gemini en todos sus dispositivos

Noticias

Dario Amodei sugiere que la IA merece derechos laborales básicos

Noticias

SoftBank adquiere antigua planta de Sharp por 624 millones de euros para su colaboración con OpenAI en Japón

Noticias

Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales