Mistral actualiza su modelo de código abierto Small: estas son las claves de la nueva versión 3.2

Droids

Updated on:

La empresa emergente francesa de inteligencia artificial, Mistral, continúa su ritmo acelerado de lanzamientos este verano. Pocos días después de anunciar su propio servicio de nube optimizado para IA, la compañía ha presentado una actualización de su popular modelo de código abierto: Mistral Small 3.2. Esta nueva versión, que sucede a la 3.1 lanzada hace apenas tres meses, no busca revolucionar la arquitectura del modelo, sino refinar su comportamiento para ofrecer mayor fiabilidad y precisión, un movimiento clave para su adopción en entornos profesionales y de desarrollo.

Según anunció la propia empresa en la red social X, la versión 3.2-24B Instruct-2506 se construye directamente sobre los cimientos de su predecesora. El objetivo principal es pulir aspectos cruciales como el seguimiento de instrucciones, la estabilidad de los resultados y la robustez en el uso de herramientas externas, una capacidad conocida técnicamente como «function calling».

Una actualización centrada en la estabilidad y el refinamiento

Mientras que la versión 3.1 de Mistral Small, presentada en marzo, fue un lanzamiento emblemático que introdujo capacidades multimodales completas, comprensión multilingüe y un amplio contexto de hasta 128.000 tokens, la nueva versión 3.2 adopta un enfoque diferente. En lugar de añadir nuevas funcionalidades, actúa como lo que en el mundo del software se conoce como una «versión de mantenimiento».

El propósito es solucionar problemas específicos y mejorar la experiencia del desarrollador. Por ejemplo, Mistral AI afirma que Small 3.2 es más eficaz a la hora de seguir instrucciones precisas y reduce significativamente la probabilidad de que el modelo entre en bucles de generaciones infinitas o repetitivas, un problema que a veces se observaba en versiones anteriores, especialmente con instrucciones largas o ambiguas.

Asimismo, se ha mejorado la plantilla de «llamada a funciones» para que el modelo pueda interactuar de manera más fiable con herramientas y API externas, un aspecto fundamental para construir aplicaciones complejas que van más allá de la simple generación de texto.

El rendimiento a examen: ¿qué cambia respecto a la versión 3.1?

La clave de esta actualización reside en las mejoras de comportamiento, que se reflejan en una serie de pruebas de rendimiento tanto internas como externas. Aunque algunos benchmarks muestran un avance notable, otros presentan un panorama más matizado, lo que subraya la naturaleza específica de esta actualización.

En las pruebas de seguimiento de instrucciones, la precisión interna de Mistral aumentó del 82,75% en la versión 3.1 al 84,78% en la 3.2. La mejora es aún más drástica en benchmarks externos como Wildbench v2, donde el rendimiento creció casi 10 puntos porcentuales, y en Arena Hard v2, donde la puntuación se duplicó con creces, pasando de un 19,56% a un 43,10%, según los datos compartidos por la compañía.

La estabilidad también ha mejorado. La tasa de generaciones infinitas, un indicador de fiabilidad, se redujo de un 2,11% a un 1,29%, casi la mitad. Esto convierte al modelo en una opción más segura para desarrolladores que necesitan respuestas consistentes y predecibles.

En cuanto a las tareas de texto y programación, Small 3.2 también muestra ganancias en pruebas como HumanEval Plus (de 88,99% a 92,90%) y MBPP Pass@5 (de 74,63% a 78,33%). Sin embargo, no todo son mejoras. Como señaló en X el influencer de IA @chatgpt21, el modelo «empeoró en MMLU». Se refiere al Massive Multitask Language Understanding, un exigente test multidisciplinar que mide el conocimiento general de un modelo. Efectivamente, Small 3.2 obtuvo un 80,50%, una puntuación ligeramente inferior al 80,62% de su predecesor.

Las pruebas de visión, por su parte, se mantienen mayormente estables, con un ligero descenso en el rendimiento medio del 81,39% al 81,00%. Estas fluctuaciones se consideran dentro de la varianza esperada y parecen ser el resultado de un compromiso deliberado: sacrificar ganancias marginales en algunas áreas para lograr mejoras significativas en fiabilidad y obediencia a las instrucciones.

Código abierto y accesible para un mayor alcance

Una de las señas de identidad de Mistral es su compromiso con el ecosistema de código abierto. Tanto la versión 3.1 como la 3.2 están disponibles bajo la permisiva licencia Apache 2.0. Esto permite a empresas y desarrolladores utilizar, modificar y distribuir el modelo con gran libertad.

El modelo se puede descargar desde el popular repositorio Hugging Face, un centro neurálgico para la comunidad de IA. Es compatible con frameworks de desarrollo como vLLM y Transformers, facilitando su integración en proyectos existentes.

Un aspecto destacable es su accesibilidad en términos de hardware. Según la fuente, el modelo puede funcionar con una única GPU Nvidia A100/H100 de 80GB, un requisito considerable pero al alcance de muchas empresas que no disponen de los gigantescos clústeres de computación de los hiperescaladores. Para su funcionamiento, requiere aproximadamente 55 GB de memoria RAM de la GPU.

Implicaciones para las empresas: el dilema entre fiabilidad y rendimiento máximo

Para las empresas que consideran adoptar los modelos de Mistral, esta actualización presenta una elección interesante. Mistral Small 3.2 no viene a desbancar a su predecesor en todas las métricas, sino a ofrecer una alternativa más pulida y fiable.

Las organizaciones que construyan aplicaciones orientadas al cliente, donde la precisión en el seguimiento de instrucciones y la prevención de respuestas erráticas son primordiales, encontrarán en Small 3.2 un aliado más robusto. La mejora en el uso de herramientas también es un punto a favor para la creación de agentes de IA autónomos y flujos de trabajo automatizados.

Sin embargo, aquellas empresas cuyo caso de uso dependa del máximo rendimiento en benchmarks de conocimiento general, como el MMLU, podrían preferir seguir utilizando la versión 3.1. La elección, por tanto, dependerá de las prioridades específicas de cada proyecto.

Además, el origen de Mistral como empresa francesa es un factor estratégico. Su alineación con normativas europeas como el GDPR y la Ley de IA de la UE la convierte en una opción atractiva para las empresas que operan en Europa y buscan garantizar el cumplimiento normativo.

Mientras que Mistral Small 3.1 ya está integrado en plataformas como Google Cloud Vertex AI y tiene previsto su despliegue en NVIDIA NIM y Microsoft Azure, la versión 3.2, de momento, parece estar limitada al acceso a través de Hugging Face para su despliegue por cuenta propia.