Alibaba ha dado un paso significativo en el competitivo mundo de la inteligencia artificial con el lanzamiento de Qwen3, una nueva serie de modelos de lenguaje grandes multimodales de código abierto. Según informes, la versión más potente de esta serie supera en rendimiento a modelos propietarios como OpenAI o1 y al modelo de código abierto DeepSeek R1, posicionándose como una de las opciones más avanzadas disponibles públicamente.
Qwen3: Una nueva referencia en modelos de IA de código abierto
El equipo de Qwen de Alibaba ha lanzado oficialmente una serie de ocho nuevos modelos de IA: dos basados en la arquitectura «mixture-of-experts» (mezcla de expertos) y seis modelos densos. Esta arquitectura de mezcla de expertos, popularizada por la startup francesa Mistral AI, combina varios modelos especializados en uno solo, activando únicamente aquellos relevantes para la tarea en cuestión.
La estrella de la serie es el modelo Qwen3-235B-A22B, que cuenta con 235 mil millones de parámetros (siendo los parámetros los ajustes internos que determinan cómo el modelo procesa la información). Según evaluaciones realizadas en benchmarks de terceros como ArenaHard, que incluye 500 preguntas de usuario en ingeniería de software y matemáticas, este modelo supera a DeepSeek R1 y a OpenAI o1, acercándose al rendimiento del nuevo Gemini 2.5-Pro de Google, que es propietario.
De acuerdo con los datos comparativos publicados, Qwen3-235B-A22B se posiciona como uno de los modelos más potentes disponibles públicamente, logrando paridad o superioridad frente a las principales ofertas de la industria.
Capacidades de razonamiento híbrido
Una característica distintiva de los modelos Qwen3 es su capacidad de «razonamiento híbrido» o «razonamiento dinámico». Esta funcionalidad permite a los usuarios alternar entre:
- Respuestas rápidas y precisas
- Pasos de razonamiento más extensos e intensivos computacionalmente para consultas complejas en ciencia, matemáticas, ingeniería y otros campos especializados
Este enfoque, pionero de Nous Research y otras startups de IA, ofrece mayor flexibilidad según la complejidad de la tarea. Los usuarios pueden activar el «Thinking Mode» (Modo de Pensamiento) más intensivo mediante un botón específico en el sitio web de Qwen Chat o incorporando instrucciones como «/think» o «/no_think» al implementar el modelo localmente o a través de API.
«Construir Qwen3 implicó abordar desafíos técnicos críticos pero menos glamurosos, como escalar el aprendizaje por refuerzo de manera estable, equilibrar datos multidisciplinares y expandir el rendimiento multilingüe sin sacrificar calidad», comentó en X Junyang Lin, miembro del equipo Qwen.
Características técnicas y opciones de despliegue
Los modelos Qwen3 amplían significativamente el soporte multilingüe, abarcando ahora 119 idiomas y dialectos de las principales familias lingüísticas. Esto aumenta su potencial de aplicación a nivel global, facilitando la investigación y el despliegue en una amplia gama de contextos lingüísticos.
En términos de entrenamiento, Qwen3 representa un avance sustancial respecto a su predecesor, Qwen2.5. El conjunto de datos de preentrenamiento duplicó su tamaño hasta aproximadamente 36 billones de tokens, incluyendo:
- Crawls web
- Extracciones de documentos tipo PDF
- Contenido sintético generado con modelos Qwen anteriores, centrado en matemáticas y programación
El proceso de formación consistió en tres etapas de preentrenamiento seguidas de cuatro etapas de refinamiento posterior para habilitar las capacidades híbridas de pensamiento. Estas mejoras permiten que los modelos base densos de Qwen3 igualen o superen el rendimiento de modelos Qwen2.5 mucho más grandes.
Las opciones de despliegue son versátiles. Los usuarios pueden integrar modelos Qwen3 utilizando frameworks como SGLang y vLLM, ambos ofreciendo endpoints compatibles con OpenAI. Para uso local, se recomiendan opciones como Ollama, LMStudio, MLX, llama.cpp y KTransformers. Además, los usuarios interesados en las capacidades «agénticas» de los modelos pueden explorar el kit de herramientas Qwen-Agent, que simplifica las operaciones de llamada a herramientas.
Implicaciones para empresas y desarrolladores
Para los equipos de ingeniería, Qwen3 ofrece ventajas significativas:
-
Los puntos de control MoE (235 mil millones de parámetros con 22 mil millones activos, y 30 mil millones con 3 mil millones activos) proporcionan capacidades de razonamiento de nivel GPT-4 con un coste de memoria GPU aproximado al de un modelo denso de 20-30 mil millones.
-
Ganchos oficiales LoRA y QLoRA permiten ajustes privados sin enviar datos propietarios a terceros.
-
Las variantes densas desde 0.6 mil millones hasta 32 mil millones facilitan la creación de prototipos en ordenadores portátiles y la escalabilidad a clústeres multi-GPU sin reescribir prompts.
-
La ejecución local permite que todos los prompts y salidas sean registrados e inspeccionados, mientras que la dispersión MoE reduce el número de parámetros activos por llamada, disminuyendo la superficie de ataque de inferencia.
La licencia Apache-2.0 elimina obstáculos legales basados en el uso, aunque las organizaciones deben revisar las implicaciones de control de exportación y gobernanza de utilizar un modelo entrenado por un proveedor con sede en China.
Al mismo tiempo, ofrece una alternativa viable a otros actores chinos como DeepSeek, Tencent y ByteDance, así como a los crecientes modelos norteamericanos de OpenAI, Google, Microsoft, Anthropic, Amazon, Meta y otros. La permisiva licencia Apache 2.0, que permite un uso comercial ilimitado, también representa una gran ventaja frente a otros actores de código abierto como Meta, cuyas licencias son más restrictivas.
El futuro de Qwen
El equipo de Qwen posiciona Qwen3 no solo como una mejora incremental, sino como un paso significativo hacia objetivos futuros en Inteligencia Artificial General (AGI) y Superinteligencia Artificial (ASI), esta última refiriéndose a IA significativamente más inteligente que los humanos.
Los planes para la próxima fase de Qwen incluyen:
- Aumentar aún más los datos y el tamaño del modelo
- Extender las longitudes de contexto
- Ampliar el soporte de modalidades
- Mejorar el aprendizaje por refuerzo con mecanismos de retroalimentación ambiental
Lin también indicó que el equipo está trasladando su enfoque hacia el entrenamiento de agentes capaces de razonamiento a largo plazo para tareas del mundo real.
Un hito importante para la IA de código abierto
A medida que el panorama de la investigación de IA a gran escala continúa evolucionando, la publicación de Qwen3 con sus pesos abiertos bajo una licencia accesible marca otro hito importante, reduciendo las barreras para investigadores, desarrolladores y organizaciones que aspiran a innovar con modelos de lenguaje de última generación.
La carrera entre proveedores de IA para ofrecer modelos cada vez más potentes y accesibles sigue siendo altamente competitiva, y las organizaciones inteligentes que buscan reducir costes deberían permanecer flexibles y abiertas a evaluar estos nuevos modelos para sus agentes y flujos de trabajo de IA.
Los usuarios pueden acceder e implementar estos modelos a través de plataformas como Hugging Face, ModelScope, Kaggle y GitHub, así como interactuar con ellos directamente a través de la interfaz web de Qwen Chat y aplicaciones móviles.






