Alibaba lanza nuevos modelos de IA capaces de controlar ordenadores y teléfonos móviles

Droids

Alibaba lanza nuevos modelos de IA capaces de controlar ordenadores y teléfonos móviles

Alibaba ha dado un paso significativo en el campo de la inteligencia artificial con el lanzamiento de Qwen2.5-VL, una nueva familia de modelos de IA que pueden controlar ordenadores y teléfonos móviles, además de realizar análisis avanzados de texto e imágenes.

Un nuevo competidor en el mercado de la IA

Mientras el laboratorio chino DeepSeek acapara gran parte de la atención del sector tecnológico esta semana, Alibaba ha decidido no quedarse atrás. Según TechCrunch, el equipo Qwen de la compañía ha presentado este lunes sus nuevos modelos de IA que pueden realizar múltiples tareas de análisis de texto e imágenes, incluyendo el procesamiento de archivos, la comprensión de vídeos y el conteo de objetos en imágenes.

Capacidades principales

Los nuevos modelos Qwen2.5-VL destacan por su capacidad para:

  • Analizar gráficos y elementos visuales
  • Extraer datos de facturas y formularios escaneados
  • Comprender vídeos de larga duración
  • Reconocer contenido de películas y series de televisión
  • Controlar dispositivos móviles y ordenadores

Rendimiento superior

De acuerdo con las pruebas realizadas por el equipo de Qwen, el modelo más avanzado de la familia supera a competidores destacados como OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet y Google Gemini 2.0 Flash en diversas evaluaciones de comprensión de vídeo, matemáticas, análisis de documentos y respuesta a preguntas.

Demostraciones prácticas

Philipp Schmid, líder técnico de Hugging Face, compartió en X una demostración donde el modelo controla la aplicación de Booking.com en Android para reservar un vuelo entre Chongqing y Pekín, evidenciando las capacidades prácticas de la tecnología.

Disponibilidad y restricciones

Los modelos están disponibles en dos formatos:

La familia Qwen2.5-VL incluye tres versiones:

  • Qwen2.5-VL-3B y Qwen2.5-VL-7B: disponibles bajo licencia permisiva
  • Qwen2.5-VL-72B: requiere permiso especial de Alibaba para uso comercial en aplicaciones con más de 100 millones de usuarios mensuales activos

Contexto regulatorio chino

Es importante señalar que, al ser un desarrollo chino, los modelos están sujetos a ciertas restricciones en cuanto a los temas que pueden abordar. El regulador de internet chino evalúa los modelos desarrollados en el país para asegurar que sus respuestas "incorporen valores socialistas fundamentales", lo que se refleja en limitaciones al discutir ciertos temas sensibles.

Limitaciones técnicas

A pesar de sus capacidades avanzadas, los modelos muestran algunas limitaciones. Por ejemplo, en las pruebas de control de escritorio en Linux, aunque puede cambiar entre pestañas, el modelo muestra un rendimiento inferior en el benchmark OSWorld, que simula un entorno informático real.

Esta nueva familia de modelos representa un avance significativo en la capacidad de la IA para interactuar con dispositivos y analizar contenido multimedia, aunque las restricciones regulatorias y técnicas sugieren que aún hay camino por recorrer en su desarrollo.

Deja un comentario