La empresa xAI, fundada por Elon Musk, ha anunciado que su chatbot Grok ya puede «ver» el mundo real y responder preguntas sobre objetos captados por la cámara del smartphone. Esta nueva función, denominada «Grok Vision», permite a los usuarios apuntar su teléfono a objetos como productos, señales y documentos para hacer preguntas sobre ellos.
El anuncio se realizó el martes 22 de abril de 2025, según informó TechCrunch. Con esta actualización, Grok se suma a la lista de asistentes de inteligencia artificial que ofrecen capacidades de visión en tiempo real, uniéndose a rivales como Google Gemini y ChatGPT que ya cuentan con funciones similares.
¿Qué es Grok Vision y cómo funciona?
Grok Vision es una extensión del chatbot Grok que aprovecha la cámara del smartphone para analizar el entorno del usuario. La función permite que los usuarios puedan simplemente apuntar su teléfono hacia cualquier objeto y preguntar «¿Qué estoy viendo?», tras lo cual el asistente de IA analizará la imagen y proporcionará información relevante.
El sistema está diseñado para reconocer y responder preguntas sobre una variedad de elementos, como:
- Productos comerciales
- Señales y letreros
- Documentos impresos
- Objetos cotidianos
- Entornos y espacios físicos
Según la demostración compartida por usuarios en la red social X (anteriormente Twitter), el sistema puede analizar en tiempo real lo que la cámara está captando y ofrecer respuestas contextuales.
Mario Nawfal, uno de los primeros usuarios en probar esta característica, compartió en X una demostración acompañada del texto: «GROK PUEDE VER LO QUE TÚ VES—LITERALMENTE. El modo de voz de Grok viene con acceso a la cámara, permitiendo a los usuarios apuntar su teléfono a algo y preguntar, ‘¿Qué estoy mirando?'»
Elon Musk, por su parte, respondió a esta demostración con un breve pero entusiasta comentario: «Es asombroso».
Disponibilidad y requisitos
Por el momento, Grok Vision solo está disponible para usuarios de iOS a través de la aplicación Grok. Los usuarios de Android tendrán que esperar, ya que xAI no ha anunciado cuándo estará disponible para este sistema operativo.
Además de Grok Vision, la empresa ha lanzado otras nuevas capacidades para su asistente, incluyendo audio multilingüe y búsqueda en tiempo real en el modo de voz. Estas funciones adicionales están disponibles para usuarios de Android, pero solo si están suscritos al plan premium SuperGrok, que tiene un coste de 30 dólares mensuales (aproximadamente 28 euros).
Nuevas capacidades multilingües
Una de las características más destacadas de la actualización es la capacidad multilingüe de Grok. Ebby Amir, representante de xAI, anunció en X que el asistente ahora puede interactuar en varios idiomas, incluyendo:
- Español: «Grok habla español»
- Francés: «Grok parle français»
- Turco: «Grok Türkçe konuşuyor»
- Japonés: «グロクは日本語を話す»
- Hindi: «ग्रोक हिंदी बोलता है»
Esta expansión lingüística representa un paso importante en la estrategia de xAI para competir con otros asistentes de IA en el mercado global.
Evolución y mejoras recientes
Grok ha estado ganando nuevas funcionalidades a un ritmo constante en los últimos meses. A principios de abril, xAI añadió un componente de «memoria» a Grok que permite al bot recuperar detalles de conversaciones pasadas, mejorando así la continuidad y contextualización de las interacciones.
Además, recientemente Grok recibió una herramienta tipo canvas para la creación de documentos y aplicaciones, ampliando sus capacidades más allá de la simple conversación.
La adición de Grok Vision se enmarca en esta estrategia de rápida evolución para competir en el mercado de asistentes de IA, donde Google, OpenAI y otras empresas continúan innovando y añadiendo nuevas funcionalidades a sus productos.
El panorama competitivo de los asistentes IA con visión
Con la introducción de Grok Vision, xAI intensifica la competencia en el segmento de asistentes IA con capacidades visuales. Google ya ofrece funcionalidades similares con Gemini, mientras que OpenAI ha integrado capacidades de visión en ChatGPT.
La carrera por ofrecer asistentes de IA más completos y versátiles se está acelerando, con un enfoque particular en la multimodalidad: la capacidad de procesar y responder a diferentes tipos de entradas, ya sean texto, voz o imágenes.
El futuro de Grok
El rápido desarrollo de nuevas funcionalidades para Grok sugiere que xAI está comprometida en convertir su asistente en un competidor serio en el mercado de la IA conversacional. Con cada actualización, Grok se acerca más a las capacidades ofrecidas por sus principales rivales.
Queda por ver cómo evolucionará Grok en los próximos meses y si logrará diferenciarse lo suficiente para captar una parte significativa del mercado. La estrategia de xAI parece estar centrada en la innovación rápida y la adición continua de nuevas capacidades, lo que podría ser crucial en un campo tan competitivo y de rápida evolución como el de la inteligencia artificial conversacional.
Lo que está claro es que el futuro de los asistentes virtuales está orientado hacia experiencias cada vez más integradas con nuestro entorno físico, donde ver, escuchar y comprender el mundo que nos rodea se convierte en una capacidad fundamental.