Microsoft ha dado un nuevo paso en la integración de la inteligencia artificial en su sistema operativo. La compañía ha comenzado a desplegar una potente actualización para su asistente, Copilot Vision, que le otorga la capacidad de «ver» y analizar todo el contenido del escritorio del usuario. Esta nueva funcionalidad, que de momento está disponible en fase de pruebas para los miembros del programa Windows Insiders, expande significativamente las capacidades del asistente, permitiéndole ofrecer ayuda y obtener contexto de cualquier aplicación, documento o página web que se muestre en pantalla.
La actualización representa una evolución natural en la estrategia de Microsoft de convertir a Copilot en un compañero digital verdaderamente integrado. Sin embargo, en un momento de intenso debate sobre la privacidad en la era de la IA, la compañía se ha esforzado en diferenciar su funcionamiento del de otras herramientas más controvertidas, como la recientemente anunciada función Recall.
Una ventana abierta a tu escritorio: ¿qué cambia en Copilot Vision?
Hasta ahora, las capacidades visuales de Copilot en el entorno de escritorio eran limitadas. Según se detalla en el artículo de The Verge que informa sobre la noticia, la herramienta podía analizar el contenido de hasta dos aplicaciones simultáneamente para «conectar los puntos» entre ellas. Con esta nueva actualización, esas barreras desaparecen. Copilot Vision ahora puede observar el escritorio completo o, si el usuario lo prefiere, centrarse en «cualquier navegador o ventana de aplicación específica», según un comunicado de la compañía publicado en el blog de Windows Insider.
Esta capacidad de visión global transforma a Copilot de un asistente que responde a preguntas aisladas a uno que puede comprender el contexto completo del trabajo del usuario. La idea es que la IA pueda ofrecer asistencia mucho más relevante y proactiva al tener una comprensión holística de lo que está sucediendo en el ordenador.
Por el momento, esta funcionalidad no está disponible para el público general. Microsoft ha optado por un lanzamiento escalonado, comenzando con la comunidad de Windows Insiders. Este grupo de usuarios entusiastas y desarrolladores actúa como un banco de pruebas, permitiendo a la empresa recopilar datos, identificar errores y medir la recepción de la nueva característica antes de decidir un posible despliegue a todos los usuarios de Windows.
Control total del usuario: cómo se activa y para qué sirve
Ante el previsible debate sobre la privacidad que una herramienta de este tipo podría generar, Microsoft ha diseñado un mecanismo de activación que pone el control total en manos del usuario. A diferencia de un sistema que monitoriza la pantalla de forma pasiva y constante, el uso de Copilot Vision es una acción deliberada.
Para activarlo, el usuario debe hacer clic en un nuevo icono con forma de gafas dentro de la aplicación de Copilot. Al hacerlo, se despliega una interfaz similar a la que aparece al compartir pantalla en una videollamada de Microsoft Teams o Zoom. El usuario puede entonces elegir si quiere que Copilot analice todo su escritorio o solo una ventana de una aplicación en particular. Una vez finalizada la interacción, la «visión» de Copilot se desactiva hasta que el usuario decida volver a iniciarla.
Según Microsoft, esta capacidad permitirá a Copilot «ayudar a analizar contenido, proporcionar información y responder a tus preguntas, guiándote en voz alta». La compañía sugiere varios casos de uso prácticos para ilustrar su potencial:
- Asistencia creativa: Un diseñador gráfico podría pedirle a Copilot que analice una composición en Photoshop y le ofrezca «consejos para mejorar su proyecto creativo».
- Desarrollo profesional: Un usuario podría mostrarle su currículum a Copilot y pedirle ayuda para «mejorar el resumen» o adaptarlo a una oferta de trabajo específica.
- Ocio y videojuegos: Un jugador que se enfrente a un nuevo título podría pedirle «orientación mientras navega por un nuevo juego», obteniendo pistas o consejos en tiempo real basados en lo que se ve en pantalla.
Estos ejemplos muestran la ambición de Microsoft de hacer de Copilot un tutor y colaborador personalizado, capaz de interactuar con cualquier software sin necesidad de integraciones de API específicas.
La importante distinción con Recall: privacidad y control
Es imposible analizar esta nueva función sin compararla con Recall, otra característica de IA anunciada por Microsoft que generó una enorme controversia. Recall fue diseñada para tomar capturas de pantalla de la actividad del usuario cada pocos segundos, creando una línea de tiempo visual y consultable de todo lo que se ha hecho en el PC. Expertos en seguridad y defensores de la privacidad expresaron inmediatamente su preocupación, argumentando que un archivo tan detallado de la actividad del usuario podría convertirse en un objetivo de alto valor para los ciberdelincuentes.
Consciente de este precedente, Microsoft ha sido muy claro al diferenciar ambas tecnologías. Como se señala en el artículo de The Verge, la diferencia fundamental radica en el método de activación. Mientras que Recall es un proceso automático y persistente que se ejecuta en segundo plano, la nueva función de Copilot Vision es manual y puntual. Es el usuario quien decide activamente cuándo quiere que la IA vea su pantalla y qué parte de ella quiere compartir. Esta distinción es crucial: no se trata de una vigilancia constante, sino de una herramienta de asistencia que se invoca a voluntad.
Este enfoque parece ser una lección aprendida de la polémica de Recall. Al dar al usuario el control explícito y transparente sobre el uso compartido de su pantalla, Microsoft busca ofrecer una funcionalidad potente sin cruzar las líneas rojas de la privacidad que tanto preocupan a los consumidores.
La evolución de la mirada de la IA de Microsoft
Esta actualización no ha surgido de la nada, sino que forma parte de una evolución constante en las capacidades de Copilot. Microsoft comenzó a probar las primeras versiones de Copilot Vision el año pasado, centrándose inicialmente en el navegador Edge. En aquel momento, la IA podía analizar el contenido de la página web que el usuario estaba visitando para responder preguntas sobre ella.
Posteriormente, esta capacidad se extendió al mundo móvil. La aplicación de Copilot para smartphones permite a los usuarios utilizar la cámara de su teléfono para que la IA «vea» el mundo real y responda a preguntas sobre objetos, lugares o textos.
El paso actual, llevar esta visión de forma integral al escritorio de Windows, es el movimiento más ambicioso hasta la fecha. Consolida la visión de Microsoft de un asistente de IA omnipresente, capaz de trascender las barreras entre aplicaciones y dispositivos para ofrecer una ayuda verdaderamente contextual. Esta actualización es un claro indicativo de que el futuro de los sistemas operativos estará cada vez más ligado a la capacidad de los asistentes inteligentes para comprender no solo lo que les pedimos, sino también el contexto en el que lo hacemos. El reto, como siempre, será encontrar el equilibrio perfecto entre una funcionalidad sin precedentes y el respeto innegociable por la privacidad del usuario.






