Microsoft permite que Copilot Studio utilice computadoras de forma autónoma

Droids

Updated on:

Microsoft permite que Copilot Studio utilice computadoras de forma autónoma

Microsoft ha dado un paso significativo en la evolución de sus herramientas de inteligencia artificial al habilitar una nueva función llamada "computer use" (uso de computadora) para Copilot Studio. Esta característica permite a los agentes de IA interactuar con sitios web y aplicaciones de escritorio de forma autónoma, similar a como lo haría un usuario humano.

Qué es "computer use" y cómo funciona

La nueva funcionalidad, presentada esta semana, otorga a los agentes de IA la capacidad de interactuar con interfaces de usuario haciendo clic en botones, seleccionando opciones de menús y escribiendo en campos de texto en pantallas de sitios web y aplicaciones de escritorio.

"El uso de computadora permite a los agentes interactuar con sitios web y aplicaciones de escritorio haciendo clic en botones, seleccionando menús y escribiendo en campos en la pantalla", explica Charles Lamanna, vicepresidente corporativo de Microsoft para negocios e industria Copilot. "Esto permite a los agentes manejar tareas incluso cuando no hay una API disponible para conectarse directamente al sistema. Si una persona puede usar la aplicación, el agente también puede hacerlo".

Lo más destacable de esta función es que puede detectar cuando los botones y pantallas cambian en aplicaciones o sitios web y continuar trabajando sin fallar o interrumpirse, según asegura Microsoft. Esta adaptabilidad representa un avance importante en la capacidad de los sistemas de IA para interactuar con interfaces que no fueron necesariamente diseñadas para ellos.

Aplicaciones prácticas de la nueva función

Según la información compartida por Microsoft, Copilot Studio podrá crear agentes de IA capaces de realizar diversas tareas como:

  • Automatizar la entrada de datos en sistemas
  • Realizar investigaciones de mercado
  • Procesar facturas
  • Ejecutar flujos de trabajo complejos a través de múltiples aplicaciones

Estas capacidades permitirán a las empresas automatizar procesos rutinarios que antes requerían intervención humana, especialmente aquellos que involucran múltiples aplicaciones o sitios web sin APIs accesibles.

La principal ventaja frente a soluciones anteriores es que el agente puede operar en interfaces de usuario existentes sin necesidad de desarrollo adicional o integración directa a nivel de código.

Comparación con otras soluciones similares

Esta funcionalidad de Microsoft no surge de manera aislada. Como señala el artículo original publicado en The Verge, es muy similar a "Operator" de OpenAI o a la función "computer use" de Claude de Anthropic. Todas estas soluciones buscan dotar a los agentes de IA de la capacidad de utilizar interfaces diseñadas para humanos.

Sin embargo, existen algunas diferencias en el enfoque. Recientemente, Microsoft añadió una característica similar llamada "Actions" (Acciones) a su versión de consumidor de Copilot. Esta función puede realizar tareas en segundo plano mientras el usuario trabaja en otras actividades, como reservar mesas en restaurantes, comprar entradas para eventos o adquirir productos en tiendas online.

La diferencia clave es que la experiencia "Actions" está limitada a un número específico de socios, mientras que Copilot Studio parece tener mayor libertad para trabajar con una gama más amplia de sitios web y aplicaciones, lo que potencialmente amplía su utilidad para casos de uso empresariales.

Una carrera por agentes de IA más autónomos

La introducción de esta función se enmarca en una competencia más amplia entre los principales actores del sector tecnológico por desarrollar agentes de IA cada vez más autónomos y capaces.

OpenAI, con su "Operator", fue una de las primeras empresas en mostrar esta capacidad de manera pública. Anthropic siguió un camino similar con la función "computer use" para su asistente Claude. Ahora Microsoft se suma a esta tendencia con su propia implementación para Copilot Studio.

Este tipo de tecnologías representa un paso importante hacia asistentes de IA que pueden realizar tareas complejas con mínima supervisión humana, actuando como verdaderos "asistentes digitales" que no solo responden preguntas o generan contenido, sino que también ejecutan acciones concretas en el mundo digital.

Implicaciones para el futuro de la IA en entornos empresariales

La capacidad de los agentes de IA para interactuar con interfaces de usuario abre un nuevo horizonte de posibilidades para la automatización empresarial. Hasta ahora, muchos procesos requerían integración técnica mediante APIs o la intervención humana para navegar entre diferentes sistemas.

Con esta nueva función, empresas de todos los tamaños podrían implementar soluciones de automatización más rápidamente, sin necesidad de desarrollo personalizado para cada aplicación o sistema utilizado. Esto podría democratizar el acceso a la automatización inteligente y reducir significativamente los costos asociados.

Sin embargo, también surgen preguntas sobre seguridad, privacidad y control. Dar a los agentes de IA la capacidad de interactuar con interfaces de usuario significa que potencialmente podrían acceder a los mismos sistemas y datos que los empleados humanos, lo que plantea desafíos en términos de permisos, monitorización y auditoría de sus acciones.


Microsoft continúa expandiendo las capacidades de su ecosistema Copilot, posicionándolo como una plataforma integral para la automatización e inteligencia artificial en entornos empresariales. La función "computer use" representa un avance significativo en esta dirección, acercando a los agentes de IA a una verdadera autonomía en la ejecución de tareas digitales.

Queda por ver cómo responderán los usuarios empresariales a estas nuevas capacidades y qué tipo de casos de uso innovadores surgirán cuando los agentes de IA puedan navegar libremente por las interfaces digitales que utilizamos a diario.

Deja un comentario