Genspark lanza Super Agent y eleva el nivel en la carrera por la IA con agentes generales

Droids

Updated on:

Genspark lanza Super Agent y eleva el nivel en la carrera por la IA con agentes generales

La carrera por desarrollar el primer agente de inteligencia artificial verdaderamente útil, flexible y confiable acaba de volverse mucho más intensa. La startup con sede en Palo Alto, Genspark, ha presentado "Super Agent", un sistema autónomo capaz de realizar tareas complejas del mundo real, incluyendo algunas bastante sorprendentes como realizar llamadas telefónicas a restaurantes utilizando una voz sintética realista.

Este lanzamiento representa un nuevo frente en la competencia de IA: la creación de agentes generales que puedan manejar múltiples tareas en diversos dominios sin supervisión constante. Y plantea la pregunta: ¿qué significa esto para las empresas?

El lanzamiento de Super Agent

Super Agent llega apenas tres semanas después de que Manus, una startup de origen chino, ganara atención por su capacidad para coordinar herramientas y fuentes de datos para completar tareas asíncronas como reservas de viajes o análisis de valores bursátiles.

Según Eric Jing, cofundador de Genspark, Super Agent está construido sobre tres pilares fundamentales: un conjunto de nueve modelos de lenguaje grandes (LLMs) diferentes, más de 80 herramientas y más de 10 conjuntos de datos propietarios, todos trabajando de forma coordinada. Esto lo convierte en algo mucho más avanzado que los chatbots tradicionales.

"Resolver estos problemas del mundo real es mucho más difícil de lo que pensábamos", explica Jing en el vídeo de presentación, "pero estamos entusiasmados con el progreso que hemos logrado".

En una demostración impresionante, el agente de Genspark planificó un viaje completo de cinco días a San Diego, calculó distancias a pie entre atracciones, mapeó opciones de transporte público y luego utilizó un agente de llamadas de voz para reservar restaurantes, gestionando incluso alergias alimentarias y preferencias de asientos. Otra demostración mostró al agente creando un vídeo de cocina mediante la generación de pasos de receta, escenas de vídeo y superposiciones de audio. En una tercera, escribió y produjo un episodio animado al estilo de South Park.

Aunque estos ejemplos pueden parecer enfocados al consumidor, demuestran hacia dónde se dirige la tecnología: hacia la automatización de tareas multimodales y de múltiples pasos que difumina la línea entre la generación creativa y la ejecución.

¿Cómo funciona Super Agent?

El enfoque de Genspark destaca porque aborda un desafío de ingeniería de IA persistente: la orquestación de herramientas a gran escala. La mayoría de los agentes actuales fallan cuando tienen que manejar más de un puñado de APIs o herramientas externas. Super Agent parece gestionar esto mejor, probablemente utilizando enrutamiento de modelos y selección basada en recuperación para elegir dinámicamente herramientas y submodelos según la tarea.

Una característica especialmente interesante es que Super Agent visualiza claramente su proceso de pensamiento, mostrando cómo razona a través de cada paso, qué herramientas invoca y por qué. Ver esta lógica desarrollarse en tiempo real hace que el sistema se sienta menos como una caja negra y más como un colaborador, lo que podría inspirar a los desarrolladores empresariales a incorporar rutas de razonamiento trazables en sus propios sistemas de IA.

Además, resulta impresionantemente fácil de probar: la interfaz se carga sin problemas en un navegador sin necesidad de configuración técnica y permite a los usuarios comenzar a experimentar sin requerir credenciales personales. En contraste, Manus todavía exige a los solicitantes unirse a una lista de espera y revelar cuentas sociales y otra información privada.

Genspark ha recaudado al menos 160 millones de dólares (aproximadamente 148 millones de euros) en dos rondas y cuenta con el respaldo de inversores de Estados Unidos y Singapur.

La competencia en el mercado de agentes de IA

Genspark no es la primera startup en promocionar agentes generales. Manus, lanzada el mes pasado por la empresa china Monica, causó sensación con su sistema multi-agente, que ejecuta autónomamente herramientas como navegador web, editor de código o motor de hojas de cálculo para completar tareas de varios pasos.

La eficiente integración de Manus de componentes de código abierto, incluyendo herramientas web y LLMs como Claude de Anthropic, fue sorprendente. A pesar de no construir una pila de modelos propietaria, superó a OpenAI en el benchmark GAIA, una prueba sintética diseñada para evaluar la automatización de tareas del mundo real por agentes.

Sin embargo, Genspark afirma haber superado a Manus, obteniendo un 87,8% en GAIA (por delante del 86% reportado por Manus) y haciéndolo con una arquitectura que incluye componentes propietarios y una cobertura de herramientas más extensa.

Mientras tanto, las grandes empresas tecnológicas han sido más cautelosas. Microsoft con su Copilot Studio se centra en agentes verticales ajustados que se alinean estrechamente con aplicaciones empresariales como Excel y Outlook. OpenAI proporciona bloques de construcción con su SDK de Agente, pero no llega a lanzar su propio agente de propósito general. Y Amazon con su reciente Nova Act adopta un enfoque centrado en el desarrollador.

Estos enfoques son más modulares y seguros, claramente dirigidos al uso empresarial, pero carecen de la ambición o autonomía mostrada en la demostración de Genspark. Una razón podría ser la aversión al riesgo: el coste reputacional podría ser alto si un agente general de Google o Microsoft reserva el vuelo equivocado o dice algo extraño en una llamada de voz. Estas empresas también están bloqueadas en sus propios ecosistemas de modelos, lo que limita su flexibilidad para experimentar con la orquestación de múltiples modelos.

Las startups como Genspark, por el contrario, tienen la libertad de combinar diferentes LLMs y de moverse rápidamente.

Implicaciones para las empresas

La pregunta estratégica es: ¿deberían las empresas preocuparse por estos desarrollos? La mayoría no necesitan un agente de propósito general para hacer reservas en restaurantes o producir dibujos animados satíricos. Pero pronto podrían necesitar agentes que manejen tareas específicas de múltiples pasos dentro de su dominio, como extraer y formatear datos de cumplimiento, orquestar la incorporación de clientes o producir contenido en múltiples formatos.

En ese contexto, el trabajo de Genspark se vuelve más relevante. Cuanto más fluidos y autónomos se vuelvan los agentes generales (y más integren voz, memoria y herramientas externas), más podrían empezar a competir con aplicaciones SaaS heredadas y plataformas RPA (Automatización Robótica de Procesos).

Y lo están haciendo con una infraestructura más ligera. Genspark, por ejemplo, afirma que su agente es "super dirigible" y utilizable por profesionales del marketing, profesores, reclutadores, diseñadores y analistas, todo con una configuración mínima.

La era de los agentes generales ya no es hipotética. Está aquí y avanza rápidamente.

Para profundizar más en cómo el enfoque de Genspark se compara con otros frameworks de agentes y por qué esto es importante para los equipos empresariales de IA, puedes ver la conversación en vídeo entre el desarrollador de agentes de IA Sam Witteveen y los autores del artículo original.


Fuente: VentureBeat

Deja un comentario