El nuevo benchmark MCP-Universe de Salesforce AI Research revela que GPT-5 de OpenAI falla en más de la mitad de las tareas de orquestación del mundo real, según informa VentureBeat.
Los modelos de lenguaje grandes (LLMs) demuestran dificultades para completar más de la mitad de las tareas que las empresas realizan típicamente, según las pruebas iniciales de Salesforce con su nuevo benchmark de código abierto MCP-Universe.
MCP-Universe rastrea cómo los LLMs interactúan con servidores del Model Context Protocol (MCP) en el mundo real. A diferencia de otros benchmarks que se centran en aspectos aislados del rendimiento como el seguimiento de instrucciones o el razonamiento matemático, MCP-Universe captura el rendimiento del modelo a través del uso de herramientas, llamadas de herramientas de múltiples turnos, ventanas de contexto largo y grandes espacios de herramientas.
«Los modelos todavía enfrentan limitaciones que los frenan en tareas de nivel empresarial», dijo Junnan Li, director de investigación de IA en Salesforce, a VentureBeat. Las dos mayores limitaciones son los desafíos de contexto largo, donde los modelos pierden rastro de información o luchan para razonar consistentemente con entradas largas o complejas, y los desafíos de herramientas desconocidas, donde los modelos no pueden usar sin problemas herramientas desconocidas.
Salesforce diseñó MCP-Universe para abarcar seis dominios empresariales: navegación de ubicación, gestión de repositorios, análisis financiero, diseño 3D, automatización de navegador y búsqueda web. El benchmark accedió a 11 servidores MCP para un total de 231 tareas, conectándose a servicios reales como Google Maps, GitHub, Yahoo Finance, Blender, Playwright y Google Search.
En las pruebas de Salesforce, GPT-5 tuvo la mejor tasa de éxito, particularmente para tareas de análisis financiero. Grok-4 de xAI siguió a GPT-5 en tasa de éxito general y superó a todos los demás modelos en tareas de automatización de navegador. Claude-4.0 Sonnet de Anthropic completó los tres modelos de mejor rendimiento. Entre los modelos de código abierto, GLM-4.5 de Zai tuvo el mejor desempeño.
Los investigadores evaluaron modelos con al menos 120 mil millones de parámetros, incluyendo o4-mini, o3, GPT-4.1, GPT-4o y GPT-oss de OpenAI; Claude 3.7 Sonnet de Anthropic; Gemini 2.5 Pro y Flash de Google; Kimi-K2 de Moonshot; Qwen3 Coder y Qwen3-235B-A22B-Instruct-2507 de Qwen; y DeepSeek-V3-0304 de DeepSeek.
MCP-Universe mostró que los modelos tenían dificultades para manejar contextos largos, especialmente para navegación de ubicación, automatización de navegador y análisis financiero, con la eficiencia cayendo significativamente. El rendimiento del modelo bajó cuando los LLMs encontraron herramientas desconocidas.
«Estos hallazgos destacan que los LLMs de frontera actuales todavía se quedan cortos en ejecutar confiablemente tareas a través de diversas tareas MCP del mundo real», afirma el documento de Salesforce.
MCP-Universe se basa en MCPEvals, que Salesforce lanzó en julio de 2025. Mientras MCPEvals se evalúa con tareas sintéticas, MCP-Universe evalúa cómo cada modelo realiza tareas que imitan las emprendidas por las empresas.
Li espera que las empresas usen MCP-Universe para obtener una comprensión más profunda de dónde fallan los agentes y modelos en las tareas para que puedan mejorar sus marcos o la implementación de sus herramientas MCP.
MCP-Universe se une a otros benchmarks basados en MCP propuestos como MCP-Radar de la Universidad de Massachusetts Amherst y la Universidad Xi’an Jiaotong, y MCPWorld de la Universidad de Correos y Telecomunicaciones de Beijing.






