Salesforce ha lanzado una ambiciosa iniciativa para abordar uno de los retos más persistentes de la inteligencia artificial en aplicaciones empresariales: la brecha entre la inteligencia bruta de un sistema de IA y su capacidad para rendir de manera consistente en entornos empresariales impredecibles, lo que la compañía denomina "inteligencia irregular".
En un amplio anuncio de investigación, Salesforce AI Research ha revelado varios nuevos benchmarks, modelos y frameworks diseñados para hacer que los futuros agentes de IA sean más inteligentes, confiables y versátiles para uso empresarial.
El desafío de la inconsistencia en la IA empresarial
"Aunque los modelos de lenguaje grandes (LLM) pueden destacar en pruebas estandarizadas, planificar viajes intrincados y generar poesía sofisticada, su brillantez a menudo tropieza cuando se enfrentan a la necesidad de ejecutar tareas de manera fiable y consistente en entornos empresariales dinámicos e impredecibles", explicó Silvio Savarese, Científico Jefe de Salesforce y Director de Investigación de IA, durante una conferencia de prensa previa al anuncio.
Esta iniciativa representa el impulso de Salesforce hacia lo que Savarese llama "Inteligencia General Empresarial" (EGI) — IA diseñada específicamente para la complejidad empresarial, en lugar de la búsqueda más teórica de la Inteligencia Artificial General (AGI).
"Definimos EGI como agentes de IA creados específicamente para negocios, optimizados no solo por su capacidad, sino también por su consistencia", explicó Savarese. "Mientras que la AGI puede evocar imágenes de máquinas superinteligentes que superan la inteligencia humana, las empresas no están esperando ese futuro distante e ilusorio. Están aplicando estos conceptos fundamentales ahora para resolver desafíos del mundo real a escala".
Un enfoque central de la investigación es cuantificar y abordar la inconsistencia de la IA en el rendimiento. Salesforce presentó el conjunto de datos SIMPLE, un benchmark público con 225 preguntas de razonamiento sencillas diseñadas para medir cuán irregular son realmente las capacidades de un sistema de IA.
"La IA actual es irregular, así que tenemos que trabajar en eso. Pero, ¿cómo podemos trabajar en algo sin medirlo primero? Eso es exactamente lo que hace este benchmark SIMPLE", explicó Shelby Heinecke, Gerente Sénior de Investigación en Salesforce, durante la conferencia de prensa.
Para aplicaciones empresariales, esta inconsistencia no es meramente una preocupación académica. Un solo error de un agente de IA podría interrumpir operaciones, erosionar la confianza del cliente o infligir daños financieros sustanciales.
CRMArena: un campo de pruebas virtual para agentes de IA
Quizás la innovación más significativa es CRMArena, un novedoso marco de evaluación diseñado para simular escenarios realistas de gestión de relaciones con clientes. Permite pruebas exhaustivas de agentes de IA en contextos profesionales, abordando la brecha entre los benchmarks académicos y los requisitos empresariales del mundo real.
"Reconociendo que los modelos de IA actuales a menudo no reflejan las complejas demandas de los entornos empresariales, hemos introducido CRMArena: un novedoso marco de evaluación meticulosamente diseñado para simular escenarios de CRM realistas y profesionales", dijo Savarese.
El framework evalúa el rendimiento de los agentes a través de tres personas clave: agentes de servicio, analistas y gerentes. Las pruebas iniciales revelaron que incluso con indicaciones guiadas, los principales agentes tienen éxito menos del 65% del tiempo al llamar a funciones para los casos de uso de estas personas.
"CRM Arena es esencialmente una herramienta que se ha introducido internamente para mejorar los agentes", explicó Savarese. "Nos permite poner a prueba estos agentes, entender cuándo están fallando y luego usar estas lecciones que aprendemos de esos casos de fallo para mejorar nuestros agentes".
Nuevos modelos de embedding para entender mejor el contexto empresarial
Entre las innovaciones técnicas anunciadas, Salesforce destacó SFR-Embedding, un nuevo modelo para una comprensión contextual más profunda que lidera el Massive Text Embedding Benchmark (MTEB) en 56 conjuntos de datos.
"SFR embedding no es solo investigación. Llegará a Data Cloud muy, muy pronto", señaló Heinecke.
También se introdujo una versión especializada, SFR-Embedding-Code, para desarrolladores, que permite búsquedas de código de alta calidad y agiliza el desarrollo. Según Salesforce, la versión de 7B parámetros lidera el benchmark Code Information Retrieval (CoIR), mientras que los modelos más pequeños (400M, 2B) ofrecen alternativas eficientes y rentables.
Modelos de IA más pequeños y enfocados en la acción
Salesforce también anunció xLAM V2 (Large Action Model), una familia de modelos específicamente diseñados para predecir acciones en lugar de simplemente generar texto. Estos modelos comienzan con solo 1.000 millones de parámetros, una fracción del tamaño de muchos modelos de lenguaje líderes.
"Lo especial de nuestros modelos xLAM es que, si miras nuestros tamaños de modelo, tenemos un modelo de 1B, llegando hasta un modelo de 70B. Ese modelo de 1B, por ejemplo, es una fracción del tamaño de muchos de los grandes modelos de lenguaje actuales", explicó Heinecke. "Este pequeño modelo tiene muchísima potencia para poder tomar la siguiente acción".
A diferencia de los modelos de lenguaje estándar, estos modelos de acción están específicamente entrenados para predecir y ejecutar los siguientes pasos en una secuencia de tareas, lo que los hace particularmente valiosos para agentes autónomos que necesitan interactuar con sistemas empresariales.
"Los modelos de acción grandes son LLMs en su núcleo, y la forma en que los construimos es tomando un LLM y ajustándolo en lo que llamamos trayectorias de acción", añadió Heinecke.
Garantizando la seguridad y confiabilidad de la IA en entornos empresariales
Para abordar las preocupaciones empresariales sobre la seguridad y fiabilidad de la IA, Salesforce introdujo SFR-Guard, una familia de modelos entrenados tanto en datos disponibles públicamente como en datos internos especializados en CRM. Estos modelos refuerzan la Capa de Confianza de la empresa, que proporciona barreras de protección para el comportamiento de los agentes de IA.
"Las barreras de protección de Agentforce establecen límites claros para el comportamiento de los agentes basados en las necesidades, políticas y estándares empresariales, asegurando que los agentes actúen dentro de límites predefinidos", afirmó la compañía en su anuncio.
La empresa también lanzó ContextualJudgeBench, un novedoso benchmark para evaluar modelos de juicio basados en LLM en contexto, probando más de 2.000 pares de respuestas desafiantes en términos de precisión, concisión, fidelidad y negativa apropiada a responder.
Yendo más allá del texto, Salesforce desveló TACO, una familia de modelos de acción multimodal diseñada para abordar problemas complejos de múltiples pasos a través de cadenas de pensamiento y acción (CoTA). Este enfoque permite a la IA interpretar y responder a consultas intrincadas que involucran múltiples tipos de medios, con Salesforce afirmando hasta un 20% de mejora en el desafiante benchmark MMVet.
Co-innovación en acción: feedback de clientes en el desarrollo de IA
Itai Asseo, Director Sénior de Incubación y Estrategia de Marca en Investigación de IA, enfatizó la importancia de la co-innovación con los clientes en el desarrollo de soluciones de IA listas para empresas.
"Cuando hablamos con los clientes, uno de los principales puntos de dolor que tenemos es que, al tratar con datos empresariales, hay una tolerancia muy baja para proporcionar respuestas que no son precisas y relevantes", explicó Asseo. "Hemos avanzado mucho, ya sea con motores de razonamiento, con técnicas RAG y otros métodos en torno a los LLMs".
Asseo citó ejemplos de incubación con clientes que produjeron mejoras significativas en el rendimiento de la IA: "Cuando aplicamos el motor de razonamiento Atlas, incluyendo algunas técnicas avanzadas para la generación aumentada por recuperación, junto con nuestra metodología y arquitectura de razonamiento y bucle agéntico, vimos una precisión que era el doble de lo que los clientes podían hacer cuando trabajaban con otros competidores importantes".
El camino hacia la Inteligencia General Empresarial
El impulso de investigación de Salesforce llega en un momento crítico en la adopción de IA empresarial, a medida que las empresas buscan cada vez más sistemas de IA que combinen capacidades avanzadas con un rendimiento confiable.
Mientras toda la industria tecnológica persigue modelos cada vez más grandes con impresionantes capacidades brutas, el enfoque de Salesforce en la brecha de consistencia destaca un enfoque más matizado del desarrollo de IA, uno que prioriza los requisitos empresariales del mundo real sobre los benchmarks académicos.
Las tecnologías anunciadas comenzarán a implementarse en los próximos meses, con SFR-Embedding llegando primero a Data Cloud, mientras que otras innovaciones impulsarán futuras versiones de Agentforce.
Como señaló Savarese en la conferencia de prensa, "No se trata de reemplazar a los humanos. Se trata de estar a cargo". En la carrera por el dominio de la IA empresarial, Salesforce apuesta a que la consistencia y la fiabilidad —no solo la inteligencia bruta— definirán en última instancia a los ganadores de la revolución de la IA empresarial.