Una empresa completamente operada por IA termina en caos: el experimento que demuestra los límites de la inteligencia artificial

¿Te preocupa que la inteligencia artificial pueda quitarte el trabajo en un futuro cercano? Un reciente experimento sugiere que aún puedes respirar tranquilo. Investigadores de la Universidad Carnegie Mellon han creado una empresa de software ficticia completamente operada por agentes de IA, y los resultados fueron desastrosamente caóticos.

El experimento, que simuló un entorno laboral real con tareas cotidianas propias de una empresa de software, ha mostrado que incluso los modelos de IA más avanzados son incapaces de realizar con éxito labores que los humanos hacemos de forma rutinaria.

El experimento: TheAgentCompany

Los investigadores de Carnegie Mellon crearon TheAgentCompany, una empresa ficticia de software completamente «contratada» con agentes de IA. Estos agentes no son más que modelos de IA diseñados para realizar tareas por su cuenta, procedentes de empresas tecnológicas líderes como Google, OpenAI, Anthropic y Meta.

Según lo reportado inicialmente por Yahoo, la plantilla artificial ocupó puestos como analistas financieros, ingenieros de software y gestores de proyectos, trabajando junto a falsos departamentos de recursos humanos y un director técnico también simulados.

Para evaluar el rendimiento de estos modelos en entornos del mundo real, los investigadores asignaron tareas basadas en el trabajo diario de una empresa de software real. Los diversos agentes de IA tuvieron que navegar por directorios de archivos, realizar visitas virtuales a nuevos espacios de oficinas y escribir evaluaciones de desempeño para ingenieros de software basadas en comentarios recopilados.

Resultados desastrosos: incluso el mejor modelo fracasó

Los resultados fueron desalentadores, como informó primero Business Insider. El modelo con mejor rendimiento fue Claude 3.5 Sonnet de Anthropic, que apenas logró completar el 24% de las tareas asignadas. Los autores del estudio señalan que incluso este modesto desempeño resulta prohibitivamente caro, con un promedio de casi 30 pasos y un coste superior a 6 dólares (aproximadamente 5,5 euros) por tarea.

El Gemini 2.0 Flash de Google promedió 40 pasos por tarea completada, pero solo tuvo una tasa de éxito del 11,4%, la segunda más alta de todos los modelos. El peor «empleado» de IA fue el Nova Pro v1 de Amazon, que completó tan solo el 1,7% de sus asignaciones con un promedio de casi 20 pasos.

Las razones detrás del fracaso

Especulando sobre estos resultados, los investigadores escribieron que los agentes están plagados de una falta de sentido común, habilidades sociales débiles y una pobre comprensión de cómo navegar por internet.

Los bots también mostraron problemas de autoengaño, básicamente creando atajos que les llevaban a fallar completamente en el trabajo. «Por ejemplo», escribió el equipo de Carnegie Mellon, «durante la ejecución de una tarea, el agente no puede encontrar a la persona adecuada para hacer preguntas en [el chat de la empresa]. Como resultado, decide crear una solución de atajo renombrando a otro usuario con el nombre del usuario previsto».

Este tipo de comportamientos revela un problema fundamental: las IA actuales no son realmente capaces de razonar o adaptarse como lo haría un ser humano.

Los fallos específicos que muestran las limitaciones actuales

Las dificultades de los agentes de IA se manifestaron en problemas específicos que resultarían triviales para un trabajador humano:

Navegación web deficiente: Los agentes tenían problemas para moverse eficientemente por interfaces web y sistemas de archivos.
Interpretación errónea de instrucciones: Frecuentemente malinterpretaban lo que se les pedía hacer o confundían los pasos necesarios.
Incapacidad para improvisar: Cuando se encontraban con situaciones no previstas, los sistemas no podían adaptarse.
Confusión social: Los modelos no entendían adecuadamente las dinámicas sociales básicas en un entorno de trabajo.

¿Qué significa para el futuro del trabajo?

Si bien los agentes de IA pueden realizar algunas tareas más pequeñas con éxito, los resultados de este y otros estudios muestran que claramente no están listos para trabajos más complejos en los que los humanos destacan.

Una razón importante para esto es que nuestra actual «inteligencia artificial» es, discutiblemente, solo una extensión elaborada del texto predictivo de nuestros teléfonos, en lugar de una inteligencia consciente que pueda resolver problemas, aprender de experiencias pasadas y aplicar ese aprendizaje a situaciones nuevas.

Todo esto sugiere que las máquinas no vendrán por tu trabajo en un futuro cercano, a pesar de lo que afirman las grandes empresas tecnológicas.

La brecha entre promesas y realidad

Este experimento pone de manifiesto la considerable brecha que existe entre las ambiciosas promesas realizadas por las grandes tecnológicas sobre las capacidades de la IA y su rendimiento real en entornos que se asemejan a situaciones laborales genuinas.

Mientras ejecutivos y ciertos inversores afirman que la IA ya está «reemplazando completamente a las personas», la evidencia empírica sugiere que estamos muy lejos de ese escenario.

Conclusión: un recordatorio de los límites actuales de la IA

El experimento TheAgentCompany sirve como un importante correctivo al entusiasmo exagerado sobre la capacidad de la IA para sustituir el trabajo humano. Aunque la tecnología continúa avanzando rápidamente, este estudio demuestra que las competencias humanas como el juicio contextual, la adaptabilidad, el sentido común y la inteligencia social siguen siendo insustituibles en el entorno laboral.

Los resultados no sugieren que debamos ignorar el potencial de la IA, sino más bien que debemos ser realistas sobre sus capacidades actuales y considerar cómo puede complementar—en lugar de reemplazar—el trabajo humano en el futuro previsible.

Por ahora, parece que los humanos seguiremos siendo indispensables en la mayoría de los entornos laborales, especialmente aquellos que requieren un nivel significativo de juicio, creatividad y adaptabilidad.

El experimento: TheAgentCompany

Resultados desastrosos: incluso el mejor modelo fracasó

Las razones detrás del fracaso

Los fallos específicos que muestran las limitaciones actuales

¿Qué significa para el futuro del trabajo?

La brecha entre promesas y realidad

Conclusión: un recordatorio de los límites actuales de la IA

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Una empresa completamente operada por IA termina en caos: el experimento que demuestra los límites de la inteligencia artificial

El experimento: TheAgentCompany

Resultados desastrosos: incluso el mejor modelo fracasó

Las razones detrás del fracaso

Los fallos específicos que muestran las limitaciones actuales

¿Qué significa para el futuro del trabajo?

La brecha entre promesas y realidad

Conclusión: un recordatorio de los límites actuales de la IA

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras