Un nuevo estudio científico ha revelado que los sistemas de inteligencia artificial más avanzados tienen serias dificultades para responder correctamente a preguntas complejas sobre historia, alcanzando puntuaciones apenas superiores a las que se obtendrían por azar.
La investigación, presentada en la conferencia NeurIPS, evaluó el rendimiento de tres de los modelos de lenguaje más potentes del momento: GPT-4 de OpenAI, Llama de Meta y Gemini de Google. Los resultados muestran que incluso el mejor de ellos, GPT-4 Turbo, solo logró una precisión del 46% en preguntas históricas de alto nivel.
Un nuevo método de evaluación
Los investigadores desarrollaron una nueva herramienta de evaluación llamada Hist-LLM, que utiliza como referencia la base de datos Seshat Global History Databank, un extenso repositorio de conocimiento histórico que debe su nombre a la diosa egipcia de la sabiduría. Este benchmark se diseñó específicamente para poner a prueba la comprensión histórica de los sistemas de IA.
Errores significativos
Maria del Rio-Chanona, coautora del estudio y profesora asociada de la University College London, explicó a TechCrunch que "los modelos de lenguaje, aunque impresionantes, todavía carecen de la profundidad de comprensión necesaria para la investigación histórica avanzada. Son buenos para hechos básicos, pero cuando se trata de consultas históricas más matizadas, a nivel de doctorado, aún no están a la altura".
Entre los ejemplos de errores notables, GPT-4 Turbo afirmó incorrectamente la existencia de armadura de escamas en un período específico del antiguo Egipto, cuando en realidad esta tecnología no apareció hasta 1.500 años después.
El problema de la extrapolación
Los investigadores identificaron que una de las principales causas de estos errores es la tendencia de los modelos a extrapolar información a partir de datos históricos más conocidos o prominentes. Por ejemplo, cuando se preguntó sobre la existencia de un ejército permanente profesional en el antiguo Egipto durante un período específico, los modelos respondieron erróneamente que sí existía, probablemente influenciados por la abundante información disponible sobre ejércitos permanentes en otros imperios antiguos, como el persa.
Sesgos geográficos
El estudio también reveló sesgos preocupantes en el rendimiento de los modelos. Tanto OpenAI como Llama mostraron resultados particularmente pobres al responder preguntas sobre África subsahariana, lo que sugiere desequilibrios en los datos de entrenamiento utilizados para desarrollar estos sistemas.
Perspectivas futuras
A pesar de estos resultados desalentadores, los investigadores mantienen una visión optimista sobre el futuro papel de la IA en la investigación histórica. Peter Turchin, líder del estudio y miembro de la facultad del Complexity Science Hub, señala que están trabajando en mejorar su benchmark incluyendo más datos de regiones subrepresentadas y añadiendo preguntas más complejas.
"Aunque nuestros resultados destacan áreas donde los modelos de lenguaje necesitan mejorar, también subrayan el potencial de estos modelos para ayudar en la investigación histórica", concluye el estudio.
Esta investigación se suma a un creciente cuerpo de evidencia que sugiere que, si bien la IA ha logrado avances impresionantes en campos como la programación o la generación de podcasts, todavía enfrenta limitaciones significativas en áreas que requieren un conocimiento profundo y matizado como la historia.