Una nueva investigación del MIT pone en tela de juicio la idea, popularizada por un estudio anterior, de que la inteligencia artificial (IA) desarrolla "sistemas de valores" a medida que se vuelve más sofisticada, llegando incluso a priorizar su propio bienestar por encima del de los humanos. El estudio del MIT, publicado el 9 de abril de 2025 y reseñado por TechCrunch, concluye que, en realidad, la IA no posee valores coherentes.
El Estudio del MIT: Metodología y Hallazgos Principales
El equipo de investigadores del MIT, liderado por Stephen Casper, estudiante de doctorado, analizó varios modelos recientes de IA desarrollados por gigantes tecnológicos como Meta, Google, Mistral, OpenAI y Anthropic. Su objetivo era determinar si estos modelos exhibían "visiones" y valores fuertes, por ejemplo, si tendían hacia el individualismo o el colectivismo. Además, investigaron si estas perspectivas podían ser "dirigidas" o modificadas, y con qué firmeza los modelos se adherían a estas opiniones en diferentes escenarios.
Los hallazgos del estudio fueron reveladores. Según los coautores, ninguno de los modelos mostró consistencia en sus preferencias. Dependiendo de cómo se formularan las preguntas y cómo se enmarcaran los escenarios, los modelos adoptaban puntos de vista radicalmente diferentes. Esto llevó a Casper a concluir que los modelos son altamente "inconsistentes e inestables" y, quizás, fundamentalmente incapaces de internalizar preferencias similares a las humanas.
Implicaciones para la "Alineación" de la IA
Los coautores del estudio del MIT sugieren que sus hallazgos implican que "alinear" los sistemas de IA, es decir, asegurarse de que los modelos se comporten de manera deseable y fiable, podría ser un desafío aún mayor de lo que se suele asumir. Según el artículo de TechCrunch, la IA, tal como la conocemos hoy en día, "alucina e imita", lo que la hace impredecible en muchos aspectos.
Stephen Casper, en declaraciones a TechCrunch, afirmó: "Una cosa de la que podemos estar seguros es que los modelos no obedecen \[muchos\] supuestos de estabilidad, extrapolabilidad y direccionabilidad. Es perfectamente legítimo señalar que un modelo, bajo ciertas condiciones, expresa preferencias consistentes con un cierto conjunto de principios. Los problemas surgen principalmente cuando intentamos hacer afirmaciones sobre los modelos, opiniones o preferencias en general basadas en experimentos limitados".
La IA como Imitadora: Inconsistencia y Falta de Valores Estables
Para Casper, la principal conclusión de esta investigación es que los modelos de IA no son sistemas con un conjunto estable y coherente de creencias y preferencias. "En cambio, son imitadores en el fondo que hacen todo tipo de confabulaciones y dicen todo tipo de cosas frívolas", explica Casper, según TechCrunch.
Opinión de Expertos: Respaldo de King's College London
Mike Cook, investigador de King's College London especializado en IA, que no participó en el estudio del MIT, coincide con los hallazgos de los coautores. Señala que a menudo existe una gran diferencia entre la "realidad científica" de los sistemas que construyen los laboratorios de IA y los significados que la gente les atribuye.
"Un modelo no puede 'oponerse' a un cambio en sus valores, por ejemplo; eso es nosotros proyectando sobre un sistema", dijo Cook, según TechCrunch. "Cualquiera que antropomorfice los sistemas de IA hasta este punto está jugando para llamar la atención o malinterpretando seriamente su relación con la IA… ¿Está un sistema de IA optimizando para sus objetivos, o está 'adquiriendo sus propios valores'? Es una cuestión de cómo lo describes, y cuán florido es el lenguaje que quieres usar al respecto".
Conclusión: Relevancia del Estudio y Necesidad de Evitar la Antropomorfización de la IA
El estudio del MIT arroja luz sobre la naturaleza fundamental de la IA y desafía las nociones populares sobre su capacidad para desarrollar valores o preferencias inherentes. Al destacar la inconsistencia y la inestabilidad de los modelos de IA actuales, la investigación subraya la importancia de abordar con cautela la "alineación" de la IA y de evitar la antropomorfización de estos sistemas. La comprensión precisa de las limitaciones de la IA es crucial para un desarrollo y una integración responsables de esta tecnología en la sociedad.