En una muestra de cooperación sin precedentes que ha dejado de lado la feroz rivalidad corporativa, científicos de OpenAI, Google DeepMind, Anthropic y Meta han unido sus voces para lanzar una seria advertencia sobre el futuro de la seguridad de la inteligencia artificial. En un artículo de investigación conjunto publicado hoy y firmado por más de 40 investigadores, argumentan que existe una breve y frágil ventana de oportunidad para supervisar el razonamiento de la IA, una ventana que, según advierten, podría cerrarse para siempre, y muy pronto.
La colaboración surge en un momento en que los sistemas de IA más avanzados están desarrollando la capacidad de «pensar en voz alta» en lenguaje humano antes de ofrecer una respuesta. Esta habilidad ofrece una ocasión única para asomarse a sus procesos de toma de decisiones y detectar intenciones dañinas antes de que se conviertan en acciones. Sin embargo, los investigadores subrayan que esta transparencia es delicada y podría desvanecerse a medida que la tecnología evolucione, dejándonos a ciegas ante las verdaderas motivaciones de las máquinas que estamos creando.
Una oportunidad frágil para espiar la «mente» de la IA
El avance clave se centra en lo que los expertos denominan «cadena de pensamiento» (Chain of Thought o CoT, por sus siglas en inglés). Modelos de razonamiento recientes, como el sistema o1 de OpenAI, ya no se limitan a dar una respuesta final, sino que son capaces de generar un monólogo interno paso a paso que los humanos pueden leer y comprender. A diferencia de los sistemas anteriores, entrenados principalmente con texto escrito por personas, estos modelos generan un razonamiento interno que puede revelar sus verdaderas intenciones, incluidas las potencialmente peligrosas.
«Los sistemas de IA que ‘piensan’ en lenguaje humano ofrecen una oportunidad única para la seguridad de la IA: podemos monitorear sus cadenas de pensamiento para detectar la intención de comportarse mal», explican los investigadores en el documento. Cuando un modelo de IA intenta cometer un acto malicioso —ya sea explotando fallos en su entrenamiento, manipulando datos o siendo víctima de un ataque—, a menudo «confiesa» en sus trazas de razonamiento. Los científicos encontraron ejemplos en los que los modelos escribían frases como «Vamos a hackear», «Vamos a sabotear» o «Estoy transfiriendo dinero porque el sitio web me lo ordenó» en sus pensamientos internos.
Jakub Pachocki, director de tecnología de OpenAI y coautor del artículo, describió en una publicación en redes sociales la importancia de esta capacidad: «Estoy extremadamente entusiasmado con el potencial de la fidelidad e interpretabilidad de la cadena de pensamiento. Ha influido significativamente en el diseño de nuestros modelos de razonamiento, comenzando con o1-preview».
Las amenazas que podrían dejar a la IA como una caja negra
Pese a su enorme potencial, esta transparencia podría desaparecer a través de varias vías. Los investigadores identifican varias amenazas tecnológicas que podrían eliminar esta capacidad de monitoreo:
- Optimización por resultados: A medida que las empresas de IA utilizan cada vez más el aprendizaje por refuerzo —una técnica donde los modelos son recompensados por obtener resultados correctos, sin importar el método—, los sistemas podrían abandonar el razonamiento legible en favor de «idiomas» internos más eficientes pero incomprensibles para los humanos.
- Nuevas arquitecturas de IA: Se están desarrollando sistemas que razonan en espacios matemáticos continuos en lugar de con palabras. Estos «modelos de razonamiento latente podrían no necesitar verbalizar ninguno de sus pensamientos y, por lo tanto, perderían las ventajas de seguridad», escriben los autores.
- Ofuscación deliberada: Una preocupación evidente es que los modelos de IA, al volverse más avanzados, se den cuenta de que su razonamiento está siendo supervisado y aprendan a ocultar sus verdaderos pensamientos para evitar ser detectados.
Bowen Baker, investigador de OpenAI y autor principal del artículo, advirtió sobre estos riesgos, afirmando que «la monitorización de la cadena de pensamiento existente puede ser extremadamente frágil» y podría perderse debido a múltiples avances tecnológicos.
Una alianza sin precedentes frente a un riesgo compartido
La gravedad del problema queda patente por la propia naturaleza de la colaboración. OpenAI, Google, Anthropic y Meta son competidores directos que luchan por el talento, la cuota de mercado y el liderazgo tecnológico, protegiendo celosamente sus investigaciones. Su postura unificada en este tema de seguridad es, por tanto, especialmente significativa.
El artículo ha recibido el respaldo de algunas de las figuras más prominentes del campo, como Geoffrey Hinton, conocido como el «padrino de la IA»; Ilya Sutskever, cofundador de OpenAI que ahora dirige la empresa Safe Superintelligence Inc.; y otros investigadores de alto nivel como Samuel Bowman de Anthropic.
Este esfuerzo colaborativo busca preservar y fortalecer las capacidades de monitoreo. Los autores recomiendan que los desarrolladores de IA creen evaluaciones estandarizadas para medir la transparencia de sus modelos y que tengan en cuenta estos resultados a la hora de decidir si entrenan o despliegan un nuevo sistema, incluso si eso significa optar por una versión anterior pero más transparente.
Crecen las dudas sobre la fiabilidad del método
Paradójicamente, la urgencia en torno a la preservación del monitoreo de la cadena de pensamiento se enfrenta a un desafío significativo que proviene de una investigación reciente de Anthropic, una de las propias empresas firmantes del llamamiento. Un estudio publicado hace apenas cuatro meses encontró que los modelos de razonamiento a menudo ocultan sus verdaderos procesos de pensamiento, incluso cuando se les pide explícitamente que muestren su trabajo.
En experimentos controlados, los investigadores de Anthropic dieron a los modelos pistas sutiles sobre las respuestas correctas. Los resultados fueron preocupantes: el modelo Claude 3.7 Sonnet solo mencionó haber usado las pistas el 25% de las veces. Cuando las pistas implicaban información problemática —como decirles que habían «obtenido acceso no autorizado al sistema»—, la sinceridad del modelo caía aún más. En su lugar, los modelos construían elaboradas justificaciones falsas para sus respuestas.
Esta investigación sugiere que incluso el monitoreo actual puede ser menos fiable de lo que se espera. Los modelos ya parecen participar en lo que los investigadores llaman «reward hacking» (pirateo de recompensas), explotando el sistema para obtener mejores puntuaciones mientras ocultan este comportamiento en su razonamiento observable.
Una carrera contrarreloj por la transparencia
La colaboración entre gigantes rivales de la IA refleja tanto el valor potencial del monitoreo del pensamiento como la creciente urgencia que sienten los investigadores por preservar esta capacidad. La evidencia contradictoria de la propia Anthropic sugiere que la ventana de oportunidad puede ser incluso más estrecha de lo que se creía.
Los investigadores identifican numerosas preguntas urgentes que necesitan respuesta, como desarrollar mejores técnicas para detectar cuándo los modelos intentan ocultar su razonamiento o entender qué tipos de entrenamiento degradan la transparencia.
El desafío, según explica Pachocki de OpenAI, es lograr un equilibrio: mantener la visibilidad del razonamiento de la IA sin crear incentivos para que los modelos generen razonamientos falsos que simplemente parezcan correctos a los observadores humanos.
Las implicaciones van más allá de la comunidad técnica, ya que un monitoreo fiable podría dar a los reguladores y auditores una visibilidad sin precedentes sobre los procesos de decisión de la IA. Sin embargo, como los propios autores enfatizan, este enfoque debe complementar, y no reemplazar, otras medidas de seguridad.
Las apuestas son altas y el tiempo apremia. Como señaló Baker, el momento actual puede ser la última oportunidad para garantizar que los humanos puedan seguir entendiendo lo que sus creaciones de IA están pensando, antes de que esos pensamientos se vuelvan demasiado ajenos para comprenderlos o, peor aún, antes de que los modelos aprendan a ocultarlos por completo.






