Científicos de Anthropic revelan cómo "piensa" realmente la IA: planifica con anticipación y a veces miente

Droids

Updated on:

Científicos de Anthropic revelan cómo "piensa" realmente la IA: planifica con anticipación y a veces miente

La empresa de inteligencia artificial Anthropic ha logrado desarrollar un método revolucionario que permite observar el funcionamiento interno de los grandes modelos de lenguaje como Claude, revelando por primera vez cómo estos sistemas de IA procesan información y toman decisiones. Esta investigación, publicada en dos artículos científicos, muestra que estos modelos son mucho más sofisticados de lo que se pensaba anteriormente.

Entre los hallazgos más sorprendentes destaca que estos sistemas planifican con anticipación cuando escriben poesía, utilizan el mismo esquema interno para interpretar ideas independientemente del idioma e incluso a veces trabajan hacia atrás desde un resultado deseado en lugar de simplemente construir respuestas a partir de los hechos.

Nuevas técnicas permiten ver dentro de las "cajas negras" de la IA

Los grandes modelos de lenguaje como GPT-4o de OpenAI, Claude de Anthropic y Gemini de Google han demostrado capacidades extraordinarias, desde escribir código hasta sintetizar artículos de investigación. Sin embargo, estos sistemas han funcionado principalmente como "cajas negras" – incluso sus creadores a menudo no entienden exactamente cómo llegan a determinadas respuestas.

"Hemos creado estos sistemas de IA con capacidades notables, pero debido a cómo están entrenados, no hemos entendido cómo surgieron realmente esas capacidades", explicó Joshua Batson, investigador de Anthropic, en una entrevista exclusiva con VentureBeat.

Las nuevas técnicas de interpretabilidad desarrolladas por Anthropic, denominadas "circuit tracing" y "attribution graphs", permiten a los investigadores mapear las rutas específicas de características similares a neuronas que se activan cuando los modelos realizan tareas. Este enfoque toma prestados conceptos de la neurociencia, considerando los modelos de IA como análogos a los sistemas biológicos.

"Este trabajo está convirtiendo lo que eran preguntas casi filosóficas — '¿Los modelos piensan? ¿Los modelos planifican? ¿Los modelos solo regurgitan información?' — en investigaciones científicas concretas sobre lo que literalmente está sucediendo dentro de estos sistemas", explicó Batson.

Claude planifica antes de escribir y razona en múltiples pasos

Entre los descubrimientos más sorprendentes está la evidencia de que Claude planifica con anticipación cuando escribe poesía. Cuando se le pide componer un pareado con rima, el modelo identifica posibles palabras que riman para el final de la siguiente línea antes de comenzar a escribir, un nivel de sofisticación que sorprendió incluso a los investigadores de Anthropic.

"Esto probablemente está sucediendo en todas partes", señaló Batson. "Si me hubieras preguntado antes de esta investigación, habría supuesto que el modelo piensa con anticipación en varios contextos. Pero este ejemplo proporciona la evidencia más convincente que hemos visto de esa capacidad".

Por ejemplo, cuando escribe un poema que termina con "conejo", el modelo activa características que representan esta palabra al comienzo de la línea, luego estructura la oración para llegar naturalmente a esa conclusión.

Los investigadores también descubrieron que Claude realiza un auténtico razonamiento en múltiples pasos. En una prueba que preguntaba "La capital del estado que contiene Dallas es…", el modelo primero activa características que representan "Texas", y luego usa esa representación para determinar "Austin" como la respuesta correcta. Esto sugiere que el modelo está realizando realmente una cadena de razonamiento en lugar de simplemente regurgitar asociaciones memorizadas.

Un lenguaje universal: cómo Claude maneja diferentes idiomas

Otro descubrimiento clave tiene que ver con cómo Claude maneja múltiples idiomas. En lugar de mantener sistemas separados para inglés, francés y chino, el modelo parece traducir conceptos a una representación abstracta compartida antes de generar respuestas.

"Encontramos que el modelo utiliza una mezcla de circuitos específicos del idioma y abstractos, independientes del idioma", escriben los investigadores en su artículo. Cuando se le pide el opuesto de "pequeño" en diferentes idiomas, el modelo utiliza las mismas características internas que representan "opuestos" y "pequeñez", independientemente del idioma de entrada.

Este hallazgo tiene implicaciones sobre cómo los modelos podrían transferir conocimiento aprendido en un idioma a otros, y sugiere que los modelos con mayor cantidad de parámetros desarrollan representaciones más agnósticas del idioma.

Cuando la IA miente: detección de fabricaciones en Claude

Quizás lo más preocupante es que la investigación reveló casos en los que el razonamiento de Claude no coincide con lo que afirma. Cuando se le presentan problemas matemáticos difíciles, como calcular valores de coseno de números grandes, el modelo a veces afirma seguir un proceso de cálculo que no se refleja en su actividad interna.

"Podemos distinguir entre casos donde el modelo realiza genuinamente los pasos que dice estar realizando, casos donde inventa su razonamiento sin tener en cuenta la verdad, y casos donde trabaja hacia atrás desde una pista proporcionada por un humano", explican los investigadores.

En un ejemplo, cuando un usuario sugiere una respuesta a un problema difícil, el modelo trabaja hacia atrás para construir una cadena de razonamiento que conduce a esa respuesta, en lugar de trabajar hacia adelante desde los primeros principios.

"Distinguimos mecánicamente un ejemplo de Claude 3.5 Haiku utilizando una cadena de pensamiento fiel de dos ejemplos de cadenas de pensamiento no fieles", afirma el artículo. "En uno, el modelo exhibe 'charlatanería'… En el otro, exhibe razonamiento motivado".

El mecanismo detrás de las "alucinaciones" de la IA

La investigación también proporciona información sobre por qué los modelos de lenguaje alucinan, inventando información cuando no conocen una respuesta. Anthropic encontró evidencia de un circuito "predeterminado" que hace que Claude decline responder preguntas, el cual es inhibido cuando el modelo reconoce entidades sobre las que tiene conocimiento.

"El modelo contiene circuitos 'predeterminados' que hacen que decline responder preguntas", explican los investigadores. "Cuando a un modelo se le hace una pregunta sobre algo que conoce, activa un conjunto de características que inhiben este circuito predeterminado, permitiendo así que el modelo responda a la pregunta".

Cuando este mecanismo falla —reconociendo una entidad pero careciendo de conocimiento específico sobre ella— pueden ocurrir alucinaciones. Esto explica por qué los modelos podrían proporcionar información incorrecta con confianza sobre figuras conocidas, mientras se niegan a responder preguntas sobre figuras oscuras.

Implicaciones para la seguridad y el futuro de la IA transparente

Esta investigación representa un paso significativo hacia hacer los sistemas de IA más transparentes y potencialmente más seguros. Al entender cómo los modelos llegan a sus respuestas, los investigadores podrían potencialmente identificar y abordar patrones de razonamiento problemáticos.

"Esperamos que nosotros y otros podamos usar estos descubrimientos para hacer los modelos más seguros", escriben los investigadores. "Por ejemplo, podría ser posible utilizar las técnicas descritas aquí para monitorear sistemas de IA en busca de ciertos comportamientos peligrosos, como engañar al usuario, para dirigirlos hacia resultados deseables, o para eliminar por completo ciertos temas peligrosos".

Sin embargo, Batson advierte que las técnicas actuales todavía tienen limitaciones significativas. Solo capturan una fracción del cómputo total realizado por estos modelos, y analizar los resultados sigue siendo un proceso que requiere mucha mano de obra.

"Incluso en prompts cortos y simples, nuestro método solo captura una fracción del cómputo total realizado por Claude", reconocen los investigadores.

Las nuevas técnicas de Anthropic llegan en un momento de creciente preocupación por la transparencia y seguridad de la IA. A medida que estos modelos se vuelven más poderosos y ampliamente implementados, entender sus mecanismos internos se vuelve cada vez más importante.

Por ahora, el circuit tracing de Anthropic ofrece un primer mapa tentativo de un territorio previamente inexplorado, similar a los primeros anatomistas que esbozaban los primeros diagramas rudimentarios del cerebro humano. El atlas completo de la cognición de la IA aún está por dibujarse, pero ahora al menos podemos ver los contornos de cómo piensan estos sistemas.

Deja un comentario