El CEO de Anthropic propone "abrir la caja negra" de los modelos de IA para 2027

Dario Amodei, CEO de Anthropic, ha publicado un ambicioso ensayo en el que establece como objetivo para su empresa lograr detectar la mayoría de los problemas en modelos de inteligencia artificial avanzada antes de 2027. El documento, titulado «The Urgency of Interpretability», subraya la preocupante realidad de que, a pesar del rápido avance de la IA, los investigadores entienden muy poco sobre cómo funcionan internamente estos sistemas.

Un llamado a comprender el funcionamiento interno de la IA

En su ensayo publicado el jueves 24 de abril, Amodei expresa su profunda preocupación sobre el despliegue de sistemas de IA cada vez más potentes sin tener una comprensión adecuada de su funcionamiento interno.

«Estoy muy preocupado por desplegar estos sistemas sin un mejor manejo de la interpretabilidad», escribió Amodei en el ensayo. «Estos sistemas serán absolutamente centrales para la economía, la tecnología y la seguridad nacional, y serán capaces de tanta autonomía que considero básicamente inaceptable que la humanidad sea totalmente ignorante de cómo funcionan».

El texto pone de manifiesto que, mientras las empresas tecnológicas continúan desarrollando modelos de IA con capacidades cada vez más avanzadas, la comprensión de cómo estos modelos toman decisiones o llegan a conclusiones sigue siendo extremadamente limitada.

El desafío de la interpretabilidad en los modelos actuales

Amodei utiliza ejemplos concretos para ilustrar la magnitud del problema. Señala que cuando un sistema de IA generativa realiza una tarea, como resumir un documento financiero, «no tenemos idea, a un nivel específico o preciso, por qué toma las decisiones que toma, por qué elige ciertas palabras sobre otras, o por qué ocasionalmente comete un error a pesar de ser generalmente preciso».

Un caso reciente que destaca esta problemática es el de OpenAI, que lanzó nuevos modelos de razonamiento denominados o3 y o4-mini que, aunque funcionan mejor en algunas tareas, también alucinan más que sus otros modelos. Lo preocupante, según revela el CEO de Anthropic, es que ni siquiera la propia OpenAI sabe por qué ocurre este fenómeno.

En su ensayo, Amodei cita al cofundador de Anthropic, Chris Olah, quien afirma que los modelos de IA son «cultivados más que construidos». Esta metáfora ilustra cómo los investigadores han encontrado formas de mejorar la inteligencia de los modelos, pero sin comprender realmente por qué funcionan estas mejoras.

Avances de Anthropic en interpretabilidad

Anthropic se ha posicionado como una de las empresas pioneras en interpretabilidad mecanicista, un campo que busca «abrir la caja negra» de los modelos de IA para entender por qué toman las decisiones que toman.

La compañía ha logrado algunos avances significativos, como encontrar formas de rastrear las vías de pensamiento de los modelos de IA a través de lo que denominan «circuitos». Por ejemplo, Anthropic identificó un circuito que ayuda a los modelos de IA a comprender qué ciudades estadounidenses están ubicadas en qué estados. Sin embargo, la empresa estima que existen millones de estos circuitos dentro de los modelos, y hasta ahora solo han podido identificar algunos pocos.

Además, Anthropic recientemente realizó su primera inversión en una startup dedicada a la interpretabilidad, demostrando su compromiso con este campo de investigación.

Objetivos a largo plazo y cooperación en la industria

A largo plazo, Amodei señala que Anthropic aspira a realizar lo que describe como «escáneres cerebrales» o «resonancias magnéticas» de los modelos de IA más avanzados. Estos «chequeos médicos» ayudarían a identificar una amplia gama de problemas en los modelos, incluyendo tendencias a mentir, buscar poder u otras debilidades.

El CEO reconoce que este objetivo podría llevar entre cinco y diez años en lograrse, pero insiste en que estas medidas serán necesarias para probar y desplegar de manera segura los futuros modelos de IA de Anthropic.

En su ensayo, Amodei hace un llamado directo a competidores como OpenAI y Google DeepMind para que aumenten sus esfuerzos de investigación en el campo de la interpretabilidad. También solicita a los gobiernos que impongan regulaciones «ligeras» para fomentar la investigación en interpretabilidad, como requisitos para que las empresas divulguen sus prácticas de seguridad.

Implicaciones para la seguridad y el futuro de la IA

Amodei advierte sobre los peligros de alcanzar la Inteligencia Artificial General (AGI) —o como él la describe, «un país de genios en un centro de datos»— sin comprender cómo funcionan estos modelos. En un ensayo anterior, el CEO de Anthropic sugirió que la industria tecnológica podría alcanzar este hito para 2026 o 2027, pero considera que estamos mucho más lejos de entender completamente estos modelos de IA.

Anthropic siempre se ha diferenciado de OpenAI y Google por su enfoque en la seguridad. Mientras otras empresas tecnológicas se opusieron al controvertido proyecto de ley de seguridad de IA de California, SB 1047, Anthropic emitió un apoyo moderado y recomendaciones para el proyecto, que habría establecido estándares de informes de seguridad para los desarrolladores de modelos de IA fronterizos.

En esta ocasión, Anthropic parece estar impulsando un esfuerzo en toda la industria para comprender mejor los modelos de IA, no solo para aumentar sus capacidades. El CEO también aboga por controles de exportación de chips a China por parte de Estados Unidos, con el fin de limitar la probabilidad de una carrera global descontrolada en el desarrollo de IA.

Aunque actualmente la interpretabilidad se considera principalmente un campo de investigación de seguridad, Amodei señala que, eventualmente, explicar cómo los modelos de IA llegan a sus respuestas podría representar una ventaja comercial para las empresas que logren dominar esta técnica.

Esta iniciativa de Anthropic representa uno de los primeros esfuerzos significativos dentro de la industria para abordar no solo el desarrollo acelerado de capacidades de IA, sino también la urgente necesidad de comprender y controlar estas tecnologías a medida que se vuelven más poderosas e integradas en nuestra sociedad.

Un llamado a comprender el funcionamiento interno de la IA

El desafío de la interpretabilidad en los modelos actuales

Avances de Anthropic en interpretabilidad

Objetivos a largo plazo y cooperación en la industria

Implicaciones para la seguridad y el futuro de la IA

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

El CEO de Anthropic propone "abrir la caja negra" de los modelos de IA para 2027

Un llamado a comprender el funcionamiento interno de la IA

El desafío de la interpretabilidad en los modelos actuales

Avances de Anthropic en interpretabilidad

Objetivos a largo plazo y cooperación en la industria

Implicaciones para la seguridad y el futuro de la IA

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras