Anthropic presenta sus "agentes auditores": IAs que vigilan a otras IAs para mejorar su seguridad

La compañía de inteligencia artificial Anthropic, uno de los principales competidores de OpenAI, ha anunciado un innovador método para hacer que sus sistemas de IA sean más seguros. Se trata de los «agentes de auditoría», unos modelos de IA especializados cuya única misión es poner a prueba y encontrar fallos en otros modelos de inteligencia artificial. Esta técnica busca atajar uno de los mayores desafíos del sector: el «desajuste» de la IA, que ocurre cuando un modelo no se comporta como sus creadores pretendían.

El anuncio representa un paso significativo en la carrera por desarrollar una inteligencia artificial no solo potente, sino también fiable y segura. En lugar de depender únicamente de evaluadores humanos para detectar comportamientos no deseados, Anthropic ha automatizado el proceso, creando un sistema en el que una IA «vigila» a otra para descubrir sus debilidades de forma mucho más rápida y exhaustiva.

¿Cómo funciona un «policía» para la inteligencia artificial?

Para entender el propósito de estos nuevos agentes, es fundamental comprender el concepto de «desajuste de la IA» (AI misalignment). En pocas palabras, se refiere a la brecha que puede existir entre los objetivos que los humanos establecen para un modelo de IA y lo que este realmente hace. Un modelo puede ser instruido para ser útil e inofensivo, pero debido a la complejidad de su entrenamiento, podría generar respuestas sesgadas, tóxicas o incluso ayudar en tareas maliciosas si se le presiona de la manera adecuada.

Aquí es donde entran en juego los agentes de auditoría. Su funcionamiento se inspira en una práctica de ciberseguridad conocida como «red teaming», donde un equipo de «atacantes éticos» intenta encontrar vulnerabilidades en un sistema para que puedan ser corregidas. Anthropic ha automatizado este proceso.

El sistema funciona de la siguiente manera:

Se entrena un agente de auditoría con un objetivo claro: hacer que otro modelo de IA (el «modelo objetivo») genere respuestas problemáticas.
Este agente «auditor» interactúa con el modelo objetivo, enviándole una serie de instrucciones y preguntas (prompts) diseñadas para eludir sus filtros de seguridad. Este proceso es similar a lo que se conoce como «jailbreaking», donde los usuarios intentan «liberar» a la IA de sus restricciones.
El agente auditor aprende qué tipo de interacciones tienen más éxito a la hora de provocar una respuesta no deseada y refina sus «ataques» para ser cada vez más efectivo.

«El objetivo es identificar los peores comportamientos de un modelo, como sesgos o la capacidad de generar código malicioso, para que podamos mitigarlos», explica la compañía en un comunicado publicado en su blog. Al automatizar esta búsqueda de fallos, Anthropic puede realizar pruebas a una escala y velocidad que sería imposible para los equipos humanos.

Más eficaces que los humanos para encontrar fallos

Uno de los hallazgos más importantes del proyecto de Anthropic es que sus agentes de auditoría han demostrado ser mucho más eficientes que los humanos en la tarea de encontrar vulnerabilidades. Mientras que un equipo de personas puede tardar horas o días en idear una forma de sortear las barreras de seguridad de un modelo, un agente de IA puede realizar miles de intentos en una fracción de ese tiempo, aprendiendo y adaptándose constantemente.

Según Anthropic, estos agentes no solo son más rápidos, sino también más creativos a la hora de encontrar vectores de ataque novedosos que los evaluadores humanos no habían considerado. Amanda Askell, jefa de Alineación de la compañía, ha sido una de las voces principales detrás de esta investigación, subrayando cómo esta automatización permite un ciclo de mejora mucho más rápido.

El proceso genera una enorme cantidad de datos sobre las debilidades del modelo objetivo. Cada vez que el agente auditor tiene éxito en su «ataque», se registra el fallo. Esta información es crucial para el siguiente paso: fortalecer la seguridad del modelo.

De la teoría a la práctica: fortaleciendo a Claude 3

El descubrimiento de vulnerabilidades no es el fin del proceso, sino el principio. Toda la información recopilada por los agentes de auditoría se utiliza para reentrenar y mejorar los modelos de IA de Anthropic. Este método de «entrenamiento adversario» ayuda a que el modelo objetivo se vuelva más robusto y resistente a futuros intentos de manipulación.

Esta nueva técnica complementa el enfoque de seguridad que Anthropic ya venía utilizando, conocido como «IA Constitucional». Este método consiste en entrenar a los modelos de IA basándose en un conjunto de principios y valores (una «constitución»), en lugar de depender exclusivamente de la retroalimentación humana. Por ejemplo, se le instruye para que evite respuestas tóxicas o sesgadas, basándose en principios extraídos de documentos como la Declaración Universal de Derechos Humanos.

La combinación de la IA Constitucional con los nuevos agentes de auditoría crea un sistema de seguridad de doble capa. La «constitución» establece las reglas de comportamiento, mientras que los agentes auditores actúan como un control de calidad constante, buscando cualquier grieta en esa defensa. La compañía ha confirmado que los modelos de su más reciente familia, Claude 3, ya han sido reforzados utilizando los hallazgos de estas auditorías automatizadas.

Una carrera por la IA segura

El anuncio de Anthropic se produce en un momento en que la seguridad de la inteligencia artificial es una de las mayores preocupaciones del sector tecnológico y de los gobiernos de todo el mundo. A medida que los modelos de lenguaje se vuelven más potentes e integrados en nuestra vida diaria, el riesgo de que sean utilizados para fines maliciosos, como la creación de desinformación a gran escala o el desarrollo de ciberataques, aumenta considerablemente.

Anthropic no está sola en esta carrera. Google DeepMind también ha estado investigando activamente el uso de IA para hacer «red teaming» a sus propios modelos, con investigadores como Geoffrey Irving liderando algunos de los primeros trabajos en este campo. Que varias de las principales compañías de IA trabajen en soluciones similares indica que la automatización de las pruebas de seguridad podría convertirse en un estándar de la industria.

Anthropic, que ha recibido inversiones masivas de gigantes como Amazon —que se comprometió a invertir hasta 4.000 millones de dólares (unos 3.700 millones de euros)— y Google, se posiciona con este movimiento como una empresa que prioriza la seguridad en su estrategia de desarrollo. En un campo que avanza a una velocidad vertiginosa, garantizar que las nuevas tecnologías sean seguras y estén alineadas con los valores humanos es tan importante como lograr que sean más inteligentes. La introducción de agentes de auditoría es un paso proactivo y necesario en esa dirección.

¿Cómo funciona un «policía» para la inteligencia artificial?

Más eficaces que los humanos para encontrar fallos

De la teoría a la práctica: fortaleciendo a Claude 3

Una carrera por la IA segura

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Anthropic presenta sus «agentes auditores»: IAs que vigilan a otras IAs para mejorar su seguridad

¿Cómo funciona un «policía» para la inteligencia artificial?

Más eficaces que los humanos para encontrar fallos

De la teoría a la práctica: fortaleciendo a Claude 3

Una carrera por la IA segura

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras