Meta corrige un grave fallo en su IA que permitía el robo de conversaciones de usuarios

Meta, la empresa matriz de Facebook e Instagram, ha solucionado una importante vulnerabilidad de seguridad en Llama 2, su popular modelo de inteligencia artificial de código abierto. El fallo, si hubiera sido explotado, podría haber permitido a atacantes acceder y robar las conversaciones completas de los usuarios con sistemas de IA basados en esta tecnología, incluyendo tanto las preguntas (prompts) como las respuestas generadas.

El descubrimiento fue realizado por la firma de ciberseguridad Protect AI, que lo comunicó de forma privada a Meta, permitiendo a la compañía tecnológica desarrollar un parche antes de que la vulnerabilidad se hiciera pública. Este incidente pone de manifiesto los nuevos y complejos desafíos de seguridad que surgen a medida que la inteligencia artificial generativa se integra cada vez más en aplicaciones y servicios de uso cotidiano.

Un riesgo oculto en el corazón de Llama 2

La vulnerabilidad afectaba directamente a Llama 2, uno de los modelos de IA más potentes y accesibles del mercado, utilizado por miles de desarrolladores y empresas de todo el mundo para crear sus propios chatbots, asistentes y otras herramientas inteligentes. El riesgo principal residía en la posibilidad de filtrar información sensible que los usuarios pudieran compartir en sus interacciones con la IA.

Esto podría incluir desde secretos comerciales o código de programación confidencial en un entorno empresarial, hasta datos personales, consultas médicas o información financiera en el caso de un usuario particular. Según un informe técnico publicado por Protect AI, el fallo era especialmente peligroso porque la extracción de datos se podía producir de forma silenciosa, sin que la víctima se percatara de que su conversación estaba siendo comprometida.

«Descubrimos que era posible crear un prompt malicioso que, al ser procesado por un sistema que utilizara una versión vulnerable de Llama 2, podía engañar al modelo para que filtrara la conversación de otro usuario a un servidor controlado por el atacante», explicaron los investigadores en su publicación.

La «inyección de prompts»: el arma del atacante

El método utilizado para explotar este fallo se conoce en el mundo de la ciberseguridad como «inyección de prompts» (del inglés, prompt injection). Para entenderlo de forma sencilla, se puede pensar en la IA como un asistente muy obediente. Un «prompt» es simplemente la orden o pregunta que le damos. En un ataque de inyección de prompts, el ciberdelincuente logra introducir instrucciones ocultas dentro de una orden aparentemente inofensiva.

El escenario de ataque podría ser el siguiente:

Un atacante crea una página web o un documento que contiene un prompt malicioso oculto.
Engaña a un usuario para que visite esa página o interactúe con el contenido. Por ejemplo, pidiéndole a un chatbot basado en Llama 2 que resuma el contenido de esa web.
Cuando el sistema de IA procesa la página para resumirla, se encuentra con las instrucciones ocultas del atacante.
La IA, siguiendo ciegamente estas nuevas órdenes, tomaría la conversación actual del usuario y la enviaría a un destino controlado por el atacante, todo ello sin levantar sospechas.

Este tipo de ataque es sutil y explota la confianza fundamental en cómo funcionan los Modelos Lingüísticos Grandes (LLM, por sus siglas en inglés), que están diseñados para seguir instrucciones contenidas en el texto que procesan.

Colaboración y recompensa: la respuesta de Meta

Siguiendo las mejores prácticas de la industria, Protect AI no hizo pública la vulnerabilidad de inmediato. En su lugar, la reportó a Meta a través de su programa de «bug bounty», una iniciativa que recompensa a investigadores y hackers éticos por encontrar y notificar fallos de seguridad en sus productos.

Esta colaboración permitió a los ingenieros de Meta analizar el problema y desarrollar una solución sin exponer a los usuarios a un riesgo inminente. Una vez que el parche estuvo listo y distribuido, la información sobre el fallo se hizo pública. Como reconocimiento por su trabajo, Meta otorgó a Protect AI una recompensa económica. Aunque la cifra exacta no ha sido confirmada oficialmente, fuentes del sector estiman que para un fallo de esta naturaleza la recompensa podría rondar los 15.000 dólares (aproximadamente 14.000 euros).

Un portavoz de Meta confirmó la corrección del fallo y aseguró que la compañía no ha encontrado pruebas de que la vulnerabilidad haya sido explotada activamente. «Agradecemos la contribución de los investigadores de Protect AI y animamos a toda la comunidad de seguridad a seguir participando en nuestro programa de recompensas para ayudar a mantener nuestras plataformas seguras», declaró a medios como The Verge. La compañía ha instado a todos los desarrolladores que utilicen Llama 2 a actualizar sus implementaciones a la última versión para protegerse.

El desafío de la seguridad en un ecosistema de IA de código abierto

El hecho de que Llama 2 sea un modelo de código abierto presenta tanto ventajas como desafíos únicos en materia de seguridad. Por un lado, permite que una comunidad global de expertos, como los de Protect AI, revise el código y descubra fallos. Por otro, significa que la responsabilidad de aplicar los parches de seguridad no recae únicamente en Meta, sino en cada una de las miles de empresas y desarrolladores individuales que han descargado y desplegado el modelo en sus propios servidores.

Si estas organizaciones no actualizan sus sistemas a la versión corregida, seguirán siendo vulnerables al ataque. Este incidente sirve como un poderoso recordatorio de que la seguridad en la era de la IA es una responsabilidad compartida. No se trata de un problema exclusivo de Meta; otros gigantes tecnológicos como OpenAI con su modelo GPT y Google con Gemini también se enfrentan a desafíos similares para proteger sus sistemas contra técnicas de ataque cada vez más sofisticadas.

A medida que la IA generativa se convierte en una tecnología fundamental, la colaboración entre las grandes corporaciones tecnológicas y la comunidad de ciberseguridad será más crucial que nunca para construir un ecosistema digital más seguro y fiable para todos los usuarios.

Un riesgo oculto en el corazón de Llama 2

La «inyección de prompts»: el arma del atacante

Colaboración y recompensa: la respuesta de Meta

El desafío de la seguridad en un ecosistema de IA de código abierto

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Meta corrige un grave fallo en su IA que permitía el robo de conversaciones de usuarios

Un riesgo oculto en el corazón de Llama 2

La «inyección de prompts»: el arma del atacante

Colaboración y recompensa: la respuesta de Meta

El desafío de la seguridad en un ecosistema de IA de código abierto

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras