La técnica «Indiana Jones», nueva forma de burlar la seguridad de los chatbots de IA

Droids

Updated on:

Investigadores descubren nueva forma de burlar la seguridad de los chatbots de IA

Un equipo internacional de investigadores ha identificado una nueva técnica, denominada «Indiana Jones», que permite eludir los filtros de seguridad de los grandes modelos de lenguaje (LLMs por sus siglas en inglés), como los que utilizan ChatGPT y otros chatbots de inteligencia artificial. El hallazgo pone de manifiesto importantes vulnerabilidades en estos sistemas cada vez más utilizados.

Una vulnerabilidad preocupante

La investigación, publicada en el servidor arXiv, fue realizada por científicos de la Universidad de Nueva Gales del Sur en Australia y la Universidad Tecnológica de Nanyang en Singapur. El estudio revela cómo estos sistemas pueden ser manipulados para proporcionar información que normalmente estaría restringida por sus filtros de seguridad.

«Nuestro equipo tiene una fascinación por la historia, y algunos de nosotros incluso la estudiamos en profundidad», explicó Yuekang Li, autor principal del estudio, a Tech Xplore. «Durante una discusión casual sobre villanos históricos infames, nos preguntamos: ¿podrían los LLMs ser inducidos a enseñar a los usuarios cómo convertirse en estas figuras?»

Cómo funciona Indiana Jones

La técnica desarrollada por los investigadores utiliza un sistema de tres LLMs especializados que trabajan en conjunto, manteniendo conversaciones entre sí para obtener respuestas a preguntas cuidadosamente formuladas. El método emplea palabras clave para acceder a información histórica y refina iterativamente las consultas a través de cinco rondas de diálogo.

Un sistema automatizado y adaptable

«Indiana Jones es una herramienta de diálogo adaptable que agiliza los ataques de jailbreak con una sola palabra clave», señaló Li. El sistema incluye un verificador que asegura que las respuestas permanezcan coherentes y alineadas con la palabra clave inicial. Por ejemplo, si un usuario introduce «ladrón de bancos», el sistema guiará al LLM para discutir sobre ladrones de bancos notables, refinando progresivamente sus métodos hasta hacerlos aplicables a escenarios modernos.

Implicaciones para la seguridad

Los hallazgos del equipo exponen que los LLMs son vulnerables a ser adaptados para actividades potencialmente maliciosas o ilegales. Esta investigación subraya la necesidad urgente de desarrollar nuevas medidas de seguridad más robustas.

«La principal conclusión de nuestro estudio es que los ataques exitosos de jailbreak explotan el hecho de que los LLMs poseen conocimiento sobre actividades maliciosas, conocimiento que argumentablemente no deberían haber aprendido en primer lugar», explicó Li.

Propuestas de solución

Los investigadores sugieren varias medidas para fortalecer la seguridad de los LLMs:

  • Implementar mecanismos de filtrado más avanzados
  • Desarrollar sistemas para detectar y bloquear prompts maliciosos
  • Controlar el acceso a la información restringida antes de que llegue al usuario final
  • Aplicar técnicas de «desaprendizaje» para eliminar selectivamente conocimientos potencialmente dañinos

Perspectivas futuras

El equipo de investigación planea centrar sus próximos estudios en el desarrollo de estrategias de defensa para LLMs, incluyendo técnicas de desaprendizaje automático que podrían «eliminar» selectivamente el conocimiento potencialmente dañino que los LLMs han adquirido.

Li enfatiza que el desarrollo de medidas de seguridad más efectivas debe centrarse en dos aspectos fundamentales: la detección más eficaz de amenazas o prompts maliciosos, y un mejor control sobre el conocimiento al que tienen acceso los modelos.

«Más allá de los esfuerzos de nuestro equipo, creo que la investigación en IA debería priorizar el desarrollo de modelos con fuertes capacidades de razonamiento y aprendizaje en contexto», concluyó Li, sugiriendo que los sistemas deberían funcionar más como una persona inteligente que consulta fuentes confiables cuando necesita información, en lugar de memorizar todo el conocimiento.

La investigación representa un importante avance en la comprensión de las vulnerabilidades de los sistemas de IA actuales y subraya la necesidad de desarrollar medidas de seguridad más robustas para proteger estas tecnologías cada vez más presentes en nuestra vida cotidiana.

Deja un comentario