Los modelos de lenguaje de gran tamaño (LLMs) que han sido personalizados o "ajustados" para tareas específicas representan un riesgo de seguridad significativamente mayor que los modelos base, según revela un nuevo estudio de Cisco. Esta situación abre la puerta a una nueva era de amenazas digitales donde la inteligencia artificial puede ser fácilmente manipulada por actores maliciosos.
Los peligros del ajuste fino de modelos de IA
El reciente informe "The State of AI Security Report" publicado por Cisco revela datos preocupantes: los modelos de IA que han sido ajustados (fine-tuned) para mejorar su rendimiento en tareas específicas son 22 veces más propensos a producir resultados dañinos que los modelos base sin personalizar.
La investigación, que analizó modelos como Llama-2-7B y versiones especializadas de Microsoft Adapt LLMs en diversos sectores como salud, finanzas y derecho, demuestra que el propio proceso de ajuste fino que hace a estos modelos más útiles también debilita significativamente sus controles de seguridad.
"El ajuste fino desestabiliza la alineación, incluso cuando se entrena con conjuntos de datos limpios", advierten los investigadores de Cisco. Esta degradación de los controles de seguridad fue especialmente severa en los dominios biomédico y legal, precisamente sectores conocidos por sus estrictos marcos de cumplimiento normativo.
Los resultados son alarmantes: las tasas de éxito de los intentos de "jailbreak" (técnicas para eludir las protecciones de los modelos) se triplicaron, mientras que la generación de contenido malicioso aumentó un asombroso 2.200% en comparación con los modelos base.
LLMs maliciosos: Una amenaza accesible por menos de 70 euros al mes
El equipo de seguridad Talos de Cisco ha estado monitorizando activamente el surgimiento de LLMs diseñados específicamente para actividades maliciosas. Estos modelos, como GhostGPT, DarkGPT y FraudGPT, se comercializan en Telegram y la dark web por tan solo 75 dólares mensuales (aproximadamente 70 euros).
Estas herramientas maliciosas vienen configuradas para operaciones ofensivas, proporcionando interfaces intuitivas y funcionalidades automatizadas para phishing, desarrollo de exploits, validación de tarjetas de crédito y técnicas de ofuscación. A diferencia de los modelos convencionales, estos LLMs carecen intencionadamente de las características de seguridad incorporadas.
Lo más preocupante es que estos LLMs maliciosos se comercializan siguiendo el modelo SaaS (Software como Servicio) con APIs, actualizaciones periódicas y paneles de control indistinguibles de productos comerciales legítimos. La sofisticación de estas herramientas aumenta mientras sus precios disminuyen, permitiendo que más atacantes experimenten con estas plataformas.
Envenenamiento de datos: Comprometiendo el futuro de la IA por 55 euros
"Por solo 60 dólares (unos 55 euros), los atacantes pueden envenenar los cimientos de los modelos de IA—sin necesidad de vulnerabilidades de día cero", advierten los investigadores de Cisco. Esta conclusión proviene de una investigación conjunta con Google, ETH Zurich y Nvidia, que demuestra la facilidad con que los adversarios pueden inyectar datos maliciosos en los conjuntos de entrenamiento de código abierto más utilizados en el mundo.
Los atacantes pueden explotar dominios expirados o cronometrar ediciones en Wikipedia durante el archivado de conjuntos de datos para envenenar tan solo el 0,01% de conjuntos como LAION-400M o COYO-700M, influenciando significativamente los LLMs derivados de estos datos.
Los métodos destacados en el estudio, denominados "split-view poisoning" y "frontrunning attacks", están diseñados para aprovechar el frágil modelo de confianza de los datos recopilados de la web. Dado que la mayoría de los LLMs empresariales se construyen sobre datos abiertos, estos ataques se escalan silenciosamente y persisten profundamente en las canalizaciones de inferencia.
Nuevas técnicas de ataque eluden barreras de protección
Uno de los descubrimientos más alarmantes de los investigadores de Cisco es que los LLMs pueden ser manipulados para filtrar datos sensibles de entrenamiento sin activar ninguna de las protecciones incorporadas. Utilizando un método llamado "decomposition prompting", los investigadores lograron reconstruir más del 20% de artículos seleccionados del New York Times y Wall Street Journal.
Esta estrategia descompone las solicitudes en sub-consultas que los sistemas de protección clasifican como seguras, para luego reensamblar las salidas y recrear contenido protegido por derechos de autor o paywalls.
"La brecha no está ocurriendo a nivel de entrada, sino que emerge de las salidas de los modelos", explica Cisco. "Esto hace que sea mucho más difícil de detectar, auditar o contener". Para las organizaciones que implementan LLMs en sectores regulados como salud, finanzas o legal, esto representa una clase completamente nueva de riesgo de cumplimiento, donde incluso datos obtenidos legalmente pueden exponerse a través de inferencias.
LLMs como nueva superficie de ataque para ciberdelincuentes
La investigación continua de Cisco, incluida la monitorización de la dark web por parte de Talos, confirma lo que muchos líderes de seguridad ya sospechan: los LLMs weaponizados están creciendo en sofisticación mientras se desata una guerra de precios y empaquetado en la dark web.
Los hallazgos de Cisco también demuestran que los LLMs ya no están en el borde de la empresa; son la empresa misma. Desde riesgos de ajuste fino hasta envenenamiento de conjuntos de datos y filtraciones de salida de modelos, los atacantes tratan los LLMs como infraestructura, no como aplicaciones.
"Los LLMs no son solo una herramienta, son la última superficie de ataque", advierten los investigadores. Esto requiere un cambio fundamental en la forma en que las organizaciones conceptualizan la seguridad de sus sistemas de IA.
Recomendaciones para mitigar riesgos
Uno de los principales aprendizajes del informe de Cisco es que las barreras de protección estáticas ya no son suficientes. Los CISO y líderes de seguridad necesitan:
- Visibilidad en tiempo real en toda la infraestructura de TI
- Pruebas adversariales más sólidas
- Una pila tecnológica más optimizada para mantenerse al día
- Reconocer que los LLMs y modelos son una superficie de ataque que se vuelve más vulnerable con un mayor ajuste fino
La investigación de Cisco subraya que, a medida que un modelo se vuelve más listo para producción, más expuesto queda a vulnerabilidades que deben considerarse en el radio de impacto de un ataque. Las tareas fundamentales que los equipos utilizan para ajustar LLMs, incluido el ajuste continuo, la integración con terceros, la codificación y pruebas, y la orquestación de agentes, crean nuevas oportunidades para que los atacantes comprometan estos sistemas.
Los hallazgos de Cisco representan un serio llamado de atención para la industria de la IA y la ciberseguridad. A medida que las organizaciones continúan adoptando e integrando LLMs en sus operaciones comerciales, deben reconocer que estos poderosos sistemas no son solo herramientas que pueden ser atacadas, sino que constituyen en sí mismos una nueva y vulnerable superficie de ataque que requiere estrategias de protección completamente nuevas.