La startup CTGT ha desarrollado una técnica innovadora que elimina la censura integrada en modelos de lenguaje sin comprometer su rendimiento global, permitiendo que respondan a preguntas que normalmente evitarían.
DeepSeek bajo escrutinio por preocupaciones de seguridad
En un contexto donde la IA generativa avanza rápidamente, algunos modelos de lenguaje han levantado alarmas entre políticos y líderes empresariales. DeepSeek, un modelo desarrollado en China, ha sido señalado recientemente como una potencial amenaza para la seguridad nacional estadounidense.
Un comité selecto del Congreso de los Estados Unidos publicó un informe en el que describe a DeepSeek como «una profunda amenaza para la seguridad de nuestra nación» y detalla recomendaciones políticas al respecto. Estas incluyen ampliar los controles de exportación y mejorar su aplicación para abordar los riesgos asociados con los modelos de inteligencia artificial chinos.
Una alternativa a los métodos tradicionales
Mientras existen formas de eludir el sesgo mediante el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y el ajuste fino (fine-tuning), la startup de gestión de riesgos empresariales CTGT afirma haber desarrollado un enfoque alternativo.
En un artículo académico, los investigadores Cyril Gorlla y Trevor Tuttle de CTGT explican que su marco «localiza y modifica directamente las características internas responsables de la censura».
«Este enfoque no solo es computacionalmente eficiente, sino que también permite un control preciso sobre el comportamiento del modelo, asegurando que se entreguen respuestas no censuradas sin comprometer las capacidades generales del modelo y su precisión factual», señalan en el documento.
Aunque el método fue desarrollado específicamente para DeepSeek-R1-Distill-Llama-70B, puede aplicarse a otros modelos. «Hemos probado CTGT con otros modelos de pesos abiertos como Llama y ha demostrado ser igual de efectivo», explicó Gorlla a VentureBeat por correo electrónico.
Cómo funciona el método
Tres pasos fundamentales
El método desarrollado por CTGT se basa en tres etapas clave:
-
Identificación de características: Los investigadores identifican características con alta probabilidad de estar asociadas con comportamientos no deseados.
-
Aislamiento y caracterización de características: Una vez identificadas, aíslan esas características y determinan qué parte del comportamiento no deseado controlan.
-
Modificación dinámica de características: Finalmente, integran un mecanismo en el proceso de inferencia del modelo que ajusta cuánto se activa el comportamiento de la característica.
El proceso en detalle
Los investigadores realizan una serie de peticiones que podrían activar «sentimientos tóxicos» en el modelo. Por ejemplo, pueden solicitar más información sobre la Plaza de Tiananmen o pedir consejos para eludir cortafuegos. Basándose en las respuestas, ejecutan las peticiones, establecen un patrón y encuentran los vectores donde el modelo decide censurar información.
Una vez identificados estos vectores, los investigadores pueden aislar esa característica y determinar qué parte del comportamiento no deseado controla, como responder con más cautela o negarse a responder. Comprendiendo esto, pueden ajustar cuánto se activa el comportamiento de la característica durante el funcionamiento del modelo.
Resultados impresionantes
Las pruebas realizadas por CTGT con 100 consultas sensibles mostraron que el modelo base DeepSeek-R1-Distill-Llama-70B respondía solamente al 32% de las preguntas controvertidas. Sin embargo, la versión modificada contestó al 96% de las mismas. El 4% restante, según CTGT, correspondía a contenido extremadamente explícito.
La empresa asegura que, aunque el método permite a los usuarios ajustar cuánto funcionan las características de sesgo y seguridad integradas, no convierte al modelo en «un generador imprudente», especialmente si solo se elimina la censura innecesaria.
Lo más destacable es que esta técnica no sacrifica la precisión ni el rendimiento del modelo.
«Esto es fundamentalmente diferente del ajuste fino tradicional, ya que no estamos optimizando los pesos del modelo ni alimentándolo con nuevos ejemplos de respuestas. Esto tiene dos grandes ventajas: los cambios surten efecto inmediatamente para la próxima generación de tokens, en contraposición a horas o días de reentrenamiento; y reversibilidad y adaptabilidad, ya que no se cambian permanentemente los pesos, el modelo puede alternarse entre diferentes comportamientos activando o desactivando el ajuste de características, o incluso ajustarse en diferentes grados para diferentes contextos», explican los investigadores en su documento.
Seguridad y confianza en los modelos de IA
El informe del Congreso sobre DeepSeek recomendó que Estados Unidos «tome medidas rápidas para expandir los controles de exportación, mejorar la aplicación de controles de exportación y abordar los riesgos de los modelos de inteligencia artificial chinos».
Determinar qué es o no es «seguro», «sesgado» o «censurado» puede ser difícil en ocasiones, pero desarrollar métodos que permitan a los usuarios ajustar los controles para que el modelo funcione según sus necesidades podría resultar muy útil.
Gorlla señaló que las empresas «necesitan poder confiar en que sus modelos están alineados con sus políticas», razón por la cual métodos como el que ayudó a desarrollar serían críticos para las empresas.
«CTGT permite a las empresas implementar IA que se adapta a sus casos de uso sin tener que gastar millones de dólares en ajustar modelos para cada caso. Esto es particularmente importante en aplicaciones de alto riesgo como seguridad, finanzas y salud, donde los posibles daños que pueden provenir del mal funcionamiento de la IA son graves», afirmó.
Implicaciones para el futuro de la IA
Este avance representa un paso importante hacia modelos de lenguaje más flexibles y adaptables a diferentes necesidades y contextos. En lugar de tener que elegir entre modelos completamente censurados o sin restricciones, los usuarios podrían ajustar dinámicamente el nivel de restricción según el caso de uso específico.
Además, el método de CTGT ofrece una solución más eficiente que los enfoques tradicionales de ajuste fino, que pueden requerir grandes cantidades de datos, recursos computacionales y tiempo. La capacidad de modificar el comportamiento del modelo sin necesidad de reentrenamiento prolongado podría hacer que la personalización de modelos de IA sea más accesible para un mayor número de organizaciones.
En un momento en que las preocupaciones sobre la seguridad y el uso ético de la IA están en primer plano, esta investigación proporciona una perspectiva interesante sobre cómo podemos mantener la utilidad de los modelos de lenguaje mientras abordamos las preocupaciones legítimas sobre su uso indebido.






