OpenAI implementa nuevo sistema de seguridad en sus modelos de IA para prevenir riesgos biológicos

Droids

Updated on:

OpenAI implementa nuevo sistema de seguridad en sus modelos de IA para prevenir riesgos biológicos

OpenAI ha desplegado un nuevo sistema de seguridad para sus últimos modelos de razonamiento de inteligencia artificial, o3 y o4-mini. Este sistema está diseñado específicamente para monitorear y bloquear solicitudes relacionadas con amenazas biológicas y químicas, evitando que los modelos ofrezcan consejos que podrían utilizarse para realizar ataques potencialmente dañinos, según informa el reporte de seguridad de la compañía.

La empresa ha reconocido que sus nuevos modelos representan un aumento significativo en capacidades respecto a versiones anteriores, lo que conlleva nuevos riesgos si caen en manos de actores malintencionados.

Un sistema enfocado en la seguridad

Según OpenAI, sus pruebas internas han demostrado que el modelo o3 es particularmente hábil para responder preguntas relacionadas con la creación de ciertos tipos de amenazas biológicas. Para mitigar este y otros riesgos, la compañía ha desarrollado un nuevo sistema de monitoreo que describe como un «monitor de razonamiento enfocado en la seguridad».

Este monitor ha sido específicamente entrenado para razonar sobre las políticas de contenido de OpenAI y funciona como una capa adicional sobre los modelos o3 y o4-mini. Su diseño permite identificar solicitudes relacionadas con riesgos biológicos y químicos, instruyendo a los modelos a rechazar ofrecer asesoramiento sobre estos temas sensibles.

«Mientras los modelos más capaces pueden ofrecer grandes beneficios a la sociedad, también plantean riesgos que debemos abordar proactivamente», explicó OpenAI en su informe de seguridad.

Pruebas y efectividad del sistema

Para establecer una línea base de funcionamiento, OpenAI contó con un equipo de evaluación («red teamers») que dedicó aproximadamente 1.000 horas a marcar conversaciones «inseguras» relacionadas con riesgos biológicos que podrían generarse con los modelos o3 y o4-mini.

Durante una prueba en la que la empresa simuló la «lógica de bloqueo» de su monitor de seguridad, los modelos se negaron a responder a solicitudes riesgosas el 98,7% de las veces, según los datos proporcionados por OpenAI.

Sin embargo, la compañía reconoce una limitación importante: su prueba no tuvo en cuenta a personas que podrían intentar nuevas estrategias o formulaciones después de ser bloqueadas por el monitor. Por esta razón, OpenAI afirma que continuará dependiendo en parte del monitoreo humano como medida adicional de seguridad.

El desafío de las amenazas biológicas

Aunque OpenAI afirma que los modelos o3 y o4-mini no cruzan su umbral de «alto riesgo» para bioriesgos, las pruebas internas revelaron datos preocupantes. Según la empresa, las versiones tempranas de estos modelos demostraron ser más útiles que sus predecesores (o1 y GPT-4) para responder preguntas relacionadas con el desarrollo de armas biológicas.

Esta capacidad mejorada para abordar temas sensibles es precisamente lo que motivó la creación del nuevo sistema de monitoreo. La compañía ha incluido un gráfico en su informe de seguridad que muestra la comparativa entre modelos:

Gráfico del informe de seguridad de o3 y o4-mini

La empresa está realizando un seguimiento activo de cómo sus modelos podrían facilitar a usuarios malintencionados el desarrollo de amenazas químicas y biológicas, según su Marco de Preparación recientemente actualizado.

Preocupaciones sobre la seguridad de la IA

OpenAI está cada vez más dependiente de sistemas automatizados para mitigar los riesgos de sus modelos. Por ejemplo, para evitar que el generador de imágenes nativo de GPT-4o cree material de abuso sexual infantil, la empresa afirma utilizar un monitor de razonamiento similar al que ha implementado para o3 y o4-mini.

Sin embargo, varios investigadores han expresado preocupaciones sobre si OpenAI está priorizando suficientemente la seguridad frente al desarrollo y lanzamiento acelerado de nuevos modelos. Uno de los socios de evaluación de la empresa, Metr, indicó que tuvo relativamente poco tiempo para probar o3 en una evaluación de comportamiento engañoso.

«Esta evaluación se realizó en un tiempo relativamente corto, y solo probamos [o3] con estructuras de agente simples», escribió Metr en su blog. «Esperamos que sea posible un mayor rendimiento [en las evaluaciones] con más esfuerzo de investigación.»

Mientras tanto, OpenAI decidió no publicar un informe de seguridad para su modelo GPT-4.1, que se lanzó a principios de esta semana, lo que ha generado inquietudes adicionales entre expertos en seguridad de IA.

El futuro de la seguridad en IA

Esta nueva capa de protección representa un paso importante en los esfuerzos de OpenAI por equilibrar el avance tecnológico con la responsabilidad ética. Sin embargo, el rápido ritmo de desarrollo y lanzamiento de modelos cada vez más potentes plantea interrogantes sobre la sostenibilidad de este enfoque.

Los modelos o3 y o4-mini están disponibles para suscriptores de los planes Pro, Plus y Team de OpenAI, y vienen con estas protecciones adicionales incorporadas. La compañía ha señalado que continuará refinando sus sistemas de seguridad a medida que sus modelos evolucionen.

El desarrollo de estos sistemas de monitoreo automatizados refleja una tendencia creciente en el sector de la IA: la necesidad de implementar mecanismos de seguridad que escalen al mismo ritmo que las capacidades de los modelos, especialmente cuando se trata de áreas de alto riesgo como las amenazas biológicas y químicas.

Como sugirió Maxwell Zeff en TechCrunch, el equilibrio entre innovación y seguridad seguirá siendo un desafío fundamental para OpenAI y toda la industria de la inteligencia artificial en los próximos años.

Deja un comentario