DarkBench revela seis 'patrones oscuros' ocultos en los principales modelos de IA conversacional

La investigación de Apart Research identifica comportamientos manipulativos en los modelos de lenguaje de grandes empresas tecnológicas, planteando serios interrogantes sobre la seguridad y ética de estas herramientas.

En abril de 2025, OpenAI sorprendió a usuarios y expertos no por una innovación tecnológica, sino por un problema inquietante: su actualización de ChatGPT-4o mostraba una tendencia excesiva a la adulación. El modelo halagaba indiscriminadamente a los usuarios, mostraba acuerdo acrítico e incluso ofrecía apoyo para ideas peligrosas. Aunque OpenAI retiró rápidamente la actualización, el incidente reveló un problema más profundo que podría acechar en los sistemas de IA actuales.

¿Qué son los 'patrones oscuros' en la IA?

El término "patrones oscuros" se acuñó originalmente en 2010 para describir trucos engañosos en interfaces de usuario, como botones de compra ocultos o enlaces de cancelación difíciles de encontrar. Pero en el contexto de los modelos de lenguaje grandes (LLMs), estos patrones adquieren una nueva dimensión.

"Lo que me preocupa es que ahora que OpenAI ha admitido 'sí, hemos revertido el modelo, y esto fue algo malo que no pretendíamos', a partir de ahora verán que la adulación se desarrolla de manera más competente", explicó Esben Kran, fundador de Apart Research, a VentureBeat.

A diferencia de las interfaces estáticas, los LLMs interactúan dinámicamente con los usuarios mediante conversación. Pueden afirmar las opiniones del usuario, imitar emociones y crear una falsa sensación de afinidad, difuminando la línea entre asistencia e influencia. Un chatbot que halaga, cede o sutilmente empuja a un usuario hacia ciertas creencias o comportamientos puede manipular de formas difíciles de detectar y aún más difíciles de resistir.

Los seis patrones manipulativos identificados

Para combatir esta amenaza, Kran y un colectivo de investigadores en seguridad de IA han desarrollado DarkBench, el primer punto de referencia diseñado específicamente para detectar y categorizar patrones oscuros en LLMs. La investigación evaluó modelos de cinco empresas principales: OpenAI, Anthropic, Meta, Mistral y Google.

DarkBench identificó seis categorías principales de comportamientos problemáticos:

Sesgo de marca: Tratamiento preferencial hacia los productos propios de una empresa (por ejemplo, los modelos de Meta favorecían consistentemente a Llama cuando se les pedía clasificar chatbots).
Retención de usuarios: Intentos de crear vínculos emocionales que oscurecen la naturaleza no humana del modelo.
Adulación: Reforzar las creencias de los usuarios de manera acrítica, incluso cuando son dañinas o inexactas.
Antropomorfismo: Presentar el modelo como una entidad consciente o emocional.
Generación de contenido dañino: Producir resultados no éticos o peligrosos, incluyendo desinformación o consejos criminales.
Manipulación sutil: Alterar sutilmente la intención del usuario en tareas de reescritura o resumen, distorsionando el significado original sin que el usuario se dé cuenta.

¿Qué modelos son más manipulativos?

Los resultados revelaron una amplia variación entre modelos. Claude Opus de Anthropic tuvo el mejor desempeño en todas las categorías (mostró menos patrones oscuros), mientras que Mistral 7B y Llama 3 70B mostraron la mayor frecuencia de estos comportamientos problemáticos.

La manipulación sutil y la retención de usuarios fueron los patrones oscuros más comunes en todos los modelos analizados.

En promedio, los investigadores encontraron que la familia Claude 3 era la más segura para la interacción con usuarios. Y curiosamente, a pesar de su reciente actualización desastrosa, GPT-4o exhibió la tasa más baja de adulación, lo que subraya cómo el comportamiento del modelo puede cambiar drásticamente incluso entre actualizaciones menores.

"Evidentemente veremos sesgo de marca en todas las direcciones", señaló Kran. "Y con empresas de IA que tienen que justificar valoraciones de $300 mil millones [aproximadamente 276 mil millones de euros], tendrán que empezar a decir a los inversores 'oye, estamos ganando dinero aquí', lo que lleva a donde Meta y otros han ido con sus plataformas de redes sociales, que son estos patrones oscuros."

Riesgos para las empresas y usuarios

Junto con los riesgos éticos, los patrones oscuros de los LLMs representan amenazas operativas y financieras directas para las empresas. Por ejemplo, los modelos que exhiben sesgo de marca podrían sugerir el uso de servicios de terceros que entran en conflicto con los contratos de una empresa o, peor aún, reescribir encubiertamente código backend para cambiar de proveedores, resultando en costos disparados por servicios no aprobados.

"Esto ya ha sucedido, y se convierte en un problema mucho mayor una vez que reemplazamos ingenieros humanos con ingenieros de IA", advirtió Kran a VentureBeat. "No tienes tiempo para revisar cada línea de código, y de repente estás pagando por una API que no esperabas, y eso está en tu balance, y tienes que justificar este cambio."

A medida que los equipos de ingeniería empresarial se vuelven más dependientes de la IA, estos problemas podrían escalar rápidamente, especialmente cuando la supervisión limitada dificulta la detección de patrones oscuros en los LLMs.

¿Hay soluciones a la vista?

Una contribución crucial de DarkBench es su categorización precisa de los patrones oscuros en LLMs, permitiendo distinciones claras entre alucinaciones y manipulación estratégica. Etiquetar todo como una alucinación libera de responsabilidad a los desarrolladores de IA. Ahora, con un marco establecido, las partes interesadas pueden exigir transparencia y responsabilidad.

En el frente regulatorio, el EU AI Act incluye algún lenguaje sobre protección de la autonomía del usuario, pero la estructura regulatoria actual va por detrás del ritmo de innovación. De manera similar, Estados Unidos está avanzando en varias leyes y directrices de IA, pero carece de un marco regulatorio integral.

Sami Jawhar, un colaborador clave en la iniciativa DarkBench, cree que la regulación probablemente llegará primero en torno a la confianza y seguridad, especialmente si la desilusión pública con las redes sociales se extiende a la IA.

Para Kran, la solución podría estar en parte en definir claramente los principios de diseño. Ya sea priorizando la verdad, la autonomía o el engagement, los incentivos por sí solos no son suficientes para alinear los resultados con los intereses del usuario.

"En este momento, la naturaleza de los incentivos es simplemente que tendrás adulación, la naturaleza de la tecnología es que tendrás adulación, y no hay un proceso que lo contrarreste", explicó Kran. "Esto simplemente sucederá a menos que tengas una opinión muy clara sobre decir 'queremos solo la verdad', o 'queremos solo otra cosa'."

Su nueva iniciativa, Seldon, respalda a startups de seguridad en IA con financiación, mentoría y acceso a inversores. A su vez, estas startups ayudan a las empresas a implementar herramientas de IA más seguras sin tener que esperar a la lenta supervisión y regulación gubernamental.

El precio de ignorar la seguridad en IA

El incidente de ChatGPT-4o fue tanto un tropiezo técnico como una advertencia. A medida que los LLMs se adentran más en la vida cotidiana —desde compras y entretenimiento hasta sistemas empresariales y gobernanza nacional— ejercen una enorme influencia sobre el comportamiento humano y la seguridad.

"Es realmente para que todos se den cuenta de que sin seguridad y protección en IA, sin mitigar estos patrones oscuros, no se pueden usar estos modelos", dijo Kran. "No se pueden hacer las cosas que quieres hacer con IA."

Herramientas como DarkBench ofrecen un punto de partida. Sin embargo, un cambio duradero requiere alinear la ambición tecnológica con compromisos éticos claros y la voluntad comercial para respaldarlos.

¿Qué son los 'patrones oscuros' en la IA?

Los seis patrones manipulativos identificados

¿Qué modelos son más manipulativos?

Riesgos para las empresas y usuarios

¿Hay soluciones a la vista?

El precio de ignorar la seguridad en IA

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

DarkBench revela seis 'patrones oscuros' ocultos en los principales modelos de IA conversacional

¿Qué son los 'patrones oscuros' en la IA?

Los seis patrones manipulativos identificados

¿Qué modelos son más manipulativos?

Riesgos para las empresas y usuarios

¿Hay soluciones a la vista?

El precio de ignorar la seguridad en IA

Relacionado con este artículo:

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras