Scale AI expuso datos confidenciales de Meta y xAI en documentos públicos de Google, según un informe

Droids

Updated on:

En una revelación que pone en entredicho las prácticas de seguridad de una de las empresas más prominentes del sector de la inteligencia artificial, se ha descubierto que Scale AI utilizó documentos de Google de acceso público para gestionar tareas sensibles para clientes de alto perfil como Meta y xAI, la compañía de Elon Musk. El fallo de seguridad, que expuso información detallada sobre proyectos y datos personales de sus trabajadores, sale a la luz justo después de que la compañía alcanzara una valoración de casi 14.000 millones de dólares (aproximadamente 12.900 millones de euros).

El incidente fue destapado por un investigador de seguridad y pone de relieve los riesgos operacionales en la vertiginosa carrera por el desarrollo de la IA, especialmente en el eslabón humano de la cadena: el etiquetado de datos.

Un hallazgo casual que destapa un grave fallo de seguridad

La brecha de seguridad fue descubierta por el investigador Zach Edwards de una manera casi fortuita. Según informa The New York Post, Edwards se encontraba realizando búsquedas en Google con términos técnicos comunes en la industria, como «data annotation» (anotación de datos) y «prompt engineering» (ingeniería de instrucciones para IA), cuando se topó con varias hojas de cálculo de Google Docs que eran públicamente accesibles.

Estos documentos, que deberían haber sido privados, estaban configurados con el permiso «cualquier persona con el enlace puede ver», lo que permitió que los motores de búsqueda los indexaran y los hicieran visibles para cualquiera que utilizara las palabras clave adecuadas.

El contenido de estas hojas de cálculo resultó ser altamente sensible. Incluían:

  • Instrucciones detalladas para los anotadores de datos que trabajaban en los modelos de lenguaje Llama de Meta.
  • Material relacionado con proyectos para xAI, la empresa de inteligencia artificial fundada por Elon Musk.
  • Información sobre tareas realizadas para el Departamento de Defensa de Estados Unidos, presuntamente vinculadas al controvertido Proyecto Maven.
  • Comunicaciones internas de la compañía y detalles logísticos.

La naturaleza de la información comprometida

Más allá de las instrucciones para los proyectos de sus clientes, la filtración expuso una gran cantidad de Información de Identificación Personal (PII, por sus siglas en inglés) de los trabajadores de Scale AI. Estos «anotadores de datos» son, en su mayoría, autónomos o freelancers de diversas partes del mundo, a menudo de países con menores costes laborales, que se encargan de la tarea manual pero crucial de etiquetar y clasificar datos para entrenar a los modelos de IA.

Los documentos filtrados contenían nombres, direcciones de correo electrónico y otros datos de contacto de estos trabajadores, así como información sobre sus pagos. La exposición de estos datos no solo supone una grave violación de la privacidad, sino que también los deja vulnerables a posibles estafas o ciberataques.

Este ejército de trabajadores invisibles es fundamental para el funcionamiento de empresas como Scale AI, que actúa como intermediaria, proporcionando la fuerza humana necesaria para que las grandes tecnológicas puedan pulir sus algoritmos.

La respuesta de Scale AI: disculpas públicas y medidas de contención

La reacción inicial de Scale AI, a través de un portavoz, fue minimizar la gravedad del incidente. La compañía afirmó que se trataba de una cantidad «limitada» de información y que estaba relacionada principalmente con «datos de código abierto o sintéticos», sugiriendo que la información de los clientes no se había visto comprometida.

Sin embargo, ante la creciente atención mediática, el CEO de la compañía, Alexandr Wang, adoptó un tono más conciliador. En una publicación en la red social X, Wang admitió el error de la empresa. «Nos equivocamos», escribió. «La seguridad de los datos es una de nuestras principales prioridades y estamos tratando este incidente con la máxima urgencia».

Wang explicó que los documentos expuestos eran materiales de formación para contratistas externos que trabajaban con datos públicos o de código abierto y reiteró que «ningún dato confidencial o sensible de los clientes fue expuesto». Añadió que, tras ser notificados del problema, aseguraron los documentos y han implementado nuevas políticas para evitar que un error similar vuelva a ocurrir, según el informe de The New York Post.

El debate sobre la sensibilidad de los datos

A pesar de las disculpas y las garantías del CEO, el investigador que descubrió el fallo, Zach Edwards, cuestionó la versión de la compañía. Edwards argumentó que, aunque los datos brutos que se estaban etiquetando pudieran ser de dominio público, la información filtrada era intrínsecamente sensible.

Según él, las instrucciones operativas específicas sobre cómo etiquetar datos para un modelo propietario como Llama de Meta, así como la información personal de los trabajadores, constituyen «datos operacionales» confidenciales. La exposición de estos métodos de trabajo podría dar a los competidores una visión valiosa sobre las estrategias de entrenamiento de Meta o xAI.

La contradicción principal reside en la afirmación de que «ningún dato sensible fue expuesto» cuando, al mismo tiempo, se admite la filtración de la información personal de cientos de trabajadores, un tipo de dato protegido por la mayoría de las legislaciones de privacidad del mundo.

Implicaciones para la industria de la inteligencia artificial

Este episodio llega en un momento crucial para Scale AI, que recientemente anunció una ronda de financiación de 1.000 millones de dólares (unos 920 millones de euros), elevando su valoración a casi 14.000 millones de dólares. El contraste entre su éxito financiero y este fallo básico de seguridad ha generado un intenso escrutinio.

El incidente sirve como una llamada de atención para toda la industria de la IA, que, en su afán por crecer a un ritmo sin precedentes, podría estar descuidando aspectos fundamentales de la seguridad operacional. La dependencia de una fuerza laboral global, distribuida y a menudo precaria para el etiquetado de datos crea un ecosistema complejo y difícil de proteger si no se aplican protocolos de seguridad estrictos.

Hasta el momento, ni Meta ni xAI han realizado declaraciones públicas sobre la exposición de sus datos operativos. El silencio de estos gigantes tecnológicos añade una capa de incertidumbre sobre las posibles consecuencias a largo plazo de esta filtración para Scale AI y sus relaciones comerciales.