Elon Musk afirma que se ha agotado el conjunto de datos disponible para entrenar la IA

Droids

Updated on:

Elon Musk afirma que se ha agotado el conjunto de datos disponible para entrenar la IA

El CEO de xAI, Elon Musk, ha confirmado lo que otros expertos del sector ya venían advirtiendo: prácticamente se ha agotado el conjunto de datos del conocimiento humano disponible para entrenar sistemas de inteligencia artificial.

La declaración de Musk

«Hemos agotado básicamente la suma acumulada del conocimiento humano en el entrenamiento de IA», declaró Musk durante una conversación en streaming con Mark Penn, presidente de Stagwell, transmitida en X el miércoles por la noche. Según el empresario, este agotamiento se produjo «básicamente el año pasado».

Consenso en la industria

Esta declaración coincide con las observaciones realizadas por otros expertos destacados del sector. Ilya Sutskever, ex científico jefe de OpenAI, señaló en diciembre durante la conferencia NeurIPS que la industria había alcanzado lo que él denominó «peak data» (pico de datos), prediciendo que esta escasez obligará a un cambio en la forma en que se desarrollan los modelos actuales.

La solución: datos sintéticos

Ante esta situación, Musk propone una solución: el uso de datos sintéticos, es decir, datos generados por los propios modelos de IA. «La única manera de complementar [los datos del mundo real] es con datos sintéticos, donde la IA crea [datos de entrenamiento]», explicó. «Con datos sintéticos… [la IA] se calificará a sí misma y pasará por este proceso de autoaprendizaje».

Adopción actual de datos sintéticos

La industria ya está moviéndose en esta dirección. Según estimaciones de Gartner, el 60% de los datos utilizados para proyectos de IA y análisis en 2024 fueron generados sintéticamente.

Grandes empresas tecnológicas ya están implementando esta estrategia:

  • Microsoft con su modelo Phi-4
  • Google con sus modelos Gemma
  • Anthropic con Claude 3.5 Sonnet
  • Meta con su última serie de modelos Llama

Ventajas económicas

Una de las ventajas más significativas del uso de datos sintéticos es la reducción de costos. La startup Writer afirma que su modelo Palmyra X 004, desarrollado casi enteramente con fuentes sintéticas, costó solo 640.000€ ($700.000) en comparación con los aproximadamente 4,2 millones de euros ($4,6 millones) estimados para un modelo comparable de OpenAI.

Desafíos y riesgos

Sin embargo, esta aproximación no está exenta de riesgos. Investigaciones recientes sugieren que los datos sintéticos pueden provocar un «colapso del modelo», donde el sistema se vuelve menos creativo y más sesgado en sus resultados, pudiendo comprometer seriamente su funcionalidad.

Además, existe un problema de retroalimentación: si los modelos que crean datos sintéticos tienen sesgos o limitaciones en su entrenamiento original, estos mismos problemas se transmitirán y posiblemente se amplificarán en los datos que generen.

La industria de la IA se encuentra así en un punto de inflexión, donde la escasez de datos de entrenamiento tradicionales está empujando hacia nuevas soluciones que, si bien prometen eficiencia y ahorro de costos, también plantean importantes desafíos técnicos y éticos que deberán abordarse cuidadosamente en los próximos años.

Deja un comentario