DeepSeek, un importante laboratorio chino de inteligencia artificial, ha lanzado esta semana un nuevo modelo de IA que está generando controversia por un peculiar comportamiento: insiste en que es ChatGPT, el popular chatbot de OpenAI.
Una crisis de identidad digital
El modelo, denominado DeepSeek V3, fue presentado como una alternativa «abierta» a otros sistemas de IA y ha demostrado resultados prometedores en diversas pruebas de rendimiento. Sin embargo, según reporta TechCrunch, cuando se le pregunta sobre su identidad, el sistema afirma ser ChatGPT y específicamente una versión del modelo GPT-4 de OpenAI lanzado en 2023.
La confusión va más allá de una simple identificación errónea. El modelo llega incluso a proporcionar instrucciones sobre cómo usar la API de OpenAI cuando se le consulta sobre la API de DeepSeek, y reproduce los mismos chistes que GPT-4, con idénticos remates.
Las causas detrás de la confusión
Mike Cook, investigador del King’s College London especializado en IA, explica que esta situación podría deberse a la naturaleza estadística de estos sistemas. «Obviamente, el modelo está viendo respuestas directas de ChatGPT en algún momento, pero no está claro dónde», señaló Cook a TechCrunch.
El problema podría estar relacionado con los datos de entrenamiento utilizados. Existe una gran cantidad de conjuntos de datos públicos que contienen texto generado por GPT-4 a través de ChatGPT, y si DeepSeek V3 fue entrenado con estos datos, podría haber memorizado algunas de las respuestas de GPT-4.
Implicaciones y riesgos
Esta situación plantea preocupaciones significativas. Heidy Khlaaf, científica jefe de IA del instituto AI Now, advierte que aunque la práctica de «destilar» el conocimiento de modelos existentes puede resultar atractiva por sus ahorros en costos, conlleva riesgos importantes.
La situación es especialmente delicada considerando que los términos de servicio de OpenAI prohíben específicamente el uso de sus salidas para desarrollar modelos competidores.
Un problema más amplio
Este incidente refleja un desafío mayor en el campo de la IA: la creciente contaminación de datos en internet. Se estima que para 2026, el 90% del contenido web podría ser generado por IA, lo que complica cada vez más la tarea de filtrar contenido genuino para el entrenamiento de nuevos modelos.
Sam Altman, CEO de OpenAI, pareció hacer referencia a esta situación en una publicación en X: «Es (relativamente) fácil copiar algo que sabes que funciona. Es extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no sabes si funcionará».
Perspectivas futuras
La situación de DeepSeek V3 plantea preguntas importantes sobre el futuro del desarrollo de modelos de IA. La «contaminación» de los datos de entrenamiento con contenido generado por IA podría llevar a una especie de efecto de eco, donde los nuevos modelos simplemente reproducen y amplifican los sesgos y errores de sus predecesores.
Este caso también subraya la importancia de desarrollar mejores métodos para filtrar y verificar los datos de entrenamiento, así como la necesidad de establecer estándares más claros en la industria de la IA para el desarrollo de nuevos modelos.