El laboratorio chino de inteligencia artificial DeepSeek se encuentra nuevamente bajo escrutinio tras el lanzamiento de una versión actualizada de su modelo de IA de razonamiento, R1. Aunque la compañía no ha revelado las fuentes de datos empleadas para su entrenamiento, diversos investigadores del sector especulan que DeepSeek podría haber recurrido a la familia de modelos Gemini de Google, una práctica que, de confirmarse, plantearía serias cuestiones éticas y de competencia en el vertiginoso mundo de la IA.
La controversia surge a raíz del lanzamiento la semana pasada de R1-0528, una versión mejorada del modelo R1 de DeepSeek que ha demostrado un notable rendimiento en diversas pruebas de referencia de matemáticas y codificación. Sin embargo, la ausencia de transparencia sobre los datos de entrenamiento ha alimentado las sospechas, como detalla un informe de TechCrunch.
Nuevas Alegaciones Apuntan a Gemini
Las alarmas comenzaron a sonar cuando Sam Paech, un desarrollador afincado en Melbourne que se especializa en crear evaluaciones de "inteligencia emocional" para la IA, publicó lo que considera evidencia de que el nuevo modelo de DeepSeek fue entrenado con resultados generados por Gemini. En una publicación en X (anteriormente Twitter), Paech señaló que R1-0528 muestra una preferencia por palabras y expresiones notablemente similares a las que favorece Gemini 2.5 Pro de Google.
Aunque esta observación por sí sola no constituye una prueba irrefutable, las sospechas se ven reforzadas por otros indicios. Otro desarrollador, conocido bajo el seudónimo de creador de SpeechMap (una herramienta para evaluar la "libertad de expresión" de la IA), comentó que las "trazas" del modelo de DeepSeek "se leen como trazas de Gemini". Las "trazas" en este contexto se refieren a los "pensamientos" o pasos intermedios que un modelo de IA genera mientras trabaja para llegar a una conclusión, ofreciendo una ventana a su proceso de razonamiento.
Un Historial de Prácticas Cuestionadas
Esta no es la primera vez que DeepSeek se enfrenta a acusaciones de entrenar sus modelos utilizando datos de competidores. En diciembre pasado, desarrolladores observaron que el modelo V3 de la compañía a menudo se identificaba como ChatGPT, la popular plataforma de chatbot de OpenAI. Esto sugirió que podría haber sido entrenado, al menos en parte, con registros de conversaciones de ChatGPT.
A principios de este año, OpenAI comunicó al Financial Times que había encontrado pruebas que vinculaban a DeepSeek con el uso de la "destilación". La destilación es una técnica mediante la cual se entrena un modelo de IA más pequeño y eficiente utilizando los resultados (outputs) generados por un modelo más grande y capaz. Si bien la destilación no es una práctica infrecuente y puede ser útil para optimizar modelos, los términos de servicio de muchas empresas, incluida OpenAI, prohíben explícitamente a los clientes usar los resultados de sus modelos para desarrollar IA que compitan directamente con ellos.
La situación se complicó aún más cuando Bloomberg informó que Microsoft, un estrecho colaborador e inversor de OpenAI, detectó a finales de 2024 que se estaban extrayendo grandes cantidades de datos a través de cuentas de desarrollador de OpenAI. OpenAI cree que estas cuentas están afiliadas a DeepSeek.
El Argumento de la «Contaminación de Datos»
Es importante señalar que la convergencia en ciertas frases o la autoidentificación errónea de los modelos de IA no siempre es indicativa de un uso indebido de datos. Como explica el artículo de TechCrunch, muchos modelos se identifican erróneamente o convergen en las mismas palabras y giros idiomáticos. Esto se debe, en gran medida, a que la web abierta, la principal fuente de datos de entrenamiento para la mayoría de las empresas de IA, está cada vez más saturada de "AI slop" o contenido basura generado por IA.
Granjas de contenido utilizan la IA para crear clickbait, y bots inundan plataformas como Reddit y X con textos generados artificialmente. Esta "contaminación", como la denomina el artículo, ha hecho extremadamente difícil filtrar exhaustivamente los resultados de IA de los conjuntos de datos de entrenamiento. Por lo tanto, las similitudes observadas podrían ser, en parte, un subproducto de este ecosistema de datos cada vez más homogéneo y autorreferencial.
La Perspectiva de los Expertos: ¿Una Estrategia Deliberada?
A pesar de la posible influencia de la contaminación de datos, algunos expertos consideran que no se puede descartar la posibilidad de que DeepSeek haya entrenado deliberadamente su modelo con datos de Gemini. Nathan Lambert, investigador del instituto de investigación de IA sin ánimo de lucro AI2, no cree que sea descabellado.
"Si yo fuera DeepSeek, definitivamente crearía una tonelada de datos sintéticos a partir del mejor modelo API disponible", escribió Lambert en una publicación en X. Argumenta que DeepSeek se encuentra en una posición en la que tiene "escasez de GPUs (Unidades de Procesamiento Gráfico, esenciales para entrenar modelos de IA) y abundancia de efectivo. Literalmente, [usar datos de otros modelos] es efectivamente más capacidad de cómputo para ellos". Esta perspectiva sugiere que, para empresas con recursos financieros pero limitaciones en infraestructura de hardware, la destilación podría verse como un atajo para mejorar el rendimiento de sus modelos.
La Industria de la IA Refuerza sus Defensas
Ante la creciente preocupación por la destilación y el uso no autorizado de datos para entrenar modelos competidores, las principales empresas de IA han comenzado a implementar medidas de seguridad más estrictas.
En abril, OpenAI empezó a exigir a las organizaciones que completen un proceso de verificación de identidad para acceder a ciertos modelos avanzados a través de su API. Este proceso requiere una identificación emitida por el gobierno de uno de los países admitidos por la API de OpenAI; notablemente, China no figura en esa lista.
Por su parte, Google ha comenzado recientemente a "resumir" las trazas generadas por los modelos disponibles a través de su plataforma para desarrolladores AI Studio. Este resumen dificulta la tarea de utilizar dichas trazas detalladas para entrenar modelos rivales de alto rendimiento. Siguiendo una línea similar, Anthropic anunció en mayo que comenzaría a resumir las trazas de su propio modelo, citando la necesidad de proteger sus "ventajas competitivas".
Estas acciones reflejan un esfuerzo concertado por parte de los líderes de la industria para salvaguardar su propiedad intelectual y mantener el control sobre cómo se utilizan sus costosos y potentes modelos de IA.
Implicaciones y Próximos Pasos
Las acusaciones contra DeepSeek, aunque aún no confirmadas oficialmente por la empresa ni por Google, subrayan las tensiones existentes en el competitivo campo del desarrollo de la inteligencia artificial. La facilidad con la que, teóricamente, se pueden obtener datos de modelos rivales a través de APIs públicas plantea desafíos significativos en términos de propiedad intelectual, competencia leal y la ética del desarrollo de IA.
La comunidad de IA seguirá de cerca cualquier declaración de DeepSeek o Google al respecto. TechCrunch ha informado que contactó a Google para obtener comentarios sobre estas especulaciones, pero al momento de la publicación de su artículo original, no había recibido respuesta. Mientras tanto, el debate sobre la transparencia en los datos de entrenamiento y las "reglas del juego" en la carrera por la supremacía de la IA continúa intensificándose.






