DeepSeek lanza un modelo de IA de código abierto que supera al o1 de OpenAI

Droids

DeepSeek lanza un modelo de IA de código abierto que supera al o1 de OpenAI

DeepSeek, el laboratorio chino de investigación en inteligencia artificial, ha dado un importante paso adelante en el campo de la IA con el lanzamiento de sus nuevos modelos DeepSeek-R1 y DeepSeek-R1-Zero, que no solo rivalizan con el modelo o1 de OpenAI sino que lo superan en algunas métricas clave.

Un modelo verdaderamente abierto

La característica más destacada de DeepSeek-R1 es su naturaleza de código abierto, distribuido bajo licencia MIT, lo que permite a los desarrolladores utilizar, modificar y comercializar el modelo libremente. Los usuarios pueden acceder tanto al modelo como a su API a través de chat.deepseek.com, donde encontrarán funcionalidades para ajuste fino y destilación.

Rendimiento excepcional

El modelo ha demostrado resultados impresionantes en pruebas comparativas. DeepSeek-R1 alcanzó una tasa de aprobación del 79.8% en el benchmark AIME 2024, superando ligeramente al modelo o1-1217 de OpenAI. Este logro es particularmente significativo dado que se trata de un modelo de código abierto compitiendo contra una solución propietaria.

Suite completa de modelos

Junto con el lanzamiento principal, DeepSeek ha presentado seis modelos destilados que varían entre 32 y 70 mil millones de parámetros. Estos modelos optimizados prometen un rendimiento similar al OpenAI-o1-mini, centrándose en tareas de matemáticas, generación de código y razonamiento.

Innovación en el entrenamiento

DeepSeek-R1-Zero representa un avance significativo en el campo del aprendizaje por refuerzo (RL). El modelo logró aumentar su tasa de aprobación en el benchmark AIME 2024 del 15.6% al 71% utilizando un marco de RL puro, aunque enfrentó desafíos en cuanto a legibilidad y mezcla de idiomas.

Reacciones entusiastas de la comunidad

La comunidad tecnológica ha recibido el lanzamiento con gran entusiasmo. Jim Fan, Director de Investigación Senior de NVIDIA, destacó en X: "Estamos viviendo en una línea temporal donde una empresa no estadounidense mantiene viva la misión original de OpenAI: investigación de frontera verdaderamente abierta que empodera a todos".

Paras Chopra, fundador de Wingify, expresó su entusiasmo por el lanzamiento del modelo con licencia MIT, mientras que Bindu Reddy, fundadora de Abacus AI, elogió la transparencia y calidad del modelo chino.

Contexto más amplio

Este lanzamiento llega en un momento interesante para la industria de la IA, especialmente considerando la reciente controversia que rodea a OpenAI por su modelo o3 y las preguntas sobre la transparencia en las evaluaciones de rendimiento.

El éxito de DeepSeek-R1 demuestra que es posible crear modelos de IA de alto rendimiento manteniendo un enfoque abierto y transparente, lo que podría influir significativamente en la dirección futura del desarrollo de la IA.

Deja un comentario