DeepSeek lanza su nuevo modelo de IA DeepSeek-V3-0324 con licencia MIT y 641 GB de tamaño

Droids

DeepSeek lanza su nuevo modelo de IA DeepSeek-V3-0324 con licencia MIT y 641 GB de tamaño

El laboratorio chino de inteligencia artificial DeepSeek acaba de lanzar la última versión de su masivo modelo DeepSeek V3, incorporando la fecha de lanzamiento en su nombre: DeepSeek-V3-0324. Esta nueva versión destaca por adoptar una licencia MIT, más permisiva que las anteriores, y por su impresionante tamaño de 641 GB de archivos.

Un modelo gigante con licencia abierta

El cambio a la licencia MIT representa una novedad importante para DeepSeek, ya que las versiones anteriores de DeepSeek V3 utilizaban una licencia personalizada. Esta modificación permite un uso más libre y flexible del modelo, tanto para fines comerciales como no comerciales.

Según la información compartida por Simon Willison, el modelo se compone principalmente de archivos con formato "model-XXXXX-of-XXXXXX.safetensors", sumando un total de 641 GB. Sin embargo, llama la atención que, a pesar de su tamaño y capacidades, el README del modelo está completamente vacío, lo que sugiere que la documentación podría ampliarse en las próximas actualizaciones.

Funcionando en hardware de consumo avanzado en tiempo récord

Uno de los aspectos más sorprendentes de este lanzamiento es la rapidez con la que ha sido implementado en hardware de consumo. Apenas unas horas después de su publicación, el desarrollador de MLX, Awni Hannun, ya tenía el modelo funcionando a más de 20 tokens por segundo en un Mac Studio M3 Ultra con 512 GB de RAM, un equipo valorado en $9,499 (aproximadamente 8.730€).

Esta hazaña fue posible gracias a mlx-lm y a una versión cuantizada del modelo a 4 bits, disponible como mlx-community/DeepSeek-V3-0324-4bit, que reduce el tamaño en disco a 352 GB.

La cuantización es una técnica que permite reducir la precisión numérica de los parámetros del modelo, disminuyendo así su tamaño y requisitos de memoria, a cambio de una pequeña pérdida en la calidad de los resultados.

Cómo acceder y utilizar el modelo

El nuevo modelo de DeepSeek está disponible a través de diferentes plataformas y herramientas. Para los usuarios de Hugging Face, el modelo completo se puede encontrar en el repositorio deepseek-ai/DeepSeek-V3-0324.

Además, los usuarios con el hardware adecuado pueden utilizar el plugin llm-mlx para ejecutar el modelo en sus propios equipos mediante comandos como:

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bit
llm chat -m mlx-community/DeepSeek-V3-0324-4bit

Para aquellos que no disponen del hardware necesario, el modelo también está disponible en OpenRouter, donde se puede probar a través de una interfaz de chat en openrouter.ai/chat o mediante su API con herramientas como llm-openrouter.

Capacidades demostradas

Simon Willison puso a prueba las capacidades del modelo solicitándole que generara una imagen SVG de un pelícano montando en bicicleta. El resultado, aunque no perfecto, mostró elementos reconocibles tanto del pelícano como de la bicicleta, si bien ambos aparecían algo desarticulados.

Además, Willison también probó las capacidades de generación de texto pidiendo información sobre pelícanos. La respuesta obtenida fue detallada e informativa, destacando hechos como:

  • Los pelícanos poseen una bolsa en la garganta (saco gular) que puede contener hasta 11 litros de agua, tres veces más que su estómago.
  • Esta bolsa funciona como una herramienta para pescar, un mecanismo de enfriamiento y un "carrito de compras" para transportar comida a sus crías.
  • Los pelícanos suelen pescar de forma cooperativa, dirigiendo a los peces hacia aguas poco profundas para capturarlos más fácilmente.

La respuesta incluyó formato Markdown y emojis, demostrando las capacidades de formato del modelo.

Implicaciones y contexto

El lanzamiento de DeepSeek-V3-0324 representa un avance importante en la democratización de modelos de IA de gran escala. Hasta hace relativamente poco tiempo, ejecutar modelos de este tamaño requería infraestructura de nivel empresarial, pero ahora están comenzando a ser accesibles en hardware de consumo de gama alta.

La combinación de una licencia más abierta y las técnicas de optimización como la cuantización están permitiendo que estos modelos masivos lleguen a un público más amplio de desarrolladores e investigadores.

Para poner en contexto el tamaño de este modelo, Simon Willison incluso desarrolló una herramienta específica (con ayuda de Claude) para calcular el tamaño total de un repositorio en Hugging Face, ya que esta información no se muestra directamente en su interfaz web aunque está disponible a través de su API.

Este lanzamiento se suma a la tendencia creciente de modelos cada vez más grandes y potentes que, paradójicamente, están volviéndose más accesibles gracias a las innovaciones en optimización y al avance continuo en hardware de consumo.

Con el DeepSeek-V3-0324, vemos otro ejemplo de cómo la barrera entre los modelos de IA de nivel investigación y las aplicaciones prácticas en equipos personales sigue difuminándose, abriendo nuevas posibilidades para desarrolladores, creadores y entusiastas de la tecnología.

Deja un comentario