Las reacciones iniciales a los modelos gpt-oss de código abierto de OpenAI muestran una división profunda en la comunidad tecnológica.
OpenAI lanzó ayer dos nuevos modelos de lenguaje: gpt-oss-120B y gpt-oss-20B, bajo la licencia Apache 2.0. Es la primera vez desde 2019 que la compañía libera un modelo de lenguaje de vanguardia como código abierto. Los últimos 2,7 años de la «era ChatGPT» han estado dominados por modelos propietarios de OpenAI que requerían pago, ofrecían personalización limitada y no podían ejecutarse sin conexión o en hardware privado.
El modelo más grande está diseñado para ejecutarse en una GPU Nvidia H100, mientras que el más pequeño funciona en computadoras personales. Aunque los modelos alcanzan referencias técnicas similares a las ofertas propietarias de OpenAI como o3-mini y o4-mini, según Simon Willison, las opiniones están divididas casi al 50%.
Entre las críticas más severas, Teknium, investigador de código abierto y cofundador de Nous Research, calificó el lanzamiento como «una nada legítima» y se declaró «muy decepcionado». Artificial Analysis señaló que aunque gpt-oss-120B es «el modelo estadounidense de pesos abiertos más inteligente», queda por detrás de competidores chinos como DeepSeek R1 y Qwen3 235B.
Los usuarios reportan limitaciones específicas: los modelos sobresalen en matemáticas y programación pero carecen de sentido común, según el influencer Lisan al Gaib. En pruebas de escritura creativa, algunos usuarios encontraron que el modelo insertaba ecuaciones en salidas poéticas. Kyle Corbitt, exingeniero de Google, sugiere que los modelos fueron entrenados principalmente con datos sintéticos, haciéndolos «extremadamente especializados»: buenos en las tareas para las que fueron entrenados, deficientes en todo lo demás.
Las evaluaciones muestran resultados preocupantes: SpeechMap reportó puntuaciones de cumplimiento por debajo del 40%, cerca del fondo entre modelos similares. En la evaluación multilingüe Polyglot de Aider, gpt-oss-120B obtuvo solo 41.8%, muy por debajo de competidores como Kimi-K2 (59.1%) y DeepSeek-R1 (56.9%). Algunos usuarios también reportaron que los modelos son «extrañamente resistentes a generar críticas sobre China o Rusia», en contraste con su tratamiento de Estados Unidos y la UE.
Sin embargo, varios expertos mantienen optimismo. Simon Willison calificó el lanzamiento como «realmente impresionante», alabando la eficiencia de los modelos y su rendimiento en razonamiento y referencias STEM. Clem Delangue, CEO de Hugging Face, instó a no precipitar juicios, sugiriendo que los problemas iniciales podrían deberse a inestabilidad de infraestructura y optimización insuficiente. «El poder del código abierto es que no hay trampas… Descubriremos todas las fortalezas y limitaciones… progresivamente», escribió.
Ethan Mollick de Wharton señaló que «Estados Unidos ahora probablemente tiene los modelos de pesos abiertos líderes (o cerca de serlo)», aunque cuestionó si OpenAI mantendrá este liderazgo. Nathan Lambert del Allen Institute for AI alabó la importancia simbólica del movimiento, llamándolo «un paso fenomenal para el ecosistema abierto», aunque advirtió que es poco probable que frene significativamente a Qwen de Alibaba.






