Las siglas GPT en ChatGPT significan «Generative Pre-trained Transformer» («Transformador preentrenado generativo» en inglés). Estas siglas también aparecen con el mismo significado en los modelos de OpenAI (GPT-3, GPT-4, etc). Se refieren a una arquitectura de inteligencia artificial que utiliza redes neuronales profundas para procesar y generar texto de manera similar a como lo hacemos los humanos.
Los dos conceptos clave son «preentrenado» y la arquitectura «Transformer», que permite que el modelo preste atención a diferentes partes de la entrada de texto, ayudándolo a captar el contexto y generar respuestas coherentes.
En la fase de preentrenamiento, los modelos GPT son alimentados con enormes cantidades de datos en bruto de internet, como páginas web, libros y artículos. Este entrenamiento les permite adquirir un conocimiento general del lenguaje natural, de forma que saben qué palabras y frases es más probable que sigan a una secuencia de palabras dada, según el contexto.
Posteriormente, los modelos GPT pueden ser «entrenados» más específicamente con conjuntos de datos relevantes para tareas particulares, como responder preguntas, escribir código o generar texto creativo.
¿En qué se diferencian ChatGPT y GPT-4?
ChatGPT es una aplicación de chat basada en un modelo GPT (GPT-3.5 en la versión gratuita, y GPT-4 en la versión de pago) y entrenada específicamente para responder preguntas y mantener conversaciones que suenan totalmente humanas.
GPT-4 es la última versión de este sistema, más potente y capaz que sus predecesores, estrenada en marzo de 2023. Se encuentra en la versión de pago de ChatGPT, así como en Copilot de Microsoft y en otras aplicaciones.
La familia de modelos GPT forman parte de lo que llamamos LLMs o grandes modelos de lenguaje, aunque hay otros LLMs que no son GPTs (como por ejemplo BERT, Gemini y otros modelos de Google y de otras compañías, como Anthropic (Claude) y Meta (LLaMA). Muchos de los nombres de modelos de lenguaje son también siglas, como BERT, que quiere decir «Bidirectional Encoder Representations from Transformers», y LLaMA, que quiere decir «Large Language Model Meta AI».