OpenAI mejora sus modelos de IA para transcripción y generación de voz

Droids

OpenAI mejora sus modelos de IA para transcripción y generación de voz

OpenAI ha anunciado el lanzamiento de nuevos modelos de inteligencia artificial dedicados a la transcripción de voz y a la generación de voz sintética, que según la compañía superan significativamente a sus versiones anteriores. Estos avances forman parte de la visión "agéntica" de la empresa, enfocada en crear sistemas automatizados capaces de realizar tareas de manera independiente en nombre de los usuarios.

Una nueva generación de modelos de voz e inteligencia artificial

La empresa ha presentado el modelo "gpt-4o-mini-tts" para la conversión de texto a voz, junto con los modelos "gpt-4o-transcribe" y "gpt-4o-mini-transcribe" para la transcripción de audio. Estos últimos reemplazarán al veterano modelo Whisper, que llevaba tiempo siendo la opción principal de OpenAI para transcripción.

Olivier Godement, Jefe de Producto de OpenAI, explicó durante una presentación a TechCrunch cómo estos modelos encajan en su estrategia más amplia: "Vamos a ver cada vez más agentes aparecer en los próximos meses. Y el tema general es ayudar a clientes y desarrolladores a aprovechar agentes que sean útiles, disponibles y precisos".

Aunque el término "agente" en IA puede tener interpretaciones variadas, Godement describió una de ellas como un chatbot capaz de hablar con los clientes de una empresa, lo que sugiere aplicaciones inmediatas en servicio al cliente y atención automatizada.

"gpt-4o-mini-tts": Voces más realistas y controlables

El nuevo modelo de texto a voz de OpenAI no solo ofrece voces más naturales y matizadas, sino que también proporciona mayor capacidad de "dirección" que sus predecesores. Según la compañía, los desarrolladores pueden instruir al modelo sobre cómo decir las cosas utilizando lenguaje natural.

Por ejemplo, es posible pedir al sistema que "hable como un científico loco" o que "use una voz serena, como un profesor de mindfulness". Esta flexibilidad permite adaptar la experiencia vocal a diferentes contextos y necesidades.

Jeff Harris, miembro del equipo de producto de OpenAI, destacó la importancia de esta característica: "En diferentes contextos, no solo quieres una voz plana y monótona. Si estás en una experiencia de atención al cliente y quieres que la voz sea apologética porque ha cometido un error, puedes hacer que la voz tenga esa emoción… Nuestra gran creencia es que los desarrolladores y usuarios quieren controlar no solo lo que se dice, sino cómo se dice".

Transcripción mejorada con menos "alucinaciones"

En cuanto a los modelos de transcripción, OpenAI afirma que "gpt-4o-transcribe" y "gpt-4o-mini-transcribe" han sido entrenados con "conjuntos de datos de audio diversos y de alta calidad", lo que les permite captar mejor el habla acentuada y variada, incluso en entornos ruidosos o caóticos.

Una mejora significativa respecto a Whisper es la reducción de "alucinaciones", un problema por el que el modelo anterior tendía a fabricar palabras e incluso pasajes completos que nunca fueron pronunciados. Según Harris, los nuevos modelos son "mucho mejores que Whisper en ese aspecto".

"Asegurarse de que los modelos sean precisos es completamente esencial para obtener una experiencia de voz confiable, y precisos en este contexto significa que los modelos están escuchando las palabras con exactitud y no están rellenando detalles que no escucharon", explicó Harris a TechCrunch.

Limitaciones y cambio de estrategia

A pesar de las mejoras, estos modelos no están exentos de limitaciones. Según las evaluaciones internas de OpenAI, "gpt-4o-transcribe", el más preciso de los dos modelos de transcripción, tiene una "tasa de error de palabras" que se acerca al 30% (de un máximo de 120%) para lenguas índicas y dravídicas como el tamil, telugu, malayalam y kannada. Esto significa que tres de cada diez palabras transcritas por el modelo diferirán de la transcripción humana en estos idiomas.

Resultados de pruebas de transcripción de OpenAI

En un cambio respecto a su tradición anterior, OpenAI no planea hacer que sus nuevos modelos de transcripción estén disponibles abiertamente. Históricamente, la empresa había lanzado nuevas versiones de Whisper para uso comercial bajo una licencia MIT.

Harris explicó que "gpt-4o-transcribe" y "gpt-4o-mini-transcribe" son "mucho más grandes que Whisper" y, por lo tanto, no son buenos candidatos para una publicación abierta.

"No son el tipo de modelo que puedas ejecutar localmente en tu portátil, como Whisper", continuó. "Queremos asegurarnos de que si lanzamos cosas en código abierto, lo hacemos cuidadosamente, y tenemos un modelo realmente perfeccionado para esa necesidad específica. Y creemos que los dispositivos de usuario final son uno de los casos más interesantes para los modelos de código abierto".

Implicaciones para el ecosistema de IA

Estos avances llegan en un momento de intensa competencia en el campo de la IA generativa y conversacional. La mejora en la calidad de las voces sintéticas y la precisión de las transcripciones podría abrir nuevas posibilidades para aplicaciones en sectores como atención al cliente, accesibilidad, educación y entretenimiento.

La capacidad de generar voces con diferentes estilos emocionales y características particulares podría permitir experiencias de usuario más personalizadas y naturales, mientras que las transcripciones más precisas ayudarían a mejorar la accesibilidad de contenidos de audio para personas con discapacidad auditiva, así como facilitar el procesamiento automatizado de información verbal.

Sin embargo, el cambio hacia un enfoque menos abierto para estos modelos también refleja una tendencia creciente entre las empresas líderes de IA a mantener mayor control sobre sus tecnologías más avanzadas, especialmente a medida que estas se vuelven más potentes y sofisticadas.

Estos nuevos modelos de OpenAI forman parte de su API y estarán disponibles para los desarrolladores que deseen integrar capacidades avanzadas de voz en sus aplicaciones y servicios, contribuyendo a expandir el ecosistema de agentes de IA capaces de interactuar de forma natural con los usuarios mediante la voz.

Deja un comentario