Amazon ha lanzado Nova Sonic, un innovador modelo de inteligencia artificial generativa capaz de procesar voz de forma nativa y generar conversaciones con un habla natural. Según la compañía, este nuevo desarrollo tecnológico puede competir directamente con los modelos de voz más avanzados de OpenAI y Google en términos de velocidad, reconocimiento de voz y calidad conversacional.
Una evolución en la interacción por voz
Nova Sonic representa la respuesta de Amazon a los recientes avances en modelos de voz de IA como el que impulsa el modo de voz de ChatGPT, que ofrecen una experiencia mucho más fluida y natural que los primeros asistentes digitales. Los avances tecnológicos recientes han hecho que los modelos tradicionales y los asistentes digitales que se basan en ellos, como Alexa y Siri de Apple, parezcan significativamente limitados en comparación.
El nuevo modelo está disponible a través de Bedrock, la plataforma de Amazon para desarrolladores que buscan crear aplicaciones empresariales de IA, mediante una nueva API de transmisión bidireccional. En su comunicado, Amazon ha calificado a Nova Sonic como "el modelo de voz de IA más eficiente en costes" del mercado, afirmando que es aproximadamente un 80% menos costoso que GPT-4o de OpenAI.
Ya integrado en Alexa+
Según Rohit Prasad, vicepresidente senior y científico jefe de AGI de Amazon, algunos componentes de Nova Sonic ya están funcionando en Alexa+, la versión mejorada del asistente de voz de la compañía.
En una entrevista con TechCrunch, Prasad explicó que Nova Sonic se basa en la experiencia de Amazon en "sistemas de orquestación a gran escala", la estructura técnica que constituye el funcionamiento de Alexa. En comparación con modelos de voz de la competencia, Nova Sonic sobresale en la capacidad de direccionar las solicitudes de los usuarios a diferentes APIs, lo que le permite "saber" cuándo necesita buscar información en tiempo real de internet, analizar una fuente de datos propietaria o ejecutar acciones en una aplicación externa.
Capacidades conversacionales avanzadas
Durante un diálogo bidireccional, Nova Sonic espera para hablar "en el momento apropiado", tomando en cuenta las pausas e interrupciones del hablante, según Amazon. También genera una transcripción de texto del habla del usuario, que los desarrolladores pueden utilizar para diversas aplicaciones.
Prasad asegura que Nova Sonic es menos propenso a errores de reconocimiento de voz que otros modelos de IA de voz, lo que significa que el modelo es relativamente bueno para entender la intención de un usuario incluso si este murmura, se equivoca al hablar o se encuentra en un entorno ruidoso.
Resultados destacados en benchmarks
Los resultados en pruebas comparativas son impresionantes:
-
En el benchmark Multilingual LibriSpeech, que mide el reconocimiento de voz en varios idiomas y dialectos, Amazon afirma que Nova Sonic logró una tasa de error de palabras (WER) de solo 4,2% cuando se promedió entre inglés, francés, italiano, alemán y español. Esto significa que aproximadamente cuatro de cada 100 palabras del modelo difirieron de una transcripción humana en esos idiomas.
-
En otro benchmark que mide interacciones ruidosas con múltiples participantes, Augmented Multi Party Interaction, Amazon afirma que Nova Sonic fue un 46,7% más preciso en términos de WER que el modelo GPT-4o-transcribe de OpenAI.
-
Nova Sonic también tiene una velocidad líder en la industria, con una latencia percibida promedio de 1,09 segundos, según Amazon. Esto lo hace más rápido que el modelo GPT-4o que impulsa la API en tiempo real de OpenAI, que responde en 1,18 segundos, según las pruebas de Artificial Analysis.
Parte de una estrategia de IA más amplia
Prasad señala que Nova Sonic forma parte de la estrategia más amplia de Amazon para construir AGI (inteligencia artificial general), que la empresa define como "sistemas de IA que pueden hacer cualquier cosa que un humano pueda hacer en una computadora".
De cara al futuro, Prasad menciona que Amazon planea lanzar más modelos de IA capaces de comprender diferentes modalidades, incluidas imágenes, video y voz, así como "otros datos sensoriales relevantes si se llevan las cosas al mundo físico".
La división de AGI de Amazon, que Prasad supervisa, parece estar desempeñando un papel cada vez más importante en la estrategia de productos de la empresa. Apenas la semana pasada, Amazon lanzó una vista previa de Nova Act, un modelo de IA que utiliza navegador web y que parece estar impulsando elementos de Alexa+ y la función Buy for Me de Amazon.
Comenzando con Nova Sonic, Prasad indica que la compañía quiere ofrecer más de sus modelos internos de IA para que los desarrolladores construyan con ellos, reforzando el compromiso de Amazon con la innovación en el campo de la inteligencia artificial.
Esta nueva apuesta de Amazon por modelos de voz más naturales y eficientes representa un paso significativo en la carrera tecnológica por desarrollar asistentes de voz cada vez más humanos y capaces, un campo donde la competencia con gigantes como OpenAI y Google se intensifica día a día.