Dos estudiantes universitarios sin experiencia extensa en inteligencia artificial han desarrollado un modelo de IA capaz de generar clips de audio estilo podcast similar a NotebookLM de Google. La herramienta, denominada Dia, está disponible abiertamente y promete revolucionar la creación de contenido de audio sintético.
Un modelo de generación de voz desarrollado por novatos en IA
Según informa TechCrunch, Toby Kim, uno de los cofundadores de Nari Labs (el grupo detrás del modelo), explicó que él y su compañero comenzaron a aprender sobre IA de voz hace apenas tres meses. Inspirados por NotebookLM de Google, querían crear un modelo que ofreciera más control sobre las voces generadas y «libertad en el guion».
Lo más sorprendente de esta historia es que ninguno de los dos estudiantes contaba con un amplio conocimiento previo en inteligencia artificial, lo que demuestra cómo las herramientas y recursos disponibles actualmente están democratizando el desarrollo de tecnologías avanzadas.
Características y capacidades de Dia
El modelo Dia, con 1.600 millones de parámetros (las variables internas que los modelos utilizan para hacer predicciones), puede generar diálogos a partir de un guion, permitiendo a los usuarios personalizar los tonos de los hablantes e insertar muletillas, tos, risas y otras señales no verbales.
Kim explicó que utilizaron el programa Google’s TPU Research Cloud, que proporciona a los investigadores acceso gratuito a los chips de IA TPU de la compañía, para entrenar su modelo. Una ventaja significativa de Dia es que puede ejecutarse en la mayoría de los PC modernos que tengan al menos 10GB de VRAM.
El modelo está disponible en la plataforma de desarrollo de IA Hugging Face y GitHub, lo que facilita su acceso a desarrolladores y entusiastas. Genera una voz aleatoria a menos que se le proporcione una descripción del estilo deseado, pero también puede clonar la voz de una persona.
En las pruebas realizadas por TechCrunch a través de la demo web de Nari, Dia funcionó muy bien, generando sin problemas conversaciones bidireccionales sobre cualquier tema. La calidad de las voces parece competitiva con otras herramientas del mercado, y la función de clonación de voz es una de las más sencillas que el reportero ha probado.
El mercado creciente de herramientas de voz sintética
El desarrollo de Dia se enmarca en un mercado cada vez más amplio y en crecimiento de herramientas de voz sintética. ElevenLabs es uno de los actores más importantes, pero no faltan competidores como PlayAI, Sesame y otros.
Los inversores creen que estas herramientas tienen un enorme potencial. Según PitchBook, las startups que desarrollan tecnología de voz con IA recaudaron más de 398 millones de dólares (aproximadamente 368 millones de euros) en financiación de capital de riesgo el año pasado.
Preocupaciones sobre seguridad y derechos de autor
Como muchos generadores de voz actuales, Dia ofrece pocas protecciones contra el uso indebido. Sería extremadamente fácil crear desinformación o una grabación fraudulenta con esta herramienta. En las páginas del proyecto, Nari desaconseja el abuso del modelo para suplantar, engañar o participar en campañas ilícitas, pero el grupo afirma que «no es responsable» del mal uso.
Otra preocupación importante es que Nari no ha revelado qué datos utilizó para entrenar a Dia. Es posible que el modelo haya sido desarrollado utilizando contenido con derechos de autor. Un comentarista en Hacker News señala que una muestra suena como los presentadores del podcast «Planet Money» de NPR.
El entrenamiento de modelos con contenido protegido por derechos de autor es una práctica generalizada pero legalmente dudosa. Algunas empresas de IA afirman que el uso justo las protege de responsabilidad, mientras que los titulares de derechos sostienen que este no se aplica al entrenamiento.
Planes futuros de Nari Labs
A pesar de estas preocupaciones, Kim afirma que el plan de Nari es crear una plataforma de voz sintética con un «aspecto social» sobre Dia y modelos futuros más grandes. Nari también tiene la intención de publicar un informe técnico para Dia y ampliar el soporte del modelo a idiomas más allá del inglés.
Este desarrollo representa un importante avance en la democratización de la tecnología de IA, demostrando que incluso estudiantes sin experiencia previa significativa pueden crear herramientas potentes que compiten con las desarrolladas por gigantes tecnológicos como Google.
Sin embargo, como ocurre con muchas innovaciones en inteligencia artificial, el equilibrio entre el potencial creativo y los riesgos de uso indebido seguirá siendo un tema crítico a medida que estas tecnologías se vuelvan más accesibles para el público en general.