Sesame, la startup tecnológica cofundada por Brendan Iribe (cocreador de Oculus), ha dado un importante paso al liberar públicamente el modelo base de inteligencia artificial que impulsa a Maya, su asistente virtual que causó sensación en redes sociales hace apenas unas semanas por su impresionante realismo.
Un poderoso modelo con acceso abierto
El modelo, bautizado como CSM-1B, cuenta con mil millones de parámetros (componentes individuales que conforman el modelo) y ha sido publicado bajo licencia Apache 2.0, lo que significa que puede ser utilizado comercialmente con muy pocas restricciones. Según la descripción oficial de Sesame en la plataforma de desarrollo Hugging Face, el modelo está diseñado para generar "códigos de audio RVQ" a partir de entradas de texto y audio.
Esta tecnología representa la base sobre la que funciona Maya, el asistente virtual que sorprendió al público en febrero de 2025 por su capacidad para mantener conversaciones extremadamente naturales, incluyendo respiraciones, pausas y la posibilidad de ser interrumpido mientras habla, características similares a las que ofrece el Voice Mode de OpenAI.
La tecnología detrás del asistente virtual
El modelo utiliza como columna vertebral un sistema de la familia Llama desarrollado por Meta, en combinación con un componente "decodificador" de audio. Según explican desde Sesame en los repositorios de Hugging Face y GitHub, "el modelo de código abierto es un modelo de generación base capaz de producir una variedad de voces, aunque no ha sido afinado para ninguna voz específica".
RVQ, que significa "residual vector quantization" (cuantización vectorial residual), es una técnica utilizada para codificar audio en tokens discretos llamados códigos. Esta tecnología se emplea en varios desarrollos recientes de IA para audio, incluyendo SoundStream de Google y Encodec de Meta, como señala un análisis técnico citado por TechCrunch.
Es importante destacar que el modelo tiene cierta capacidad para procesar idiomas distintos al inglés debido a la "contaminación de datos" en su entrenamiento, aunque según advierte la propia compañía, probablemente no funcionará bien con ellos. La empresa no ha revelado qué datos específicos utilizó para entrenar el CSM-1B.
Preocupaciones sobre seguridad y ética
Un aspecto que ha generado cierta polémica es la falta de salvaguardas significativas en el modelo liberado. Sesame ha optado por un sistema basado en el honor, limitándose a pedir a los desarrolladores y usuarios que no utilicen el modelo para imitar la voz de una persona sin su consentimiento, crear contenido engañoso como noticias falsas o participar en actividades "dañinas" o "maliciosas".
Kyle Wiggers, editor de IA en TechCrunch, señala en su artículo que probó la demostración disponible en Hugging Face y pudo clonar su propia voz en menos de un minuto. Desde allí, afirma que fue "fácil generar discursos a voluntad, incluso sobre temas controvertidos como las elecciones y la propaganda rusa".
Esta situación coincide con una reciente advertencia de Consumer Reports, que alertó de que muchas herramientas populares de clonación de voz impulsadas por IA no tienen salvaguardas "significativas" para prevenir el fraude o el abuso.
Sesame: más allá de los asistentes virtuales
Fundada por Brendan Iribe, conocido por ser cofundador de Oculus (la empresa de realidad virtual adquirida por Facebook), Sesame se ha hecho un nombre en el competitivo sector de la IA generativa. Aunque no se ha revelado el monto exacto, la startup ha recibido financiación de importantes fondos de capital riesgo como Andreessen Horowitz, Spark Capital y Matrix Partners.
Maya y Miles, los dos asistentes virtuales desarrollados por la compañía, se caracterizan por superar en gran medida el "valle inquietante" (uncanny valley) que suele afectar a las interacciones con inteligencias artificiales. Ambos incorporan respiraciones naturales y hablan con pequeñas vacilaciones que los hacen parecer mucho más humanos.
Más allá de sus asistentes virtuales, Sesame ha anunciado que está prototipando gafas de IA "diseñadas para ser usadas todo el día" que vendrán equipadas con sus modelos personalizados. Este movimiento sugiere que la empresa busca posicionarse no solo en el campo del software de IA, sino también en el hardware de consumo orientado a la interacción con asistentes virtuales.
Un paso significativo con posibles implicaciones
La liberación del modelo base CSM-1B representa un hito importante en la democratización de las tecnologías de IA avanzadas para el procesamiento y generación de voz. Sin embargo, también plantea interrogantes sobre los límites éticos y las posibles consecuencias de poner estas poderosas herramientas a disposición del público general sin salvaguardas técnicas robustas.
Mientras empresas como Sesame continúan expandiendo las fronteras de lo que es posible con la inteligencia artificial, el debate sobre cómo equilibrar la innovación con la responsabilidad seguirá siendo central en el desarrollo de estas tecnologías.
La decisión de Sesame de hacer público su modelo bajo una licencia permisiva refleja una tendencia creciente en el sector hacia mayor apertura, pero también subraya la necesidad de establecer estándares y marcos regulatorios que puedan prevenir el mal uso de estas capacidades cada vez más sofisticadas.