Sesame lanza CSM-1B, su innovador modelo de generación de voz en código abierto

La empresa de inteligencia artificial Sesame acaba de lanzar CSM-1B (Conversational Speech Model), un avanzado modelo de generación de voz que promete revolucionar la forma en que las máquinas producen habla humana realista. Este modelo, anunciado oficialmente el 13 de marzo de 2025, se ha puesto a disposición de la comunidad investigadora y educativa a través de la plataforma Hugging Face.

CSM representa un importante avance en la síntesis de voz, permitiendo generar audio que suena natural a partir de entradas de texto y audio, siendo especialmente efectivo en entornos conversacionales donde el contexto juega un papel fundamental.

¿Qué es CSM y cómo funciona?

CSM (Conversational Speech Model) es un modelo especializado en la generación de voz que transforma texto y audio en códigos de audio RVQ (Residual Vector Quantization). A diferencia de otros sistemas, CSM ha sido diseñado específicamente para producir habla conversacional natural.

La arquitectura del modelo se basa en un esqueleto Llama combinado con un decodificador de audio más pequeño que genera códigos de audio Mimi. Esta estructura híbrida permite al sistema procesar tanto entradas textuales como sonoras para producir respuestas vocales coherentes.

Según el comunicado de Sesame, una versión perfeccionada de CSM es la que impulsa la demo de voz interactiva presentada en su reciente publicación en el blog sobre cómo superar "el valle inquietante de la voz".

Para quienes deseen probar la tecnología sin necesidad de instalarla, Sesame ha habilitado un espacio en Hugging Face donde los usuarios pueden experimentar con la generación de audio de forma sencilla.

Capacidades y limitaciones técnicas

A diferencia de los modelos de lenguaje multimodales (LLM) de propósito general, CSM está específicamente entrenado para ser un modelo de generación de audio. Esto significa que no puede generar texto ni mantener conversaciones por sí mismo, como aclara Sesame en su documentación.

"CSM es un modelo de generación de audio, no un LLM multimodal de propósito general. No puede generar texto. Sugerimos usar un LLM separado para la generación de texto", explican los desarrolladores en las preguntas frecuentes del proyecto.

Una de las características más destacables del modelo es su capacidad para mejorar significativamente cuando se le proporciona contexto adecuado. Según las instrucciones de uso, "CSM suena mejor cuando se le proporciona contexto", lo que permite generaciones más coherentes y naturales dentro de una conversación.

Requisitos técnicos e instalación

Para utilizar CSM-1B, los usuarios necesitarán:

Una GPU compatible con CUDA
Preferentemente CUDA 12.4 o 12.6 (aunque podría funcionar con otras versiones)
Python 3.10 (recomendado, aunque versiones más recientes podrían ser compatibles)
El programa ffmpeg para ciertas operaciones de audio

La instalación del modelo es relativamente sencilla para usuarios familiarizados con herramientas de desarrollo. Requiere clonar el repositorio de GitHub, crear un entorno virtual de Python e instalar las dependencias necesarias. La documentación proporciona instrucciones específicas tanto para sistemas Linux como para Windows, donde se requieren consideraciones especiales para el paquete Triton.

Uso y ejemplos prácticos

La documentación incluye ejemplos de código para generar audio a partir de texto, ilustrando dos escenarios principales:

Generación simple: Producir una respuesta de audio a partir de una única frase de texto.
Generación con contexto: Proporcionar al modelo una serie de segmentos de conversación previos (con texto y audio) para generar una respuesta más coherente y contextualizada.

Los ejemplos muestran cómo cargar el modelo, procesar entradas y guardar el audio generado, facilitando la integración de CSM en proyectos más amplios de procesamiento de voz.

Voces y soporte de idiomas

Uno de los aspectos más interesantes de CSM-1B es su versatilidad en cuanto a voces. Según Sesame, "el modelo es capaz de producir una variedad de voces, pero no ha sido ajustado para ninguna voz específica". Esto sugiere que los desarrolladores podrían potencialmente ajustar el modelo base para imitar voces particulares, aunque hacerlo sin consentimiento estaría explícitamente prohibido según las directrices éticas del proyecto.

En cuanto al soporte multilingüe, el modelo presenta limitaciones importantes: "El modelo tiene cierta capacidad para idiomas no ingleses debido a la contaminación de datos en los datos de entrenamiento, pero probablemente no funcionará bien". Esta aclaración indica que, aunque CSM-1B podría procesar entradas en idiomas distintos al inglés, su rendimiento sería significativamente inferior.

Preocupaciones éticas y uso responsable

Sesame ha dedicado una sección específica de la documentación a advertir contra el mal uso de su tecnología, estableciendo prohibiciones explícitas contra:

Suplantación o fraude: Generar voz que imite a personas reales sin su consentimiento explícito.
Desinformación o engaño: Crear contenido engañoso o falso, como noticias falsas o llamadas fraudulentas.
Actividades ilegales o dañinas: Cualquier uso del modelo para fines ilegales, dañinos o maliciosos.

"Al usar este modelo, aceptas cumplir con todas las leyes aplicables y directrices éticas. No somos responsables de ningún mal uso, y condenamos enérgicamente las aplicaciones no éticas de esta tecnología", afirma contundentemente el equipo de Sesame.

Estas advertencias reflejan la creciente preocupación en la industria de la IA por el potencial uso indebido de tecnologías avanzadas de generación de voz, especialmente en un contexto donde la desinformación y los deepfakes representan amenazas significativas.

El equipo detrás del proyecto

El desarrollo de CSM ha sido liderado por un equipo de investigadores y expertos en inteligencia artificial de Sesame. Los autores principales mencionados en la documentación son Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang, junto con otros miembros del equipo de Sesame.

Un paso hacia la democratización de la tecnología de voz avanzada

El lanzamiento de CSM-1B representa un paso significativo hacia la democratización de tecnologías avanzadas de síntesis de voz, permitiendo a investigadores, educadores y desarrolladores acceder a herramientas que anteriormente podrían haber estado restringidas a grandes corporaciones o laboratorios especializados.

Al mismo tiempo, Sesame ha demostrado un compromiso con la ética al establecer límites claros sobre los usos aceptables de su tecnología, reconociendo los potenciales riesgos asociados con la generación de voz ultrarrealista.

Para aquellos interesados en explorar esta nueva tecnología, todos los recursos, código y documentación están disponibles en GitHub, y el modelo puede descargarse directamente desde Hugging Face.

¿Qué es CSM y cómo funciona?

Capacidades y limitaciones técnicas

Requisitos técnicos e instalación

Uso y ejemplos prácticos

Voces y soporte de idiomas

Preocupaciones éticas y uso responsable

El equipo detrás del proyecto

Un paso hacia la democratización de la tecnología de voz avanzada

Deja un comentario Cancelar la respuesta

Noticias

SoftBank adquiere antigua planta de Sharp por 624 millones de euros para su colaboración con OpenAI en Japón

Noticias

Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales

Noticias

Nvidia priorizará la inteligencia artificial sobre los videojuegos en su próxima conferencia GTC

Noticias

Cohere presenta Command A: modelo de IA multilingüe que revoluciona el mercado empresarial con mínimos requisitos técnicos

Noticias

Oracle emerge como el socio más probable para TikTok en Estados Unidos

Noticias

Apple incorporará traducción en tiempo real a los AirPods con iOS 19

Sesame lanza CSM-1B, su innovador modelo de generación de voz en código abierto

¿Qué es CSM y cómo funciona?

Capacidades y limitaciones técnicas

Requisitos técnicos e instalación

Uso y ejemplos prácticos

Voces y soporte de idiomas

Preocupaciones éticas y uso responsable

El equipo detrás del proyecto

Un paso hacia la democratización de la tecnología de voz avanzada

Deja un comentario Cancelar la respuesta

LO ÚLTIMO

Noticias

SoftBank adquiere antigua planta de Sharp por 624 millones de euros para su colaboración con OpenAI en Japón

Noticias

Nueva técnica permite a los modelos de IA razonar de forma más eficiente sin disparar los costes computacionales

Noticias

Nvidia priorizará la inteligencia artificial sobre los videojuegos en su próxima conferencia GTC

Noticias

Cohere presenta Command A: modelo de IA multilingüe que revoluciona el mercado empresarial con mínimos requisitos técnicos

Noticias

Oracle emerge como el socio más probable para TikTok en Estados Unidos

Noticias

Apple incorporará traducción en tiempo real a los AirPods con iOS 19