Nvidia lanza Parakeet TDT 0.6B, modelo de código abierto para transcribir audio con velocidad récord

Droids

Updated on:

Nvidia lanza modelo de transcripción por IA de código abierto con velocidad récord

Nvidia ha presentado Parakeet-TDT-0.6B-V2, un innovador modelo de inteligencia artificial para reconocimiento automático de voz (ASR) completamente de código abierto. Esta nueva herramienta, disponible en la plataforma Hugging Face, es capaz de transcribir 60 minutos de audio en tan solo un segundo y se posiciona actualmente como líder en precisión entre los modelos de transcripción de código abierto.

Un modelo de transcripción con velocidad sin precedentes

El nuevo modelo de Nvidia representa un avance significativo en el campo del reconocimiento automático del habla. Según Vaibhav «VB» Srivastav de Hugging Face, quien destacó en la red social X, Parakeet puede «transcribir 60 minutos de audio en 1 segundo», una velocidad verdaderamente impresionante que revoluciona las capacidades de transcripción automática.

Este modelo no solo destaca por su velocidad, sino también por su precisión. Actualmente encabeza el Hugging Face Open ASR Leaderboard con una tasa media de error de palabras (WER) de solo 6,05%. Este nivel de precisión lo acerca a modelos propietarios como GPT-4o-transcribe de OpenAI (con un WER de 2,46% en inglés) y ElevenLabs Scribe (3,3%), pero con la ventaja de ser completamente gratuito y de código abierto.

Características técnicas del Parakeet-TDT-0.6B-V2

El modelo cuenta con 600 millones de parámetros y emplea una combinación de arquitecturas FastConformer encoder y TDT decoder, lo que le permite alcanzar un rendimiento excepcional. Su factor de tiempo real (RTFx) se ha medido en 3386,02 con un tamaño de lote de 128, cuando se ejecuta en hardware acelerado por GPU de Nvidia.

Entre sus capacidades, Parakeet-TDT-0.6B-V2 ofrece:

  • Transcripción con puntuación y capitalización
  • Marcado de tiempo detallado a nivel de palabra
  • Robustez ante condiciones de ruido variadas
  • Buen rendimiento incluso con audio de calidad telefónica

Licencia abierta y disponibilidad

Una de las características más destacables de este modelo es que ha sido lanzado bajo una licencia Creative Commons CC-BY-4.0, que permite su uso comercial. Esto lo convierte en una opción muy atractiva tanto para empresas como para desarrolladores independientes que buscan incorporar capacidades de reconocimiento de voz y transcripción en sus aplicaciones.

El modelo fue lanzado globalmente el 1 de mayo de 2025 y está disponible para su descarga y uso a través de Hugging Face o mediante el toolkit NeMo de Nvidia. Los desarrolladores encontrarán instrucciones de instalación, scripts de demostración y guías de integración para facilitar la experimentación y el despliegue.

Entrenamiento y conjunto de datos

Parakeet-TDT-0.6B-V2 fue entrenado con un extenso corpus llamado Granary, que incluye aproximadamente 120.000 horas de audio en inglés. Este conjunto de datos está compuesto por:

  • 10.000 horas de datos de alta calidad transcritos por humanos
  • 110.000 horas de habla con pseudo-etiquetado

Las fuentes utilizadas abarcan desde conjuntos de datos bien conocidos como LibriSpeech y Mozilla Common Voice hasta YouTube-Commons y Librilight. Nvidia ha anunciado que planea hacer público el conjunto de datos Granary tras su presentación en Interspeech 2025.

Compatibilidad y requisitos de hardware

El modelo está optimizado para entornos GPU de Nvidia, siendo compatible con hardware como A100, H100, T4 y V100. Si bien los GPU de gama alta maximizan el rendimiento, el modelo puede funcionar en sistemas con tan solo 2 GB de RAM, lo que permite escenarios de despliegue más amplios y accesibles.

Esta flexibilidad es especialmente relevante para pequeñas empresas y desarrolladores independientes que pueden no tener acceso a infraestructuras de computación de alto nivel.

Aplicaciones prácticas

Las posibilidades de aplicación de este modelo son numerosas, incluyendo:

  • Servicios de transcripción automática
  • Asistentes de voz
  • Generadores de subtítulos
  • Plataformas de IA conversacional
  • Herramientas de accesibilidad
  • Sistemas de análisis de llamadas para centros de contacto

Para los desarrolladores, la posibilidad de utilizar, modificar e incluso comercializar soluciones basadas en este modelo abre un abanico de oportunidades para la innovación en el campo del procesamiento del lenguaje natural y el reconocimiento de voz.

Consideraciones éticas

Según Nvidia, el modelo se desarrolló sin utilizar datos personales y se adhiere a su marco de IA responsable. Aunque no se tomaron medidas específicas para mitigar sesgos demográficos, el modelo superó los estándares de calidad internos de la empresa y viene acompañado de documentación detallada sobre su proceso de entrenamiento, procedencia del conjunto de datos y cumplimiento de privacidad.

El compromiso de Nvidia con el ecosistema de IA abierta

Este lanzamiento forma parte de una estrategia más amplia de Nvidia, que no solo se dedica a la fabricación de hardware sino que está liberando progresivamente más modelos de IA, en su mayoría de código abierto y gratuitos para investigadores y desarrolladores.

El modelo Parakeet no es nuevo; Nvidia lo presentó por primera vez en enero de 2024 y lo actualizó en abril del mismo año. Sin embargo, esta versión 2 representa un salto significativo en capacidades y rendimiento.

La apuesta de Nvidia por los modelos de código abierto contrasta con su posición dominante en el mercado de GPUs, donde se ha convertido en una de las empresas más valiosas del mundo gracias a la gran demanda de unidades de procesamiento gráfico utilizadas para entrenar modelos de IA.

Conclusión

El lanzamiento de Parakeet-TDT-0.6B-V2 representa un avance significativo en el campo del reconocimiento automático del habla, ofreciendo capacidades que antes solo estaban disponibles en modelos propietarios y costosos. Su combinación de velocidad, precisión y naturaleza de código abierto lo convierte en una herramienta potencialmente transformadora para desarrolladores y empresas interesadas en incorporar capacidades de transcripción de voz en sus aplicaciones.

Con este modelo, Nvidia no solo demuestra su capacidad técnica en el desarrollo de IA, sino también su compromiso con la democratización de estas tecnologías, permitiendo que sean accesibles para un espectro más amplio de usuarios y casos de uso.

Deja un comentario