Google incorpora su modelo de voz Chirp 3 a su plataforma Vertex AI

Droids

Updated on:

Google incorpora su modelo de voz Chirp 3 a su plataforma Vertex AI

La ola de avances en inteligencia artificial sigue ampliando sus horizontes y ahora se enfoca con fuerza en el reconocimiento y generación de voz. Google ha anunciado que integrará Chirp 3, su avanzado modelo de voz, a la plataforma Vertex AI a partir de la próxima semana, según informó la compañía en un evento celebrado en las oficinas de DeepMind en Londres.

Este movimiento representa un paso significativo en la evolución de las interfaces de IA, que hasta ahora han estado principalmente centradas en texto e imágenes.

Qué es Chirp 3 y qué puede hacer

Chirp 3 combina tecnologías de reconocimiento de voz (speech-to-text) y generación de voz en alta definición (HD text-to-speech), permitiendo interacciones más naturales y fluidas entre humanos y máquinas. Según el anuncio, este modelo está diseñado para múltiples aplicaciones prácticas:

  • Creación de asistentes virtuales con voz
  • Desarrollo de audiolibros
  • Implementación de agentes de soporte técnico
  • Producción de locuciones para vídeos

La semana pasada, Google anunció discretamente que Chirp 3 incorporará ocho nuevas voces compatibles con 31 idiomas, ampliando significativamente su alcance global.

Thomas Kurian, CEO de Google Cloud, destacó durante el evento que la implementación de Chirp 3 vendrá acompañada de restricciones de uso: "Todavía estamos trabajando en algunos de estos aspectos con nuestro equipo de seguridad", afirmó, señalando la preocupación de la empresa por prevenir posibles usos indebidos de esta tecnología.

La carrera por la IA de voz se intensifica

La incorporación de Chirp 3 a Vertex AI no ocurre en un vacío. El sector de la IA de voz está experimentando una rápida evolución con múltiples actores compitiendo por desarrollar las voces sintéticas más realistas y funcionales.

Según informa TechCrunch, la semana pasada Sesame —startup responsable de las aplicaciones virales "Maya" y "Miles", conocidas por sus voces extremadamente realistas— anunció el lanzamiento de su modelo para desarrolladores, permitiéndoles crear aplicaciones personalizadas basadas en su tecnología.

Por otro lado, empresas como ElevenLabs han recaudado cientos de millones en financiación para expandir sus servicios de voz impulsados por IA. Este creciente interés inversor refleja el potencial transformador que la industria ve en estas tecnologías.

Un ecosistema de IA en expansión

Con la incorporación de Chirp 3, Vertex AI continúa ampliando su oferta de modelos avanzados de IA. La plataforma ya alberga:

  • Las versiones más recientes del modelo de lenguaje Gemini
  • El generador de imágenes Imagen
  • Veo 2, su costosa herramienta de generación de vídeo

Este ecosistema permite a los desarrolladores acceder a múltiples capacidades de IA desde una única plataforma, simplificando la creación de aplicaciones complejas.

La visión a largo plazo de Google sobre la IA

Demis Hassabis, CEO de DeepMind, aprovechó el evento para ofrecer una visión prudente sobre el futuro de la IA. "A corto plazo… esta idea de que [la IA] es una bala de plata para todo en los próximos años, no veo que eso suceda todavía. Creo que todavía estamos a varios años de que ocurra algo como la AGI (Inteligencia Artificial General)", expresó.

Hassabis enfatizó que, aunque transformadora, la IA provocará cambios graduales "durante la próxima década, a medio y largo plazo. Es uno de esos momentos interesantes en el tiempo".

Los orígenes de Vertex AI y el legado de "Chirp"

Google lanzó Vertex AI en 2021, antes del explosivo interés en la IA generativa que siguió al lanzamiento de los servicios GPT de OpenAI. Desde entonces, la plataforma ha evolucionado significativamente, permitiendo a los desarrolladores clasificar datos, entrenar modelos y configurarlos para producción.

Curiosamente, el nombre "Chirp" tiene una larga historia en Google, utilizándose inicialmente como nombre en clave para sus primeros esfuerzos por competir con el servicio Alexa de Amazon.

¿Qué significa esto para el futuro de las interfaces por voz?

La integración de Chirp 3 en Vertex AI sugiere que Google está apostando fuertemente por las interfaces de voz como parte fundamental del futuro de la interacción humano-máquina. A medida que estas tecnologías se vuelven más naturales y realistas, podrían transformar radicalmente campos como:

  • La atención al cliente automatizada
  • Los asistentes personales digitales
  • La accesibilidad para personas con discapacidades
  • La producción de contenido audiovisual

No obstante, permanece la incógnita de si las voces generadas por Chirp 3 serán tan "realistas" como las ofrecidas por competidores como Sesame.

Equilibrando innovación y responsabilidad

Las preocupaciones expresadas por Thomas Kurian sobre la necesidad de restricciones reflejan un tema recurrente en el desarrollo de IA avanzada: equilibrar la innovación tecnológica con el uso ético y responsable.

La capacidad de crear voces indistinguibles de las humanas plantea interrogantes sobre la verificación de autenticidad, la suplantación de identidad y el consentimiento. La forma en que Google y otros desarrolladores aborden estos desafíos definirá en gran medida cómo estas tecnologías se integrarán en nuestra sociedad.

Google parece estar tomando un enfoque cauteloso, reconociendo que, si bien la tecnología de voz sintética tiene un enorme potencial positivo, también requiere salvaguardas adecuadas para evitar usos malintencionados.


Esta incorporación de Chirp 3 a Vertex AI marca un paso importante en la estrategia de Google para mantenerse competitivo en el acelerado campo de la IA generativa. A medida que la voz sintética se convierte en un componente cada vez más importante del ecosistema tecnológico, observaremos cómo estas herramientas evolucionan y transforman nuestra forma de interactuar con la tecnología en los próximos años.

Deja un comentario