Samsung apuesta por la IA de Twelve Labs, capaz de analizar y buscar en miles de horas de vídeo

Droids

Updated on:

La startup de inteligencia artificial Twelve Labs ha cerrado una importante ronda de financiación de 50 millones de dólares (aproximadamente 46 millones de euros) liderada por Samsung Next, el brazo de capital riesgo del gigante tecnológico surcoreano. La inversión impulsará el desarrollo de su innovadora tecnología, diseñada para analizar y hacer búsquedas semánticas dentro de ingentes cantidades de contenido de vídeo, una tarea que hasta ahora suponía un enorme desafío técnico. Con esta nueva inyección de capital, la valoración de Twelve Labs asciende a 162 millones de dólares (unos 149 millones de euros).

Una inyección de capital para descifrar la «materia oscura» de internet

La ronda de financiación de Serie A no solo ha contado con el respaldo de Samsung, sino que también ha atraído a otros inversores de peso como New Enterprise Associates (NEA) y NVentures, el fondo de capital riesgo de Nvidia, así como a firmas ya presentes en la compañía como Radical Ventures e Index Ventures. Esta operación eleva la financiación total recaudada por Twelve Labs a 77 millones de dólares (cerca de 71 millones de euros).

El interés de estos gigantes tecnológicos subraya la creciente importancia de la inteligencia artificial aplicada al vídeo. En un mundo donde plataformas como YouTube, TikTok y las grabaciones de seguridad generan un volumen de datos audiovisuales sin precedentes, la capacidad de encontrar información específica dentro de estos archivos es crucial.

Brendon Kim, director general de Samsung Next, destacó el potencial disruptivo de la startup. «Twelve Labs está abordando la búsqueda y comprensión de vídeo con modelos de IA multimodales de primera clase», afirmó en un comunicado recogido por CNBC. «Vemos un potencial masivo en una IA de vídeo que permita a los usuarios comprender el contenido de los vídeos en profundidad».

Tecnología multimodal: la clave para entender el vídeo como un humano

Lo que diferencia a Twelve Labs de otras soluciones es su enfoque en la IA multimodal. Este término, que puede sonar complejo, se refiere a la capacidad del sistema para procesar y entender simultáneamente diferentes tipos de datos: las imágenes del vídeo, el audio (diálogos, sonidos ambientales) y el texto asociado (subtítulos o metadatos). Al combinar estas tres fuentes, la IA puede captar el contexto y el significado de una escena de una manera muy similar a como lo haría una persona.

Esto permite a los usuarios realizar búsquedas utilizando lenguaje natural y conversacional. En lugar de buscar por etiquetas o títulos, se puede preguntar directamente: «¿En qué momento del vídeo el ponente habla sobre los resultados financieros mientras señala un gráfico?». La tecnología de Twelve Labs puede localizar ese instante preciso en una grabación de horas.

Jae Lee, CEO y cofundador de la compañía, lo explica de forma clara. «Los vídeos son ahora la fuente de información más rica del mundo, pero siguen siendo en gran medida imposibles de buscar», contó a CNBC. Lee describe el contenido audiovisual como la «materia oscura de los datos», un recurso vasto y valioso que permanece inaccesible. El objetivo final de la compañía es construir una IA que «entienda el mundo tal y como lo hacemos nosotros».

Para avanzar en esta misión, Twelve Labs ha desarrollado sus propios modelos fundacionales, incluyendo su más reciente lanzamiento, Pegasus-1. Este modelo, según la empresa, es capaz de generar descripciones de texto altamente detalladas y precisas a partir de fragmentos de vídeo, superando las capacidades de modelos anteriores.

Aplicaciones que transformarán industrias y planes de futuro

Las posibilidades que abre esta tecnología son enormes y abarcan múltiples sectores.

  • Medios y entretenimiento: Los editores de noticias o documentalistas pueden encontrar en segundos clips específicos de archivo que antes requerían horas de visionado manual.
  • Seguridad: Los sistemas de vigilancia pueden ser analizados para buscar eventos concretos, como «una persona con una camiseta roja entrando en el edificio entre las 15:00 y las 16:00».
  • Publicidad: Las marcas pueden analizar cómo aparecen sus productos en vídeos o qué tipo de contenido genera más interacción, todo de forma automatizada.
  • Empresas y comercio: Las compañías pueden analizar reuniones grabadas para extraer puntos clave o formar a sus empleados con material audiovisual interactivo y buscable.

Con los 50 millones de dólares recién recaudados, Twelve Labs tiene planes ambiciosos. El principal objetivo es duplicar su plantilla actual, que consta de 50 empleados, para acelerar la investigación y el desarrollo de sus modelos de IA. La empresa busca fortalecer su equipo de ingenieros e investigadores para mantenerse a la vanguardia en un campo cada vez más competitivo, donde gigantes como Google y OpenAI también están invirtiendo fuertemente en el desarrollo de IA para vídeo.

La apuesta de Samsung y otros inversores de primer nivel no es solo una validación del progreso de Twelve Labs, sino una clara señal de que la capacidad de buscar y comprender el contenido de los vídeos se perfila como una de las próximas grandes fronteras de la inteligencia artificial.