La empresa Databricks ha creado una innovadora técnica de aprendizaje automático que permite a los modelos de inteligencia artificial mejorar su rendimiento sin necesitar datos etiquetados limpios, uno de los mayores obstáculos que enfrentan las empresas al implementar soluciones de IA.
Esta técnica, denominada Test-time Adaptive Optimization (TAO), podría revolucionar la forma en que las organizaciones desarrollan e implementan modelos de IA para tareas específicas, permitiéndoles superar las limitaciones impuestas por la calidad de los datos.
El problema de los datos "sucios" en el desarrollo de IA
Jonathan Frankle, científico jefe de IA en Databricks, dedicó el último año a conversar con clientes sobre los desafíos clave que enfrentan al implementar IA de manera confiable. El problema fundamental que identificó fue la calidad de los datos.
"Todos tienen algunos datos y una idea de lo que quieren hacer", explica Frankle a WIRED. Sin embargo, la falta de datos limpios hace que sea complicado ajustar un modelo para realizar una tarea específica. "Nadie llega con datos de ajuste fino limpios y ordenados que puedas introducir en un prompt o una interfaz de programación de aplicaciones".
Este desafío es particularmente relevante para empresas que desean utilizar modelos de lenguaje extensos (LLM) para automatizar tareas específicas a través de agentes de IA, como analizar informes financieros, revisar historiales médicos o generar informes automáticos.
¿Cómo funciona la técnica TAO?
La técnica desarrollada por Databricks aprovecha varias innovaciones recientes en el campo de la IA. El método explota el hecho de que, con suficientes intentos, incluso un modelo débil puede obtener buenos resultados en una tarea o benchmark específico. Los investigadores llaman a este enfoque "best-of-N" (el mejor de N intentos).
El proceso consta de varios pasos:
- Databricks entrenó un modelo para predecir qué resultado de "best-of-N" preferirían los evaluadores humanos, basándose en ejemplos.
- Este modelo de recompensa, llamado DBRM (Databricks Reward Model), se utiliza para seleccionar las mejores salidas de un modelo determinado.
- Las salidas seleccionadas crean datos de entrenamiento sintéticos para seguir ajustando el modelo.
- El modelo ajustado produce mejores resultados desde el primer intento, sin necesidad de múltiples intentos.
"Este método utiliza aprendizaje por refuerzo relativamente ligero para básicamente incorporar los beneficios de best-of-N en el propio modelo", señala Frankle.
Superando a OpenAI con modelos más pequeños
Para demostrar la eficacia de su técnica, Databricks probó el enfoque TAO en FinanceBench, un benchmark que evalúa cómo responden los modelos de lenguaje a preguntas financieras.
Los resultados fueron sorprendentes: Llama 3.1B, el más pequeño de los modelos gratuitos de Meta, normalmente obtiene una puntuación de 68,4% en este benchmark, mientras que los modelos propietarios de OpenAI, GPT-4o y o3-mini, alcanzan un 82,1%.
Sin embargo, al aplicar la técnica TAO, Databricks logró que Llama 3.1B alcanzara un 82,8% en FinanceBench, superando incluso a los modelos de OpenAI. Este resultado es particularmente relevante considerando que Llama 3.1B es un modelo significativamente más pequeño y gratuito, en comparación con los modelos propietarios de OpenAI.
Valoración de expertos y aplicaciones prácticas
Christopher Amato, científico de computación en la Universidad Northeastern especializado en aprendizaje por refuerzo, considera que la idea general es muy prometedora. "Estoy completamente de acuerdo en que la falta de buenos datos de entrenamiento es un gran problema", comenta a WIRED.
Amato añade que el método TAO "es muy prometedor, ya que podría permitir un etiquetado de datos mucho más escalable e incluso un rendimiento mejorado con el tiempo a medida que los modelos se fortalecen y las etiquetas mejoran". Sin embargo, advierte que el aprendizaje por refuerzo a veces puede comportarse de manera impredecible, por lo que debe usarse con precaución.
Aplicaciones en el mundo real
Databricks ya está utilizando la técnica TAO para mejorar el rendimiento de los modelos de IA de sus clientes y ayudarles a construir sus primeros agentes.
Un caso concreto es el de un cliente que desarrolla una aplicación de seguimiento de salud. Esta empresa encontró que el enfoque TAO le permitió implementar un modelo de IA que antes no era lo suficientemente fiable. "Quieres que [la aplicación] sea médicamente precisa", explica Frankle. "Este es un problema complicado".
El futuro del aprendizaje por refuerzo y los datos sintéticos
La técnica desarrollada por Databricks se inserta en una tendencia más amplia en la industria de la IA. Los modelos más recientes de OpenAI, Google y DeepSeek dependen en gran medida del aprendizaje por refuerzo y de datos de entrenamiento sintéticos.
Además, recientemente WIRED reveló que Nvidia planea adquirir Gretel, una empresa especializada en datos sintéticos, lo que demuestra la importancia creciente de estas técnicas.
"Todos estamos navegando en este espacio", admite Frankle, reconociendo que Databricks no es la única empresa explorando estas posibilidades.
Transparencia como estrategia
Databricks se caracteriza por ser inusualmente abierta sobre cómo desarrolla su IA, ya que quiere demostrar a los clientes que tiene las habilidades necesarias para crear modelos personalizados potentes. Anteriormente, la empresa reveló a WIRED cómo desarrolló DBX, un modelo de lenguaje grande (LLM) de código abierto de vanguardia desde cero.
Esta transparencia contrasta con el enfoque más cerrado de otros gigantes tecnológicos y podría ser una ventaja competitiva para Databricks en un mercado donde la confianza y la capacidad técnica demostrable son cada vez más importantes.
Implicaciones para el futuro desarrollo de IA
La técnica TAO tiene el potencial de democratizar el acceso a modelos de IA de alto rendimiento, permitiendo que empresas con conjuntos de datos imperfectos puedan, no obstante, implementar soluciones de IA efectivas.
A medida que más organizaciones buscan automatizar tareas complejas mediante agentes de IA, la capacidad de mejorar el rendimiento de los modelos sin depender de datos perfectamente etiquetados podría acelerar significativamente la adopción de la IA en diversos sectores.
Para empresas que trabajan en áreas donde la precisión es crítica, como finanzas o salud, esta técnica podría ser especialmente valiosa, ya que permite obtener resultados más confiables incluso con datos de entrenamiento subóptimos.
El trabajo de Databricks representa un avance significativo en la forma en que se desarrollan e implementan modelos de IA, y podría allanar el camino para una nueva generación de aplicaciones de IA más accesibles, precisas y adaptables a las necesidades específicas de cada organización.