Agentes guardianes: El nuevo enfoque que promete reducir las alucinaciones de la IA a menos del 1%

Droids

Updated on:

Agentes guardianes: El nuevo enfoque que promete reducir las alucinaciones de la IA a menos del 1%

Las alucinaciones de la inteligencia artificial -cuando los sistemas generan información incorrecta o inexistente presentándola como verdadera- han sido uno de los principales obstáculos para la adopción generalizada de estas tecnologías en entornos empresariales. La empresa Vectara presenta ahora una solución revolucionaria que no solo detecta estas falsedades, sino que las corrige automáticamente, prometiendo reducir las alucinaciones a menos del 1% en determinados modelos.

La problemática de las alucinaciones en los sistemas de IA

Las alucinaciones representan un riesgo crítico que limita la implementación de la IA en entornos empresariales donde la precisión es fundamental. Aunque existen numerosas aproximaciones para mitigar este problema, todas presentan limitaciones significativas.

"A medida que las empresas implementan más flujos de trabajo basados en agentes, todos sabemos que las alucinaciones siguen siendo un problema con los LLM y cómo eso amplificará exponencialmente el impacto negativo de cometer errores en un flujo de trabajo de agentes es algo aterrador para las empresas", explicó Eva Nahari, directora de producto en Vectara, en una entrevista exclusiva con VentureBeat.

Un enfoque revolucionario: corregir en vez de solo detectar

La mayoría de las soluciones actuales para combatir las alucinaciones se centran en la detección o implementación de barreras preventivas, pero el enfoque de Vectara marca una diferencia fundamental: identifica, explica y corrige automáticamente las alucinaciones mediante lo que denomina "agentes guardianes", una tecnología integrada en su nuevo servicio Vectara Hallucination Corrector.

A diferencia de soluciones previas como RAG (Generación Aumentada por Recuperación), que ayuda a reducir alucinaciones proporcionando respuestas fundamentadas en contenido existente pero sin eliminarlas por completo, el enfoque de agentes guardianes realiza correcciones quirúrgicas mientras preserva el contenido general, proporcionando explicaciones detalladas de qué se cambió y por qué.

Lo más destacable es que, según Vectara, su sistema puede reducir las tasas de alucinación para modelos de lenguaje más pequeños (con menos de 7 mil millones de parámetros) a menos del 1%, un avance significativo para la fiabilidad de los sistemas de IA.

Cómo funcionan los "agentes guardianes"

Los agentes guardianes no son simplemente un modelo único, sino un sistema de múltiples etapas que trabajan en conjunto para detectar y corregir imprecisiones.

Suleman Kazi, líder técnico de aprendizaje automático en Vectara, explicó a VentureBeat que el sistema comprende tres componentes clave:

  1. Un modelo generativo (LLM principal que genera una respuesta)
  2. Un modelo de detección de alucinaciones (Hughes Hallucination Evaluation Model)
  3. Un modelo de corrección de alucinaciones

El proceso funciona de la siguiente manera:

  1. El LLM primario genera una respuesta
  2. El modelo de detección de alucinaciones identifica posibles falsedades
  3. Si se detectan alucinaciones por encima de cierto umbral, se activa el agente corrector
  4. El agente corrector realiza cambios mínimos y precisos para corregir inexactitudes mientras preserva el resto del contenido
  5. El sistema proporciona explicaciones detalladas de qué fue alucinado y por qué

"No es solo un aprendizaje sobre algo", destacó Nahari. "Está tomando una acción en nombre de alguien, y eso lo convierte en un agente".

La importancia del contexto en la corrección de alucinaciones

Una característica crucial del sistema es su capacidad para entender el contexto, lo que permite hacer correcciones matizadas. No todas las desviaciones de la información esperada son verdaderas alucinaciones; algunas son elecciones creativas intencionales o descripciones específicas de un dominio.

Kazi ilustró este punto con un ejemplo: en un libro de ciencia ficción que describe el cielo como rojo, un sistema rígido de corrección de alucinaciones podría automáticamente "corregir" el cielo rojo a azul, lo que sería incorrecto dado el contexto creativo de una narrativa de ciencia ficción.

Este ejemplo demuestra la complejidad de desarrollar un sistema de IA que pueda distinguir entre errores genuinos y variaciones intencionales en el lenguaje y la descripción, algo que el enfoque de agentes guardianes de Vectara busca resolver.

HCMBench: un nuevo estándar para evaluar las correcciones

Junto con su agente guardián, Vectara está lanzando HCMBench, un kit de herramientas de evaluación de código abierto para modelos de corrección de alucinaciones.

Este benchmark proporciona formas estandarizadas de evaluar qué tan bien diferentes enfoques corrigen las alucinaciones. El objetivo es ayudar a la comunidad en general, así como permitir a las empresas evaluar la precisión de las afirmaciones de corrección de alucinaciones, incluidas las de Vectara.

"Si la comunidad en general quiere desarrollar sus propios modelos de corrección, pueden usar ese benchmark como un conjunto de datos de evaluación para mejorar sus modelos", afirmó Kazi.

El kit de herramientas admite múltiples métricas, incluyendo HHEM, Minicheck, AXCEL y FACTSJudge, proporcionando una evaluación integral de la efectividad de la corrección de alucinaciones.

Implicaciones para las empresas

Para las empresas que navegan por los riesgos de las alucinaciones de IA, el enfoque de Vectara representa un cambio significativo en la estrategia.

En lugar de simplemente implementar sistemas de detección o abandonar la IA en casos de uso de alto riesgo, las empresas ahora pueden considerar un camino intermedio: implementar capacidades de corrección. El enfoque de agentes guardianes también se alinea con la tendencia hacia flujos de trabajo de IA más complejos y de múltiples pasos.

Las empresas que buscan implementar estos enfoques deberían considerar:

  1. Evaluar dónde los riesgos de alucinación son más críticos en sus implementaciones de IA
  2. Considerar agentes guardianes para flujos de trabajo de alto valor y alto riesgo donde la precisión es primordial
  3. Mantener capacidades de supervisión humana junto con la corrección automatizada
  4. Aprovechar benchmarks como HCMBench para evaluar las capacidades de corrección de alucinaciones

A medida que maduran las tecnologías de corrección de alucinaciones, las empresas pronto podrán implementar IA en casos de uso previamente restringidos mientras mantienen los estándares de precisión requeridos para operaciones comerciales críticas.

El panorama actual de la detección de alucinaciones de IA empresarial

El enfoque de Vectara se suma a un ecosistema creciente de soluciones para combatir las alucinaciones. Entre las aproximaciones existentes destacan:

  • RAG (Generación Aumentada por Recuperación): Una de las implementaciones más interesantes es la de la Clínica Mayo, que utiliza un enfoque de "RAG inverso" para limitar las alucinaciones.

  • Mejora de la calidad de datos: Empresas como MongoDB trabajan en mejorar cómo se crean las incrustaciones de datos vectoriales.

  • Guardrails: Disponibles de muchos proveedores, incluidos Nvidia y AWS, ayudan a detectar resultados arriesgados y pueden mejorar la precisión en algunos casos. IBM tiene un conjunto de sus modelos Granite de código abierto conocidos como Granite Guardian que integran directamente guardrails.

  • Razonamiento para validar salidas: AWS afirma que su enfoque de Razonamiento Automatizado Bedrock detecta el 100% de las alucinaciones, aunque esta afirmación es difícil de validar.

  • Validación de fuentes: La startup Oumi ofrece otro enfoque, validando las afirmaciones hechas por la IA oración por oración mediante la validación de materiales de origen con una tecnología de código abierto llamada HallOumi.

Sin embargo, el enfoque de Vectara se distingue por ir más allá de la mera detección y pasar a la corrección activa, lo que podría transformar significativamente la adopción empresarial de la IA al reducir drásticamente uno de sus principales riesgos.