El Centro para la Seguridad de la IA (CAIS) y la empresa Scale AI han presentado un nuevo y desafiante sistema de evaluación para los modelos de inteligencia artificial más avanzados, que ha puesto en evidencia las limitaciones actuales de estos sistemas. Según un estudio preliminar publicado por Scale AI, ninguno de los sistemas de IA disponibles públicamente ha logrado superar el 10% de la puntuación en esta nueva prueba.
Un examen sin precedentes
El nuevo benchmark, denominado "Humanity's Last Exam" (El Último Examen de la Humanidad), representa un hito en la evaluación de sistemas de IA por su amplitud y complejidad. La prueba incluye miles de preguntas crowdsourced que abarcan diversas disciplinas, incluyendo matemáticas, humanidades y ciencias naturales.
Características distintivas
Lo que hace especialmente desafiante a este nuevo sistema de evaluación es su formato multifacético. Las preguntas no se limitan a texto simple, sino que incorporan:
- Diagramas
- Imágenes
- Múltiples formatos de presentación
- Diversos tipos de problemas
Resultados reveladores
Los resultados iniciales han sido especialmente significativos: ninguno de los sistemas de IA más avanzados disponibles públicamente ha logrado superar una puntuación del 10% en el examen. Este dato resulta particularmente revelador considerando que se trata de sistemas que habitualmente muestran un alto rendimiento en otras pruebas estándar.
Impacto en la comunidad científica
CAIS y Scale AI han anunciado planes para abrir el benchmark a la comunidad investigadora, según informó el New York Times. Esta decisión permitirá a los investigadores:
- Analizar en profundidad las variaciones en el rendimiento
- Evaluar nuevos modelos de IA
- Contribuir al desarrollo de sistemas más capaces
Perspectivas futuras
La creación de este nuevo benchmark representa un paso importante en la evaluación realista de las capacidades actuales de la IA. Al establecer un estándar más riguroso y completo, "Humanity's Last Exam" no solo mide el rendimiento actual de los sistemas de IA, sino que también establece objetivos claros para el desarrollo futuro de esta tecnología.
La iniciativa conjunta de CAIS y Scale AI subraya la importancia de contar con métricas de evaluación más exigentes y realistas en el campo de la inteligencia artificial, especialmente en un momento en que las capacidades de estos sistemas son objeto de intenso debate público.