Expertos señalan graves fallos en las plataformas de evaluación de IA basadas en crowdsourcing

Droids

Updated on:

Expertos señalan graves fallos en las plataformas de evaluación de IA basadas en crowdsourcing

Los laboratorios de inteligencia artificial confían cada vez más en plataformas de evaluación participativas para medir el rendimiento de sus modelos, pero varios expertos advierten que este enfoque presenta serios problemas desde perspectivas éticas y académicas.

La creciente dependencia de la evaluación colectiva

En los últimos años, gigantes tecnológicos como OpenAI, Google y Meta han recurrido a plataformas que reclutan usuarios voluntarios para evaluar las capacidades de sus nuevos modelos de IA. Cuando un modelo recibe puntuaciones favorables, las empresas suelen presentar estos resultados como evidencia de mejoras significativas.

Una de las plataformas más utilizadas es Chatbot Arena, que asigna a voluntarios la tarea de proporcionar prompts a dos modelos anónimos y seleccionar la respuesta que prefieren. Sin embargo, según Emily Bender, profesora de lingüística en la Universidad de Washington y coautora del libro «The AI Con», este enfoque presenta importantes deficiencias metodológicas.

«Para ser válido, un benchmark debe medir algo específico y tener validez de constructo; es decir, debe haber evidencia de que el constructo de interés está bien definido y que las mediciones realmente se relacionan con el constructo», explicó Bender. «Chatbot Arena no ha demostrado que votar por una salida sobre otra realmente se correlacione con las preferencias, independientemente de cómo se definan».

Problemas metodológicos y éticos

Asmelash Teka Hadgu, cofundador de la empresa de IA Lesan y miembro del Distributed AI Research Institute, considera que los benchmarks como Chatbot Arena están siendo «cooptados» por los laboratorios de IA para «promover afirmaciones exageradas».

Hadgu señaló un reciente caso controvertido relacionado con el modelo Llama 4 Maverick de Meta. La empresa ajustó una versión del modelo Maverick específicamente para obtener buenos resultados en Chatbot Arena, pero optó por no lanzar esa versión y en su lugar publicó una versión con peor rendimiento.

«Los benchmarks deberían ser dinámicos en lugar de conjuntos de datos estáticos», argumentó Hadgu, «distribuidos entre múltiples entidades independientes, como organizaciones o universidades, y adaptados específicamente a distintos casos de uso, como educación, salud y otros campos realizados por profesionales en ejercicio que utilizan estos modelos para trabajar».

Hadgu y Kristine Gloria, quien anteriormente dirigió la Iniciativa de Tecnologías Emergentes e Inteligentes del Instituto Aspen, también defienden que los evaluadores de modelos deberían recibir una compensación por su trabajo. Gloria señaló que los laboratorios de IA deberían aprender de los errores de la industria del etiquetado de datos, notoria por sus prácticas explotadoras. Algunas empresas de IA han sido acusadas de comportamientos similares.

«En general, el proceso de benchmarking participativo es valioso y me recuerda a las iniciativas de ciencia ciudadana», comentó Gloria. «Idealmente, ayuda a incorporar perspectivas adicionales para proporcionar cierta profundidad tanto en la evaluación como en el ajuste fino de los datos. Pero los benchmarks nunca deberían ser la única métrica de evaluación. Con la industria y la innovación avanzando rápidamente, los benchmarks pueden volverse rápidamente poco fiables».

Propuestas para mejorar la evaluación

Matt Fredrikson, CEO de Gray Swan AI, empresa que gestiona campañas participativas de red teaming para modelos, explicó que los voluntarios se sienten atraídos a la plataforma de Gray Swan por diversas razones, como «aprender y practicar nuevas habilidades». No obstante, reconoció que los benchmarks públicos «no son un sustituto» de las evaluaciones privadas remuneradas.

«Los desarrolladores también necesitan confiar en benchmarks internos, equipos algorítmicos de red teaming y red teamers contratados que puedan adoptar un enfoque más abierto o aportar experiencia en dominios específicos», afirmó Fredrikson. «Es importante que tanto los desarrolladores de modelos como los creadores de benchmarks, participativos o no, comuniquen los resultados claramente a quienes los siguen y respondan cuando se cuestionen».

Alex Atallah, CEO del mercado de modelos OpenRouter, que recientemente se asoció con OpenAI para conceder a los usuarios acceso anticipado a los modelos GPT-4.1 de OpenAI, coincidió en que las pruebas y evaluaciones abiertas de los modelos por sí solas «no son suficientes». Una opinión similar expresó Wei-Lin Chiang, estudiante doctoral de IA en UC Berkeley y uno de los fundadores de LMArena, la organización que mantiene Chatbot Arena.

La respuesta de Chatbot Arena

Chiang aclaró que incidentes como la discrepancia con el benchmark de Maverick no son resultado de un fallo en el diseño de Chatbot Arena, sino de interpretaciones erróneas de su política por parte de los laboratorios.

«Ciertamente apoyamos el uso de otras pruebas», afirmó Chiang. «Nuestro objetivo es crear un espacio abierto y confiable que mida las preferencias de nuestra comunidad sobre diferentes modelos de IA».

LMArena ha tomado medidas para prevenir futuras discrepancias, según Chiang, incluyendo la actualización de sus políticas para «reforzar nuestro compromiso con evaluaciones justas y reproducibles».

«Nuestra comunidad no está aquí como voluntarios o probadores de modelos», explicó Chiang. «Las personas utilizan LMArena porque les proporcionamos un lugar abierto y transparente para interactuar con la IA y dar retroalimentación colectiva. Mientras la tabla de clasificación refleje fielmente la voz de la comunidad, nos complace que se comparta».

Este debate pone de manifiesto la necesidad de desarrollar métodos de evaluación más robustos, transparentes y éticos a medida que la tecnología de IA continúa avanzando y desempeñando un papel cada vez más importante en nuestra sociedad y economía.