Epoch AI, una organización sin fines de lucro dedicada al desarrollo de pruebas matemáticas para evaluar inteligencia artificial, se encuentra en medio de una controversia tras revelarse que ocultó durante meses su financiamiento por parte de OpenAI, una de las empresas líderes en el sector.
La controversia por la falta de transparencia
La polémica estalló cuando Epoch AI reveló el 20 de diciembre que OpenAI había apoyado la creación de FrontierMath, una prueba diseñada para medir las habilidades matemáticas de sistemas de IA a nivel experto. Esta revelación coincidió con el anuncio de o3, el nuevo modelo de IA de OpenAI, que utilizó FrontierMath como parte de sus demostraciones de capacidades.
Un contratista de Epoch AI, identificado como "Meemi", publicó en el foro LessWrong que numerosos colaboradores del proyecto no fueron informados sobre la participación de OpenAI hasta que se hizo público. "La comunicación sobre esto ha sido no transparente", escribió Meemi, agregando que "los contratistas deberían tener información transparente sobre el potencial uso de su trabajo".
Respuesta de Epoch AI
Ante las críticas, Tamay Besiroglu, director asociado y cofundador de Epoch AI, reconoció que la organización "cometió un error" al no ser más transparente. Besiroglu explicó que estaban limitados contractualmente para revelar la asociación hasta el lanzamiento de o3, pero admitió que "deberían haber negociado más firmemente la capacidad de ser transparentes con los contribuyentes del benchmark lo antes posible".
Preocupaciones sobre la integridad
La controversia ha generado preocupaciones sobre la objetividad de FrontierMath, especialmente porque OpenAI tuvo acceso anticipado a muchos de los problemas y soluciones incluidos en la prueba. Para abordar estas inquietudes, Besiroglu aseguró que existe un "acuerdo verbal" con OpenAI para no utilizar FrontierMath en el entrenamiento de sus sistemas de IA, lo que equivaldría a "enseñar para la prueba".
Sin embargo, el matemático principal de Epoch AI, Ellot Glazer, añadió complejidad al asunto al revelar en Reddit que no han podido verificar de manera independiente los resultados de o3 en FrontierMath. Aunque Glazer expresó su opinión personal de que la puntuación de OpenAI es legítima, enfatizó que no pueden respaldar los resultados hasta completar una evaluación independiente.
Desafíos en la evaluación de IAs
Este incidente resalta los desafíos continuos en el desarrollo de benchmarks empíricos para evaluar sistemas de IA. La situación de Epoch AI ejemplifica la dificultad de mantener la independencia y objetividad mientras se aseguran los recursos necesarios para el desarrollo de estas pruebas de evaluación.
El caso también pone de manifiesto la importancia de la transparencia en la industria de la IA, especialmente cuando se trata de herramientas de evaluación que pueden influir en la percepción pública y profesional de las capacidades de los sistemas de IA. La controversia sirve como recordatorio de la necesidad de establecer estándares más claros para la divulgación de financiamiento y colaboraciones en el desarrollo de benchmarks de IA.