Benchmarks

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados
Droids
Un nuevo test diseñado para evaluar la inteligencia general de modelos de IA ha dejado perplejos a los sistemas más ...

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software
Droids
OpenAI ha anunciado el lanzamiento de SWE-Lancer, un innovador benchmark diseñado para evaluar la capacidad de los modelos de lenguaje ...