Benchmarks

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Droids

Un nuevo test diseñado para evaluar la inteligencia general de modelos de IA ha dejado perplejos a los sistemas más ...

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software

Droids

OpenAI ha anunciado el lanzamiento de SWE-Lancer, un innovador benchmark diseñado para evaluar la capacidad de los modelos de lenguaje ...