Benchmarks

El gobierno de EE.UU. investiga la inversión de Benchmark en la startup china de IA Manus
Droids
El Departamento del Tesoro de Estados Unidos ha iniciado una revisión sobre la reciente inversión del fondo de capital riesgo ...

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados
Droids
Un nuevo test diseñado para evaluar la inteligencia general de modelos de IA ha dejado perplejos a los sistemas más ...

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software
Droids
OpenAI ha anunciado el lanzamiento de SWE-Lancer, un innovador benchmark diseñado para evaluar la capacidad de los modelos de lenguaje ...





