Benchmarks

El gobierno de EE.UU. investiga la inversión de Benchmark en la startup china de IA Manus

El gobierno de EE.UU. investiga la inversión de Benchmark en la startup china de IA Manus

Droids

El Departamento del Tesoro de Estados Unidos ha iniciado una revisión sobre la reciente inversión del fondo de capital riesgo ...

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Nuevo test de inteligencia artificial general deja en evidencia a los modelos más avanzados

Droids

Un nuevo test diseñado para evaluar la inteligencia general de modelos de IA ha dejado perplejos a los sistemas más ...

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software

OpenAI presenta SWE-Lancer: un benchmark millonario para evaluar IAs en desarrollo de software

Droids

OpenAI ha anunciado el lanzamiento de SWE-Lancer, un innovador benchmark diseñado para evaluar la capacidad de los modelos de lenguaje ...