OpenAI presenta GDPval y afirma que GPT-5 ya se mide con humanos en tareas profesionales

Con el benchmark GDPval, OpenAI muestra que GPT-5-high alcanza paridad o superioridad en 40.6% de 44 ocupaciones evaluadas; la compañía advierte, sin embargo, que la prueba es inicial y limitada. OpenAI dio un paso decidido para cuantificar cuánto se acercan sus modelos al trabajo humano: con GDPval-v0, la compañía evaluó el rendimiento de sus sistemas…

Leer Más

Claude Opus 4.1: la nueva apuesta de Anthropic para liderar la programación con IA

La última actualización del modelo de inteligencia artificial de Anthropic ya está disponible y promete una mejora significativa en tareas complejas de codificación y razonamiento. Claude Opus 4.1 alcanza un 74,5% en el benchmark SWE-bench Verified y apunta a redefinir los estándares en entornos de desarrollo reales. Anthropic, la empresa emergente en inteligencia artificial que…

Leer Más
WP to LinkedIn Auto Publish Powered By : XYZScripts.com