OpenAI presenta GDPval y afirma que GPT-5 ya se mide con humanos en tareas profesionales

Con el benchmark GDPval, OpenAI muestra que GPT-5-high alcanza paridad o superioridad en 40.6% de 44 ocupaciones evaluadas; la compañía advierte, sin embargo, que la prueba es inicial y limitada.

OpenAI dio un paso decidido para cuantificar cuánto se acercan sus modelos al trabajo humano: con GDPval-v0, la compañía evaluó el rendimiento de sus sistemas en 44 ocupaciones pertenecientes a las 9 industrias que más aportan al PIB estadounidense y concluyó que su versión potenciada GPT-5-high fue considerada igual o mejor que profesionales humanos en 40.6% de los casos evaluados. En el mismo ejercicio, Anthropic con Claude Opus 4.1 registró un 49% de win rate en las tareas analizadas.

La prueba no busca, por ahora, reproducir la complejidad completa de un puesto de trabajo: OpenAI diseñó GDPval-v0 pidiendo a profesionales con experiencia que compararan informes—por ejemplo, un análisis de landscape competitivo—generados por humanos y por modelos, y que eligieran cuál era mejor.

Esa comparación cara a cara es la base para calcular la tasa de victorias de cada modelo frente a humanos.

OpenAI interpreta esos resultados como un avance sustantivo: la empresa afirma que sus modelos “ya se están acercando a la calidad del trabajo producido por expertos de la industria”. Al mismo tiempo, la firma matiza que GDPval-v0 cubre tareas acotadas y que no significa que los modelos vayan a sustituir puestos de trabajo de forma inmediata.

El Dr. Aaron Chatterji, economista jefe de OpenAI, sintetiza la lectura práctica: “el modelo está mejorando en algunas de estas tareas, y las personas en esos puestos ahora pueden usar el modelo, a medida que sus capacidades mejoran, para descargarse parte de su trabajo y dedicarse a tareas potencialmente de mayor valor.”

Esa idea coloca la conversación en clave organizacional: la IA como palanca para subir el nivel de aportes humanos, no sólo para automatizar.

También es relevante la velocidad del progreso: OpenAI recuerda que su modelo GPT-4o obtuvo apenas 13.7% en una evaluación previa hace aproximadamente 15 meses, lo que muestra una aceleración en las capacidades medidas por GDPval.

OpenAI advierte, sin embargo, que será necesario ampliar el benchmark para cubrir flujos de trabajo interactivos, colaboración entre equipos y tareas no triviales que forman parte del día a día profesional.

¿Qué deberían hacer los ejecutivos? Primero, experimentar con estos modelos en tareas bien acotadas (informes, análisis preliminares, generación de borradores) y medir calidad y riesgos. Segundo, establecer controles de verificación humana, métricas de salida y protocolos de seguridad y responsabilidad. Y tercero, diseñar la reorientación de talento hacia actividades de mayor valor donde la supervisión, la creatividad y el juicio sigan siendo críticos.

GDPval no cierra el debate sobre la llegada de una IA “sustitutiva”, pero sí aporta un instrumento pragmático para que empresas y gobiernos evalúen, con datos, qué funciones conviene potenciar con modelos como GPT-5 y cuáles exigen preservación y refuerzo del factor humano.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com