¿Cuánto falta para que una inteligencia artificial haga tu trabajo tan bien —o mejor— que tú? ¿Cuántas tareas de las que hacemos cada día en la oficina podrían ser ejecutadas por un modelo como GPT-5? Hasta ahora, estas eran preguntas abiertas, reservadas a conferencias, foros de LinkedIn o presentaciones de Silicon Valley. Pero OpenAI quiere responderlas con algo más tangible: una evaluación comparativa que lo mide de forma directa.
El benchmark se llama GDPval. Su nombre hace alusión directa al Producto Interior Bruto (GDP, en inglés), porque su enfoque es económico antes que técnico. El objetivo: comprobar si los modelos de IA actuales están preparados para sustituir tareas humanas “que realmente generan valor”. Y los resultados preliminares apuntan a una conclusión inquietante: en muchos casos, ya estamos muy cerca.
Qué es GDPval y por qué podría cambiar la forma en que medimos la IA
OpenAI ha creado GDPval como una herramienta para evaluar el desempeño de sus modelos en tareas específicas dentro de industrias que, en conjunto, representan la mayor parte del PIB estadounidense. Esto incluye sectores como:
- Sanidad
- Finanzas
- Manufactura
- Gobierno
- Tecnología
- Medios y comunicación
En total, GDPval-v0 analiza 44 profesiones distintas. Desde periodistas hasta ingenieros de software. Desde enfermeras hasta consultores financieros. La metodología es directa, pero contundente: profesionales humanos generan informes o entregables reales y se comparan con informes generados por modelos como GPT-5 y Claude Opus. Luego, otros expertos valoran cuál de los dos trabajos prefieren.
Lo interesante no es solo el resultado, sino la propia idea de que la inteligencia artificial empieza a ser juzgada con el mismo rasero que se aplica a un ser humano. No se trata de ver si la IA responde correctamente una pregunta, sino de evaluar si produce un documento profesional comparable al de un colega experimentado.
Los resultados de la primera prueba: ¿ya nos supera la IA?
Los datos de GDPval-v0 muestran que los modelos más avanzados ya compiten seriamente con humanos cualificados:
- GPT-5-high (una versión potenciada de GPT-5) fue preferido o igualado al trabajo humano en el 40,6?% de los casos.
- Claude Opus 4.1, de Anthropic, obtuvo un 49?%, aunque OpenAI sugiere que parte de ese rendimiento se debe a que “hace gráficos bonitos”.
Para ponerlo en perspectiva, el modelo GPT-4o, lanzado apenas 15 meses antes, obtuvo un 13,7?% en este mismo test. Es decir, en apenas un año y medio, la capacidad de los modelos ha triplicado su rendimiento frente a humanos.
No es solo un salto técnico. Es una tendencia que, de mantenerse, pondrá en jaque a muchas profesiones cuya actividad diaria pueda ser modelada como un flujo de inputs y outputs documentales. Informes, análisis, recomendaciones, resúmenes… una gran parte del trabajo del conocimiento se parece peligrosamente a una plantilla de IA.
Qué mide —y qué no mide— GDPval
Una crítica importante que incluso OpenAI reconoce: GDPval no mide todo el trabajo humano. Se centra únicamente en la generación de informes, resúmenes o entregables escritos. En otras palabras, el benchmark evalúa un tipo muy concreto de output profesional, sin tener en cuenta factores como:
- Interacción humana (clientes, pacientes, alumnos…)
- Gestión emocional
- Toma de decisiones en tiempo real
- Coordinación con equipos
- Ética o valores corporativos
Esto no es trivial. Como señala el propio Dr. Aaron Chatterji, economista jefe de OpenAI, la mayoría de los profesionales hacen muchas más cosas además de escribir informes. El reto está en capturar esa complejidad con futuros benchmarks que incluyan workflows interactivos, decisiones estratégicas, comunicación interpersonal y adaptabilidad al entorno.
No obstante, OpenAI defiende que los avances ya permiten liberar tiempo para tareas más valiosas: si la IA puede generar un informe técnico sólido, el humano puede dedicarse a tomar decisiones o innovar.
La guerra silenciosa de los benchmarks
Hasta ahora, los benchmarks más utilizados en IA eran puramente académicos o técnicos: resolución de problemas matemáticos, lógica, comprensión de texto, etc. Algunos de los más conocidos:
- AIME 2025: problemas matemáticos complejos.
- GPQA Diamond: preguntas científicas a nivel de doctorado.
Sin embargo, estos tests presentan un problema: los modelos más avanzados ya los están saturando. El rendimiento ha alcanzado niveles tan altos que dejan de ser útiles como referencia de progreso. Es como si todos los estudiantes de una clase ya sacaran un 10: ya no sirve para diferenciar.
GDPval entra como una nueva generación de benchmarks, más pegada a la economía real que a la academia. Una prueba que mide si la IA puede trabajar en lugar de solo responder. Y eso lo convierte en un barómetro mucho más útil para empresas, gobiernos y profesionales que intentan anticipar el impacto de la IA en su sector.
WhatsApp
Facebook
Twitter
Linkedin
Beloud
Bluesky
Leer en la fuente
QvaClick recopila noticias desde fuentes oficiales y públicas. Los derechos pertenecen a sus respectivos autores y editores. QvaClick no se hace responsable de los contenidos externos enlazados.