OpenAI lancia GDPval

Immaginate di sostituire settimane di lavoro specialistico con poche ore di AI.
Non parlo di quiz o indovinelli: parlo di Excel complessi, analisi legali o finanziarie, presentazioni, progetti ingegneristici.

OpenAI ha appena lanciato GDPval, un nuovo benchmark che misura non la conoscenza, ma il valore economico che i modelli riescono a generare.

Cosa contiene

44 professioni, 9 settori
1.320 task reali (220 open-source)
Attività prese dal lavoro di esperti con 14 anni di esperienza media
Formati eterogenei: Excel, CAD, video, immagini, slide

Risultati

Ogni nuova generazione migliora la precedente
Claude Opus 4.1 vince su estetica e layout
GPT-5 domina su accuratezza e calcoli
Nel subset “gold”, Claude ha eguagliato o superato il lavoro umano nel 47,6% dei casi

Implicazioni

Con revisione umana i modelli sono già più rapidi ed economici degli esperti (1,2–1,6×)
In pura velocità sono 90–300 volte più veloci
Errori gravi? Rari (~3%)

Perché conta

Se MMLU ci diceva quanto un modello “sa”, GDPval ci dice quanto può produrre.
È qui che si gioca la partita vera: l’AI che passa dall’essere assistente a sostituto credibile di settimane di lavoro specialistico.

Per chi vuole esplorare: evals.openai.com Qui il paper: scarica