OpenAI lancia GDPval
Immaginate di sostituire settimane di lavoro specialistico con poche ore di AI.
Non parlo di quiz o indovinelli: parlo di Excel complessi, analisi legali o finanziarie, presentazioni, progetti ingegneristici.
OpenAI ha appena lanciato GDPval, un nuovo benchmark che misura non la conoscenza, ma il valore economico che i modelli riescono a generare.
Cosa contiene
- 44 professioni, 9 settori
- 1.320 task reali (220 open-source)
- Attività prese dal lavoro di esperti con 14 anni di esperienza media
- Formati eterogenei: Excel, CAD, video, immagini, slide
Risultati
- Ogni nuova generazione migliora la precedente
- Claude Opus 4.1 vince su estetica e layout
- GPT-5 domina su accuratezza e calcoli
- Nel subset “gold”, Claude ha eguagliato o superato il lavoro umano nel 47,6% dei casi
Implicazioni
- Con revisione umana i modelli sono già più rapidi ed economici degli esperti (1,2–1,6×)
- In pura velocità sono 90–300 volte più veloci
- Errori gravi? Rari (~3%)
Perché conta
Se MMLU ci diceva quanto un modello “sa”, GDPval ci dice quanto può produrre.
È qui che si gioca la partita vera: l’AI che passa dall’essere assistente a sostituto credibile di settimane di lavoro specialistico.
Per chi vuole esplorare: evals.openai.com
Qui il paper: scarica
Previous Post