OpenAI lancia GDPval

September 28, 2025, 5:57 am

OpenAI lancia GDPval

Immaginate di sostituire settimane di lavoro specialistico con poche ore di AI.
Non parlo di quiz o indovinelli: parlo di Excel complessi, analisi legali o finanziarie, presentazioni, progetti ingegneristici.

OpenAI ha appena lanciato GDPval, un nuovo benchmark che misura non la conoscenza, ma il valore economico che i modelli riescono a generare.


Cosa contiene

  • 44 professioni, 9 settori
  • 1.320 task reali (220 open-source)
  • Attività prese dal lavoro di esperti con 14 anni di esperienza media
  • Formati eterogenei: Excel, CAD, video, immagini, slide

Risultati

  • Ogni nuova generazione migliora la precedente
  • Claude Opus 4.1 vince su estetica e layout
  • GPT-5 domina su accuratezza e calcoli
  • Nel subset “gold”, Claude ha eguagliato o superato il lavoro umano nel 47,6% dei casi

Implicazioni

  • Con revisione umana i modelli sono già più rapidi ed economici degli esperti (1,2–1,6×)
  • In pura velocità sono 90–300 volte più veloci
  • Errori gravi? Rari (~3%)

Perché conta

Se MMLU ci diceva quanto un modello “sa”, GDPval ci dice quanto può produrre.
È qui che si gioca la partita vera: l’AI che passa dall’essere assistente a sostituto credibile di settimane di lavoro specialistico.

Per chi vuole esplorare: evals.openai.com Qui il paper: scarica

Previous Post