OpenAIs GPT-5.2 skryter av tall – forskere mener de ikke kan stoles på

– Vanskelig å vite om modellene faktisk blir bedre, eller bare ser ut til å bli det, skriver Oxford-forskere i stor rapport om KI-benchmark-er.

Ole Petter Baugerød Stokke Ole Petter Baugerød Stokke redaktør, kode24.no

Publisert 12.12.2025 - 10:03

OpenAI har gitt ut sin siste versjon av deres språkmodell: GPT-5.2.

Som vanlig lokker KI-giganten med å være enda flinkere på det aller meste, også programmering – spesielt på frontend og brukergrensesnitt.

OpenAI deler mange eksempler på hvordan GPT-5.2 koder små løsninger som dette med korte instruksjoner.

Og som vanlig markedsføres det hele blant annet med målestokker, eller benchmarks som det heter på engelsk.

– GPT‑5.2 setter en ny standard på tvers av mange målestokker, inkludert GDPval, hvor den overgår bransjefolk på velspesifiserte kunnskapsoppgaver som spenner over 44 yrker, skriver OpenAI.

PGDPval er en av mange måter å måle KI-modellers ytelse. En målestokk OpenAI har laget selv.

Men ifølge forskere kan de færreste av disse stoles på.

Forskere: Benchmark-er ikke gode nok

"KI-benchmark-er er en dårlig spøk, og LLM-skaperne er de eneste som ler" slo The Register stort opp i høst.

Bakgrunnen var en ny forskningsrapport fra Oxford Internet Institute, skrevet av 42 forskere fra blant annet Oxford, Stanford, det tekniske universitetet i Munich, UC Berkeley og Yale.

Forskerne gikk gjennom intet mindre enn 445 ulike KI-tester, og deres konklusjon er klar: Mange av disse testene mangler vitenskapelig belegg.

Blant annet fordi bare 16 prosent av dem bruker statistiske metoder som gjør at tall faktisk kan sammenliknes, fordi de ikke har felles definisjoner av begreper som "resonnering", og fordi de ikke måler scenarioer som ligger tett nok opp til faktisk, praktisk bruk.

– Benchmark-er ligger til grunn for nesten alle påstandarder om utviklingen av KI, sier hovedforfatteren bak, Andrew Bean, i Oxfords eget sammendrag av rapporten.

– Men uten felles definisjoner og solide målinger, blir det vanskelig å vite om modellene faktisk blir bedre, eller bare ser ut til å bli det.

Lot Claude Code gjøre designet: «Sparte mange tusen»

Skrev backend og HTML selv, men lot Claude Code gjøre resten. – Alt jeg lager ser stygt ut, skriver Kirill Miazine.

Pelikan på sykkel-testen

Det virker som om utviklere også begynner å få litt nok av å høre om hvor mange prosent bedre KI-modeller gjør det på diverse målestokker.

Blant annet på Hacker News er det mange som trekker på skuldrene av GPT-5.2 sine påstander på akkurat dette punktet.

– Jeg føler vi kommer til et punkt hvor alle disse målestokkene blir meningsløse. Det jeg bryr meg om utover grei ytelse, er brukeropplevelsen, skriver én.

GPT-5.2 har tegna denne SVG-pelikanen på sykkel.

Den amerikanske utvikleren Simon Willison deler sin egen test: Få modellene til å tegne en pelikan på sykkel med SVG. Når GPT-5.2 tar på seg den oppgaven, blir det... ikke akkurat perfekt. Uten at dette selvfølgelig er noe GPT-5.2 nødvendigvis påstår å være spesielt flink på, heller.

– Wow, her er det mye som foregår, kommenterer han sin egen tegning.

– Dette er den eneste målestokken jeg stoler på, svarer en annen.