Apple: – AI-modellene ikke så smarte som de virker som

– At AI-modeller "tenker" er bare en illusjon, sier forskere hos Apple i en ny rapport. – Vi trenger bedre måter å måle forståelse på, mener AI-ekspert Thordur Arnason i Capgemini.

Store språkmodellene er gode på å late som at de tenker, på en troverdig måte, viser fersk Apple-rapport. 📸: Ole Petter Baugerød Stokke
Store språkmodellene er gode på å late som at de tenker, på en troverdig måte, viser fersk Apple-rapport. 📸: Ole Petter Baugerød Stokke Vis mer

Tror du at AGI – kunstig, generell intelligens som kan matche menneskelig intelligens – er like rundt hjørnet?

I så fall bør du justere forventningene dine litt, skriver The Register.

En gruppe forskere hos Apple ga nylig ut rapporten "The Illusion of Thinking", der det går frem at AI-bransjen i høy grad overvurderer resonneringsevnene til store språkmodeller som OpenAI O3, DeepSeek-R1, Claude 3.7 Sonnet Thinking og Gemini Thinking.

De tenker ikke

Som tittelen på rapporten sier, er det at språkmodellene "tenker" bare en illusjon – i tilfelle du skulle være i tvil.

  • Enkelte i AI-bransjen snakker om AI-modellene som store steg på vei mot AGI, men modellene har ikke det som skal til, mener forskerne.
  • Selv språkmodeller av typen som omtales som "store resonneringsmodeller" (LRM) har for mange begrensninger i måten de er laget på.

– Selv om disse modellene viser bedre ytelse på resonnementstester, er deres grunnleggende egenskaper, skaleringsegenskaper og begrensninger fortsatt utilstrekkelig forstått, skriver teamet.

Enkelt forklart faker modellene at de er intelligente.

Teamet lagde et sett med tester for å finne ut hvordan de ulike modellene klarte seg i ulike scenarioer.

– Gjennom omfattende eksperimentering med ulike typer oppgaver viser vi at nøyaktigheten til avanserte store resonneringsmodeller kollapser fullstendig når kompleksiteten når et visst nivå, skriver de.

LLM-er er ikke ubrukelige

Rapporten har fått en masse oppmerksomhet i AI-miljøet.

I et innlegg på LinkedIn skriver AI-ekspert Thordur Arnason i Capgemini at han mener rapporten er både seriøs og teknisk solid publikasjon.

– Den reiser viktige spørsmål om hvordan vi evaluerer store språkmodeller og risikoen for å forveksle språklig flyt med dyp forståelse. Ingen uenighet der, skriver Arnason.

  • Ifølge Arnason sier imidlertid rapporten ikke at store språkmodeller er ubrukelige, og den sier heller ikke at LLM-er ikke kan løse reelle problemer.
  • Den beviser heller ikke at "modellene ikke kan tenke" i noen meningsfull eller vitenskapelig forstnad, siden "tenking" fortsatt er et begrep filosofien ikke har klart å entydig definere.

– Det artikkelen faktisk sier, er at dagens evalueringsverktøy kan manipuleres, at modellens svar kan fremstå smartere enn de er, og at vi trenger bedre måter å måle forståelse på. Det er ikke en avvisning – det er et uttrykk for faglig modenhet. Og det er slik vitenskap og ingeniørkunst utvikler seg, skriver Arnason.

Han mener vi bør ønske kritikk velkommen når den skjerper forståelsen vår av slike systemer.

– Faktaene er, som alltid, mer interessante og mer nyanserte. Selv i en virkelighet preget av klikkagn og "post-faktuell" debatt.