Utviklere liker ChatGPT bedre enn Stack Overflow - selv når den tar feil

Den kunstige intelligensen er mer positiv enn folka på nettet, mener forskerne, men ChatGPT tar mer feil enn en mynt.

"Trenger du hjelp med Svelte? Null stress!" sier ChatGPT, og gir oss detaljerte og enkle svar med eksempler og gode greier. Spør du på Stack Overflow risikerer du møte en litt annen gjeng - selv om den oftere svarer riktig. 📸: Ole Petter Baugerød Stokke
"Trenger du hjelp med Svelte? Null stress!" sier ChatGPT, og gir oss detaljerte og enkle svar med eksempler og gode greier. Spør du på Stack Overflow risikerer du møte en litt annen gjeng - selv om den oftere svarer riktig. 📸: Ole Petter Baugerød Stokke Vis mer

Du har lest det før, men du har godt av å lese det igjen: Du kan ikke ta alt AI-er som ChatGPT forteller deg for god fisk.

En gjeng smartinger fra det amerikanske Purdue University har i en ny forskningsartikkel stilt ChatGPT 517 spørsmål, alle henta fra Stack Overflow-tråder. The Register forteller at de deretter sjekka om ChatGPT faktisk ga det riktige svaret.

Resultatet: ChatGPT tok feil i 52 prosent av tilfellene. Flåsete sagt: Dårligere enn et myntkast.

Men det som er minst like interessant, er hva forskerne fant da de ba folk vurdere hvor godt de likte svarene - uavhengig av hvor riktige de var.

«Også positiv ordlyd og høfligheten i svarene var viktige grunner»

Foretrekker AI-svar

I artikkelen "Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions" forteller forskerne hvordan de ba folk vurdere hvilke svar de likte best: Det muligens gale svaret fra ChatGPT, eller det riktige svaret fra Stack Overflow.

- ChatGPT-svarene ble foretrukket i 39,34 prosent av tilfellene, skriver forskerne ifølge The Register.

Selv ChatGPT-svar med det forskerne anser som åpenbare feil, skal av mange ha blitt foretrukket. Grunnen er trolig måten roboten svarer på.

- En av hovedgrunnene var hvor detaljerte ChatGPT sine svar var. I mange tilfeller brydde ikke deltakerne seg om at svarene var lange, så lenge de fikk nyttig informasjon fra dem. Også positiv ordlyd og høfligheten i svarene var viktige grunner, mener forskerne.

Det vises blant annet til ChatGPTs stadig like optimistiske "selvfølgelig kan jeg hjelpe deg!", uavhening om du faktisk får god hjelp - ofte den rake motsetningen til hvordan du kan bli møtt på Stack Overflow av dine medmennesker.

Foreslår forbedringer

Som kode24 har meldt tidligere, sliter Stack Overflow med å møte konkurransen fra våre nye syntetiske overherrer. For selv om utviklere ikke stoler på AI, er det veldig mange som nå bruker det, i stedet for å spørre sine medmennesker.

Forskerne ved Purdue University mener derfor at Stack Overflow bør gjøre ett og annet for å sørge for at mennesker fortsatt vil spørre andre mennesker.

- Vi foreslår at Stack Overflow får seg effektive metoder for å oppdage "giftighet" og negativ ordlyd i svarene sine, for å bedre ordlyd og høflighet, sier doktorgrad-student Samia Kabir til The Register, som også mener de bør gjøre noe med hvor enkelt det er å finne de gode svarene.

- I tillegg bør de få seg spesifikke retningslinjer for hvordan folk strukturerer svarene sine, for eksempel ved å gi steg-for-steg-guider og være detaljfokusert.