Én null til utviklere, si - AI-utvikleren Devin klarte seg ikke særlig bra i ny test. 📸: Ole Petter Baugerød Stokke

AI-utvikleren Devin feila på 12 av 15 oppgaver

Forskerne er imponert over det den klarte, men alt den ikke klarte tyder på at mennesker fortsatt bør styre utviklingsprosjekter.

Publisert

«Hevder å ha laget den første AI-utvikleren» skrev kode24 i mars 2024.

Denne såkalte AI-utvikleren het Devin, fra San Francisco-selskapet Cognition AI, og tanken var altså en agent, ikke en assistent, som kunne skrive kode, kjøre kommandoer og bruke nettleseren. «Alt et menneske ville trengt for å gjøre jobben», som de sa, og før jul ble Devin tilgjengelig for alle, for 500 dollar måneden.

Nå har tre forskere fra selskapet Answer.AI, som markedsfører seg som «Practical AI R&D», undersøkt nøyaktig hvor bra Devin klarer seg i praksis.

Og som blant annet The Register skriver: Den gjør ikke en spesielt god jobb.

Klarte 3 av 15 oppgaver

– Samtidig som Twitter er full av entusiasme, kunne vi ikke finne mange detaljerte beskrivelser av folk som faktisk brukte Devin. Så vi bestemte oss for å teste den på et bredt utvalg av ekte oppgaver, skriver Hamel Husain, Isaac Flath og Johno Whitaker i rapporten sin.

Etter en måned med testing på 20 oppgaver, endte de med følgende resultat:

  • 14 ble ikke utført.
  • 3 ble delvis utført.
  • 3 ble utført.

Når det virka, var det imponerende. Men det er problemet; det virka sjeldent, skriver forskerne, som ikke klarte å finne noen klart mønster i hva Devin faktisk klarte, heller:

– Den autonome naturen, som virka lovende, endte derfor opp som en belastning. Devin kunne bruke dagesvis på å forfølge umulige løsninger, i stedet for å innse sine fundamentale hindringer.

Du kan lese mer detaljer om hvor den satt seg fast, hva den faktisk klarte og hvor mye de sleit med overdreven kompleks kode og hallusinering i rapporten.

Problemer ligger i styring

Bare så det er klart: Forskerne påstår på ingen måte at ikke AI har noe å gjøre i verktøybeltet til utviklere. Snarere tvert i mot.

Men det er nettopp autonomien, altså at produkter som Devin lover deg at du ikke trenger å gjøre noe som helst, de mener ikke fungerer. Ennå.

– Så vi holder oss til verktøy som lar oss drive utviklingsprosessen, men gir oss AI-assistanse på veien, skriver de.

Og mange utviklere tar dermed et lettelsens sukk, for at de ikke blir erstatta av en AI til 500 dollar i måneden riktig ennå. Rapporten går blant annet sin seiersgang på Reddit.

– AI vil erstatte sjefer og mellomledere før den erstatter de som faktisk gjør en jobb, skriver én.

Powered by Labrador CMS