AI-utvikleren Devin feila på 12 av 15 oppgaver

Forskerne er imponert over det den klarte, men alt den ikke klarte tyder på at mennesker fortsatt bør styre utviklingsprosjekter.

Én null til utviklere, si - AI-utvikleren Devin klarte seg ikke særlig bra i ny test. 📸: Ole Petter Baugerød Stokke
Én null til utviklere, si - AI-utvikleren Devin klarte seg ikke særlig bra i ny test. 📸: Ole Petter Baugerød Stokke Vis mer

«Hevder å ha laget den første AI-utvikleren» skrev kode24 i mars 2024.

Denne såkalte AI-utvikleren het Devin, fra San Francisco-selskapet Cognition AI, og tanken var altså en agent, ikke en assistent, som kunne skrive kode, kjøre kommandoer og bruke nettleseren. «Alt et menneske ville trengt for å gjøre jobben», som de sa, og før jul ble Devin tilgjengelig for alle, for 500 dollar måneden.

Nå har tre forskere fra selskapet Answer.AI, som markedsfører seg som «Practical AI R&D», undersøkt nøyaktig hvor bra Devin klarer seg i praksis.

Og som blant annet The Register skriver: Den gjør ikke en spesielt god jobb.

Klarte 3 av 15 oppgaver

– Samtidig som Twitter er full av entusiasme, kunne vi ikke finne mange detaljerte beskrivelser av folk som faktisk brukte Devin. Så vi bestemte oss for å teste den på et bredt utvalg av ekte oppgaver, skriver Hamel Husain, Isaac Flath og Johno Whitaker i rapporten sin.

Etter en måned med testing på 20 oppgaver, endte de med følgende resultat:

  • 14 ble ikke utført.
  • 3 ble delvis utført.
  • 3 ble utført.

Når det virka, var det imponerende. Men det er problemet; det virka sjeldent, skriver forskerne, som ikke klarte å finne noen klart mønster i hva Devin faktisk klarte, heller:

– Den autonome naturen, som virka lovende, endte derfor opp som en belastning. Devin kunne bruke dagesvis på å forfølge umulige løsninger, i stedet for å innse sine fundamentale hindringer.

Du kan lese mer detaljer om hvor den satt seg fast, hva den faktisk klarte og hvor mye de sleit med overdreven kompleks kode og hallusinering i rapporten.

Problemer ligger i styring

Bare så det er klart: Forskerne påstår på ingen måte at ikke AI har noe å gjøre i verktøybeltet til utviklere. Snarere tvert i mot.

Men det er nettopp autonomien, altså at produkter som Devin lover deg at du ikke trenger å gjøre noe som helst, de mener ikke fungerer. Ennå.

– Så vi holder oss til verktøy som lar oss drive utviklingsprosessen, men gir oss AI-assistanse på veien, skriver de.

Og mange utviklere tar dermed et lettelsens sukk, for at de ikke blir erstatta av en AI til 500 dollar i måneden riktig ennå. Rapporten går blant annet sin seiersgang på Reddit.

– AI vil erstatte sjefer og mellomledere før den erstatter de som faktisk gjør en jobb, skriver én.