«Hevder å ha laget den første AI-utvikleren» skrev kode24 i mars 2024.
Denne såkalte AI-utvikleren het Devin, fra San Francisco-selskapet Cognition AI, og tanken var altså en agent, ikke en assistent, som kunne skrive kode, kjøre kommandoer og bruke nettleseren. «Alt et menneske ville trengt for å gjøre jobben», som de sa, og før jul ble Devin tilgjengelig for alle, for 500 dollar måneden.
Nå har tre forskere fra selskapet Answer.AI, som markedsfører seg som «Practical AI R&D», undersøkt nøyaktig hvor bra Devin klarer seg i praksis.
Og som blant annet The Register skriver: Den gjør ikke en spesielt god jobb.
Klarte 3 av 15 oppgaver
– Samtidig som Twitter er full av entusiasme, kunne vi ikke finne mange detaljerte beskrivelser av folk som faktisk brukte Devin. Så vi bestemte oss for å teste den på et bredt utvalg av ekte oppgaver, skriver Hamel Husain, Isaac Flath og Johno Whitaker i rapporten sin.
Etter en måned med testing på 20 oppgaver, endte de med følgende resultat:
- 14 ble ikke utført.
- 3 ble delvis utført.
- 3 ble utført.

– Hvis Devin kan erstatte deg, er du ikke utvikler
– Når det virka, var det imponerende. Men det er problemet; det virka sjeldent, skriver forskerne, som ikke klarte å finne noen klart mønster i hva Devin faktisk klarte, heller:
– Den autonome naturen, som virka lovende, endte derfor opp som en belastning. Devin kunne bruke dagesvis på å forfølge umulige løsninger, i stedet for å innse sine fundamentale hindringer.
Du kan lese mer detaljer om hvor den satt seg fast, hva den faktisk klarte og hvor mye de sleit med overdreven kompleks kode og hallusinering i rapporten.
Problemer ligger i styring
Bare så det er klart: Forskerne påstår på ingen måte at ikke AI har noe å gjøre i verktøybeltet til utviklere. Snarere tvert i mot.
Men det er nettopp autonomien, altså at produkter som Devin lover deg at du ikke trenger å gjøre noe som helst, de mener ikke fungerer. Ennå.
– Så vi holder oss til verktøy som lar oss drive utviklingsprosessen, men gir oss AI-assistanse på veien, skriver de.
Og mange utviklere tar dermed et lettelsens sukk, for at de ikke blir erstatta av en AI til 500 dollar i måneden riktig ennå. Rapporten går blant annet sin seiersgang på Reddit.
– AI vil erstatte sjefer og mellomledere før den erstatter de som faktisk gjør en jobb, skriver én.
