KI-trøbbel for åpen kildekode: – Folk forstår ikke all koden

Noen mener KI-skapt lisenskaos blir døden for FOSS-prosjekter. Arch Linux-bidragsyter Morten Linderud tror andre KI-problemer er større.

Arch Linux-bidragsyter og NRK-utvikler Morten Linderud, også kjent som Foxboron, er usikker på nøyaktig hvilken effekt KI-generert kode vil ha på fri og åpen programvare – mens andre mener det er krise.
Publisert

Hva slags innvirkning kunstig intelligens (KI) vil ha på fri programvare og åpen kildekode, ofte forkorta FOSS, har vært en debatt siden de store språkmodellene (LLM-er) for alvor begynte å kode. 

  • På den ene siden kan raskere produksjon av kode bety raskere utvikling av prosjekter. På den andre siden har KI-generert kode og feilrapporter skapt hodebry for enkelte prosjekter, både på grunn av stor mengde og lav kvalitet.
  • I tillegg kommer spørsmålet om etikken rundt språkmodeller trent på din kode, uten å betale, som deretter selges tilbake til deg. 
  • For ikke å snakke om jussen rundt KI-generert kode – for hvem eier den, og hvordan vet vi at den ikke er blåkopiert fra prosjekter med andre lisenser enn det vi skal bidra til? 

Denne uka har debatten blusset opp igjen, etter et Zdnet-intervju med Sean O'Brien, grunnleggeren av Yale Privacy Lab på Yale Law School, under overskriften «Hvorfor åpen kildekode kanskje ikke overlever generativ KI». 

Men den norske Arch Linux-bidragsyteren og NRK-utvikleren Morten Linderud, også kjent som Foxboron, er usikker på om det er riktig ille. 

I alle fall ikke ennå.

"License amnesia"

O'Brien på Yale mener det er helt essensielt at hver linje kode i et FOSS-prosjekt kan spores tilbake til bidragsyteren. 

– Men når generative KI-systemer fordøyer tusenvis av FOSS-prosjekter og gulper opp fragmenter uten noen klar opprinnelse, kollapser dette, sier han til Zdnet. 

Dessuten er han redd for at kodesnutter blåkopieres av KI-en, som stammer fra prosjekter med helt andre lisenser enn prosjektet man skal bidra til har. Potensielt kopibeskyttet kode. 

– Dermed forurenses kodebaser med materiale som utviklere ikke realistisk sett kan revidere eller lisensiere ordentlig, sier O'brien. 

Han mener dette skaper en farlig situasjon, som han kaller "license amnesia" – "lisens-hukommelsestap". Og resultatet frykter han blir et kaos som kan ødelegge for hele FOSS-konseptet. 

På én side så er det absolutt et potensiale for at mer fri og åpen kildekode kan skrives.

Usikker på verdien

Morten Linderud har bidratt til fri programvare og åpen kildekode i rundt 13 år. Siden 2016 har han vært mest aktiv inn mot Linux-distrubisjonen Arch Linux, men han har også gitt ut flere egne FOSS-prosjekter. 

– Når det kommer til LLM-er, så forholder meg egentlig veldig lite til det. Det eksisterer, og noen folk jeg kjenner bruker det. Personlig har jeg prøvd å ignorere alt som har med dette å gjøre, og all eksponering har, så langt, vært ufrivillig, sier Linderud til kode24. 

– Og jeg har ennå ikke fått åpenbare kodebidrag som har vært LLM-generert, enn så lenge!

– Hva tenker du selv om hvordan LLM-er påvirker FOSS? 

– Jeg er usikker. På én side så er det absolutt et potensiale for at mer fri og åpen kildekode kan skrives. På den andre siden så har man selskaper på toppen som driver storstilt skraping av nettsider for å trene LLM-modellene, svarer Linderud, som selv har opplevd hvordan skrapingen har skapt problemer for nettsider rundt Arch-prosjektet hans. 

Hvitvasking eller frigjøring?

Linderud er spesielt opptatt av problemstillingen som oppstår når KI-selskapene trener modellene på vår kode, uten å betale for seg, for så å selge modellene tilbake til oss.

– Enten står vi ovenfor den største hvitvaskingen av åndsverk i historien, eller står vi for den største frigjøringen av kildekode i historien, som han sier. 

– Parallelt går diskusjonen om hvorvidt koden LLM-er som Copilot produserer er omfattet av det å være et derivatverk.

Han anbefaler en artikkel skrevet av Felix Reda, tidligere EU-parlamentariker for Piratpartiet i Tyskland og nå Microsoft Github-ansatt. Der ser han for seg hvordan selskaper for eksempel kan generere uendelige mengder musikk, for så å bruke denne katalogen til å slå ned på all ny musikk som tilfeldigvis måtte likne. 

– Om koden til LLM-er er kopibeskyttet, så ender dette opp i et potensielt kaninhull hvor man kan masseprodusere åndsverk man kan ta patent på eller gå til søksmål på. Gagner dette oss? Jeg er usikker på hva som er rett svar her, og jeg tror det blir spennende å følge hvordan EU sin lovgivning på området ender opp.

Kan spytte ut blåkopier

Tilbake til hovedpoenget: Om KI-generert kode ødelegger for FOSS-prosjekter. 

Når en bidragsyter leverer kode til blant annet Linux-prosjektet, signerer utvikleren den med en "Developer Certificate of Origin". Utvikleren får dermed til dels både ansvar og eierskap over koden. 

Uansett om koden er skrevet av språkmodeller eller mennesker.

– Men problemet oppstår heller når man får ut kode man ikke er klar over er blåkopier. Et av de populære eksemplene er "fast inverse square root"-koden fra Quake, som Copilot spyttet ut. Med feil lisens, til og med! sier Linderud. 

Her ser du hvordan: 

Kode fra folk som ikke forstår den

– Jeg tror et større problem med LLM-er er at folk ikke forstår all kode som lages. Det blir lett å dytte ut mange hundre linjer kode som ser korrekt ut, men om du selv ikke forstår det som blir gitt til et FOSS prosjekt, hva slags mulighet har du til å kunne bidra til et prosjekt med koden? spør "Foxboron".

Blant annet har kode24 tidligere fortalt hvordan skaperen av curl plages av voldsomme mengder KI-genererte feilrapporter, som ikke holder god nok kvalitet.

– All byrden med å gjennomgå koden er jo vedlikeholder sitt ansvar, sier Linderud. 

– Vedlikeholdere får tusenvis av linjer med kode som ikke gir mening, som man må forkaste. Så hvor mye av dette er vi, som utviklere og brukere av FOSS, villige til å bytte ut mot bekvemmeligheten LLM-er gir oss?

Powered by Labrador CMS