Vurderer gruppesøksmål mot GitHub Copilot - for har egentlig Microsoft lov til å bruke koden din?

- Som Neo koblet til Matrix, eller en ku på en gård, ønsker Copilot å gjøre oss til produsenter av en ressurs.

GitHub Copilot står overfor et potensielt søksmål. 📸: Ole Petter Baugerød Stokke
GitHub Copilot står overfor et potensielt søksmål. 📸: Ole Petter Baugerød Stokke Vis mer

Nå undersøker åpen kildekode-utviklere mulighetene for et potensielt gruppesøksmål mot Microsoft, som eier GitHub, etter at selskapet brukte deres offentlig tilgjengelige kode for å trene opp Copilot, melder Vice.

Bak det potensielle søksmålet mot GitHub Copilot står utvikleren og advokaten Matthew Butterick. Han har lansert en nettside der han skriver at bakgrunnen for søksmålet er Copilots "brudd på dets juridiske plikter overfor forfattere og sluttbrukere av åpen kildekode."

Også norske utviklere er kritiske til Copilot.

- Enhver løsning som ikke kan respektere vilkårene for grunnlaget det er bygd på, være seg en maskinlæringsmodell eller noe annet, bør ikke ha livets rett, uansett hvor "kult" det er, skriver Michael Odden, utvikler i Miocon, i kode24-klubben.

Trent på offentlige arkiver

Som kode24 tidligere har skrevet, er GitHub Copilot selskapets tillegg i editoren for å la en en kunstig intelligens foreslå kode for deg. Skriver du for eksempel en kommentar om at du vil ha et tilfeldig tall mellom 0 og 10, kan Copilot foreslå koden som gir deg nettopp dette.

Copilot er basert på Open AIs nevrale nettverk Codex, og er opplært på kode fra GitHub og data skrapet fra repoer på det åpne nettet. Microsoft mener at dette er et eksempel på "transformativ rettferdig bruk".

Skrapingen har ikke vist seg å være uproblematisk fra et sikkerhetsståsted. Forskerne bak en studie i 2021 mente at man måtte ta høyde for alt fra småfeil til store feil som kan føre til sikkerhetsbrudd og angrep.

Dokumentert kopier av egen kode

Ifølge Vice har enkelte utviklere oppdaget at Copilot ser ut til å kopiere deres egen kode i AI-programvarens utdata.

Åpen kildekode-utviklere på Twitter har dokumentert eksempler der programvaren spytter ut linjer med kode som er slående lik de i utviklernes egne repoer.

Samsvarer ikke med treningsdata

Ifølge Vice har GitHub sagt at treningsdata hentet fra offentlige repoer "ikke er ment å bli inkludert ordrett i Codex-utdata". Selskapet hevder videre at flertallet av utdata ikke samsvarer med treningsdata.

Microsoft plasserer hovedsakelig det juridiske ansvaret på sluttbrukeren for å sikre at koden Copilot produserer ikke bryter rettighetslovgivning, skriver nettavisen.

Butterick mener at dette bare er et røykteppe og at Copilot i praksis fungerer som et "egoistisk grensesnitt", som kaprer ekspertisen fra åpen kildekode-samfunn uten å gi noe tilbake.

- Som Neo koblet til Matrix, eller en ku på en gård, ønsker Copilot å gjøre oss om til ikke annet enn produsenter av en ressurs som skal utvinnes, skriver Butterick på nettsiden.

Vice har ikke klart å få en kommentar fra verken GitHub eller Microsoft.

Avhenger av mengden kode

I kode24-klubben skriver Morten Punnerud-Engelstad at en viktig faktor er hvor mye kopi det er ved Copilots gjenbruk av kode.

- Hvis du som utvikler har lært et triks på tre til fire linjer kode, fra et prosjekt med 30.000 kodelinjer, er det da copyrighta eller ikke? Det ville vel antagelig falle innunder "fair use", og ikke trenge referanse, skriver han.

Han tror det samme gjelder for Copilot.

- Det avhenger av hvor stor andel som er kopiert fra et gitt prosjekt.