Reagerer på «ukritisk entusiasme» for AI laga med «sosial dumping og stjålne data»

- Lov å la seg fascinere, men vi må være kritiske, oppfordrer Nils Norman Haukås.

ChatGPT har tatt verden og verdens utviklere med storm, men vi bør være kritiske til hvordan slik teknologi lages, mener Nils Norman Haukås. 📸: Silje Løvli Lorentsen / Ole Petter Baugerød Stokke
ChatGPT har tatt verden og verdens utviklere med storm, men vi bør være kritiske til hvordan slik teknologi lages, mener Nils Norman Haukås. 📸: Silje Løvli Lorentsen / Ole Petter Baugerød Stokke Vis mer

Språkmaskinar som ChatGPT og Copilot bør inspirere ei ny bølge med meir etiske alternativ.

Eg har, som mange andre utviklarar, latt meg imponere av språkmaskinar som ChatGPT frå OpenAI og Copilot frå Github. Dette er utvilsomt nyttige verktøy.

Men samstundes meiner eg at det er aspekter ved akkurat desse produkta som det er viktig å vere kritisk til.

«Kor dette arbeidet no foregår og under kva for arbeidsforhold, ønsker ikkje selskapet å dele.»

Sosial dumping

I januar publiserte The Times ein artikkel som avslørte korleis OpenAI outsourcet arbeid til selskapet Sama i Kenya, der dataanalytikarar fekk mindre enn 2$ i timen for å lese og klassifisere tekst.

“One Sama worker tasked with reading and labeling text for OpenAI told TIME he suffered from recurring visions after reading a graphic description of a man having sex with a dog in the presence of a young child. “That was torture,” he said. “You will read a number of statements like that all through the week. By the time it gets to Friday, you are disturbed from thinking through that picture.” The work’s traumatic nature eventually led Sama to cancel all its work for OpenAI in February 2022, eight months earlier than planned.”
(The Times, 18. januar)

Behovet for å vaske datasett for uønska innhald har ikkje forsvunne sjølv om OpenAI har avslutta samarbeidet sitt med Sama. Kor dette arbeidet no foregår og under kva for arbeidsforhold, ønsker ikkje selskapet å dele.

GDPR

I 2020 konkluderte Schrems-II dommen, at personvern ikkje kunne garanteres ved overføring av data til amerikanske leverandørar. Grunngjevinga er at amerikanske etterretningslover gir staten vide tøyler til å innhente data frå amerikanske selskap samt eventuelle datterselskap i utlandet. Seinast no i mars uttalte Datatilsynet, at Helse Sør-Øst burde vente med å lagre pasientdata hos Microsoft, før ein avtale som kan garantere personvern er på plass (kjelde).

ChatGPT og Copilot er foreløpig avhengige av å kunne kalle på API-er hos henholdsvis OpenAI og Github. Vidare er dei avhengige av at me mater dei med informasjon som potensielt kan vere personsensitiv.

I ljos av GDPR så kan me bestemme oss for å aldri dele personsensitive data i AI-prompts som blir sendt til eksterne API, men kor lett er det i praksis? Over tid kan ein tenkje seg at API-avhengige språkmaskinar blir så tett integrert med våre øvrige utviklarverktøy, at det vil bli vanskeleg å forhindre at personsensitive data kjem på avveie.

Sjølvsagt, her kan ein også argumentere for, at det å putte koden sin på Github gir amerikansk etteretning gode høve til å få innsyn.

«Like utruleg er det at me som bransje ser ut til å stilltiande akseptere dette.»

Åndsverk

Tilgang på store mengder treningsdata er ein kritisk komponent om ein skal byggje språkmaskinar som ChatGPT og Copilot. Per no er lovgivinga uklar rundt bruk av åndsverk til opptrening av AI, og difor har OpenAI og Github valgt å tolke åndsverksloven så langt til sin fordel at dei ender opp med å ignorere den fullstendig.

Om ein slik rovdrift på data eigentleg er lovleg, får me først fastslått når søksmål som Github Copilot Litigation blir prøvd i retten. Dette søksmålet blir leda av utviklar og advokat Matthew Butterick og du kan lese meir om bakgrunnen for søksmålet her (kjelde). Butterick står også bak eit liknande søksmål mot selskapa Midjourney, DeviantArt og Stability AI (kjelde).

For meg som er ein utviklar som likar å dele kode under åpne lisenser, er det heilt utruleg at selskap som Github, og dens eigar Microsoft, kan definere seg vekk frå å fylgje loven når det passar dei. Like utruleg er det at me som bransje ser ut til å stilltiande akseptere dette.

På den eine sida har me no utviklarar som blir utbrent eller pengelens av å ivareta åpen kjeldekode som selskap profitterar på. Og på den andre sida har me Microsoft som driv aggressiv skatteoptimalisering via skatteparadis, for å unngå å betale mange milliardar dollar i skatt som kunne kome felleskapet til gode (ProPublica, 2020).

Behovet for etisk AI

Copilot og ChatGPT har bevist for verda at språkmaskinar er nyttige. Samanlikna med konkurrentane, ser dei ut til å vere eit hestehode foran. Men det er gjerne ikkje så rart om selskapa bak gjerne tyr til sosial dumping eller stjeling av åndsverk for å vinne fram.

"It is indeed time to act: but the focus of our concern should not be imaginary "powerful digital minds." Instead, we should focus on the very real and very present exploitative practices of the companies claiming to build them, who are rapidly centralizing power and increasing social inequities."
(DAIR, 2023)

I dag finst det få eller ingen døme på etiske språkmaskinar, men det kan fort endre seg om me vel å vie merksemd og ressurser til dette. Den ideelle organisasjonen Mozilla satsa nyleg 30 millionar dollar på mozilla.ai, og eg trur det fort kan kome fleire slike satsingar om språkmaskinane til OpenAI og Github møter tilstrekkeleg med motbør.

Avslutningsvis vil eg berre seie, at det er lov å la seg fasinere av potensialet i språkmaskinar, og så vil eg gjerne oppmode min eigen IT-bransje om å vere kresne med kva for språkmaskinar me vel å satse på. Storsamfunnet vil sjå til IT-bransjen for hjelp til å navigere dette nye landskapet, og då bør me kunne tilby sindige råd og ikkje berre ukritisk entusiasme.

Takk til Bendik Solevåg og Jonas Johan Solsvik for innspel til dette innlegget