Nasjonal­biblioteket nekter å trene AI, men det vil Store norske leksikon

Nasjonalbiblioteket vil beskytte opphavsrett, mens Store norske leksikon vil at AI skal få kvalitetsinnhold.

Trond Myklebust, avdelingsdirektør for Nasjonalbibliotekets digitale formidling. forteller at de allerede har beskyttelse mot skraping, selv om robots.txt-filen ikke ser sånn ut. 📸: Nasjonalbiblioteket
Trond Myklebust, avdelingsdirektør for Nasjonalbibliotekets digitale formidling. forteller at de allerede har beskyttelse mot skraping, selv om robots.txt-filen ikke ser sånn ut. 📸: Nasjonalbiblioteket Vis mer

Onsdag gjorde VG.no en endring som skal hindre AI-aktører fra å bruke VGs data til trening av store språkmodeller. Dette gjorde utviklerne i avisen ved å endre VG.nos robots.txt, som styrer hvilke webcrawlere som får lov til å skrape nettsida deres for informasjon, skrev kode24 i går.

Vi har kontaktet Store norske leksikon og Nasjonalbiblioteket, som begge kan være en potensiell gullgruve for datasanking til trening av store språkmodeller.

De har valgt totalt ulike strategier: Der Nasjonalbiblioteket stenger døra for å beskytte åndsverket, mener Store norske leksikon at det er bra om modellene også bruker faglig kvalitetssikret kunnskap.

Allerede stengt døra

Trond Myklebust, direktør for digital formidling i Nasjonalbiblioteket, forteller at de allerede har beskyttelse mot skraping, selv om robots.txt-filen ikke ser sånn ut.

- Du får ikke tilgang til innhold i bøker, aviser og andre ting i nettbiblioteket. Vi gjør dette bevisst for å beskytte åndsverket til ting som ligger inne. Selv om vi i dagens bokhylleavtale kan eksponere teksten, har vi valgt å ikke gjøre det, sier han til kode24.

Ifølge Myklebust handler dette om at Nasjonalbiblioteket har sitt mandat som ikke skal gå på tvers av noe som har med opphavsrett å gjøre.

- Vi forholder oss til regler om åndsverkslov, sier han.

Myklebust legger til at Nasjonalbiblioteket har alle bøker som er gitt ut i Norge.

- Hvis vi hadde brutt loven kunne vi blitt verdens beste pirat-bibliotektjeneste. Men det er grunnleggende at vi forholder oss til lover om åndsverk og opphavsrett for å ta vare på norsk litteratur og norske forfattere, sier han.

Kan inndrive data selv

Nasjonalbibliotekets AI-lab utvikler selv språkmodeller, som blant annet kan forstå norske dialekter.

- Nasjonalbiblioteket har et språkmandat og skal være en ressurs for forskning og utdanning. Det handler blant annet om å tilgjengeliggjøre datasettsett for å ta vare på språket.

Biblioteket har egne hjemler i åndsverksloven når formålet er forskning og dokumentasjon, og kan med støtte i loven inndrive materiale fra aviser og andre.

- Men vi ønsker å være transparente og skriver sånne ting inn i avtaler som vi har med for eksempel aviser, sier Myklebust.

- Er dere bekymret for måten datasankingen foregår og har foregått frem til nå?

- Vi må passe på oss selv og at vi gjør det riktige når det gjelder opphavsrett. I den grad datasamlingen har brutt opphavsretten, er det ikke noe vi synes noe om. Men jeg kan ikke uttale meg så mye om hva andre gjør, sier han.

Hallusinerer for mye

Erik Bolstad, sjefsredaktør i Store norske leksikon (SNL), sier at de ikke har tatt stilling til om de skal blokkere AI-modeller eller ikke.

- Flere AI-modeller har fått lov til å bruke innhold fra oss. Vi har sagt ja til flere fordi vi ser at det er bra om disse modellene også bruker faglig, kvalitetssikret kunnskap, sier Bolstad til kode24.

Han legger til at SNL også har eksperimentert med å lage sin egen versjon av ChatGPT til intern og ekstern bruk.

- Foreløpig har vi ikke klart å få høy nok kvalitet til at det er mulig å lansere - de fleste AI-modellene i dag hallusinerer for mye til at vi har lyst til å stå som avsender.