– Gode grunner til å utvikle norske modeller, ikke minst suverenitet

Nasjonalbiblioteket planlegger å lansere deres første serie med Borealis-modeller i slutten av april. Avdelingsdirektør Wilfred Østgulen forteller mer om bakgrunnen. 

Wilfred Østgulen, avdelingsdirektør for IT ved Nasjonalbiblioteket.Foto: Gorm K. Gaare/Nasjonalbiblioteket
Publisert

✍ leserinnlegg

Dette er et leserinnlegg fra en ekstern skribent, som betyr at innholdet ikke nødvendigvis speiler kode24s meninger. Vil du også bidra? Send oss en epost på [email protected], eller les mer her!

Vi får ofte spørsmål om hva små, norske språkmodeller kan brukes til - hvordan kan de konkurrere med de store modellene fra de store AI-labene?

Bakgrunn

Nasjonalbiblioteket utvikler Borealis, en serie åpne språkmodeller som skal styrke norsk og samisk i kunstig intelligens.

Modellene trenes på Norges digitale kulturarv og innrettes i tråd med norske verdier og væremåte. Modellene er en videretrening av Google sine Gemma-modeller, de lanseres i flere størrelser med åpen lisens og de kan fintrenes og driftes på egen infrastruktur.

Et vanlig spørsmål er hva slike språkmodeller kan brukes til, siden de er mye mindre enn de store modellene fra OpenAI, Anthropic, Google og Meta som vi bruker til daglig? Svaret er at små, spesialiserte språkmodeller har en rekke styrker som gjør dem svært godt egnet for mange praktiske oppgaver.

Nasjonalbiblioteket på Solli plass i Oslo.

Strukturerte språkoppgaver

Små språkmodeller presterer ofte på høyde med eller bedre enn, store modeller på avgrensede språkoppgaver der treningsdata kan skreddersys. 

Typiske oppgaver:

  • Tekstklassifisering og kategorisering.
  • Navngitt entitetsgjenkjenning (NER) for norske person-, steds- og organisasjonsnavn.
  • Sentimentanalyse tilpasset norsk språkbruk og kontekst.
  • Oppsummering og uttrekk av nøkkelinformasjon.
  • Oversettelse, særlig mellom bokmål, nynorsk og etterhvert samiske språk.

Domenespesifikke fagsystemer

En av de viktigste anvendelsene er å fintrene Borealis-modellene for spesifikke fagområder. En Borealis-modell som er videretrent på domenespesifikk tekst kan bli svært god på sitt område:

  • Juridisk språkforståelse: tolkning av lover, forskrifter og rettsavgjørelser.
  • Medisinsk og helsefaglig tekst: klinisk dokumentasjon, pasientjournaler, legemiddelinformasjon.
  • Offentlig forvaltning: saksbehandlingsstøtte, automatisk kategorisering av henvendelser, tilsynsrapporter.
  • Finans: analyse av årsrapporter, risikodokumentasjon og tilsynsbrev på norskTeknisk dokumentasjon: automatisk vedlikehold av håndbøker, standarder og prosedyrer.

Digital suverenitet og personvern

For mange virksomheter er det avgjørende at data ikke forlater egen infrastruktur eller norsk jurisdiksjon. Små språkmodeller som kjøres lokalt gjør dette mulig.

  • Helsesektoren: behandling av pasientdata uten at informasjon sendes til utenlandske skytjenester.
  • Forsvar og sikkerhet: klassifisert og sikkerhetsgradert informasjonsbehandling
  • Rettsvesenet: analyse av saksdokumenter med strenge personvernkrav.
  • Offentlig forvaltning: etterlevelse av Schrems II, GDPR og nasjonale sikkerhetskrav.
  • Kritisk infrastruktur: språkmodeller som fungerer uten internettilgang.

Kostnadseffektivitet og høyvolumoppgaver

Små modeller har vesentlig lavere driftskostnader og lavere latens enn store språkmodeller. Dette gjør dem velegnet for:

  • Prosessering av store dokumentmengder – automatisk tagging og metadata-generering for millioner av dokumenter.
  • Sanntids chatboter og kundeservice på norsk med lav responstid.
  • Innebygd i produkter og tjenester der API-kall til store modeller blir for dyrt eller for tregt.
  • Batch-prosessering av arkivmateriale, e-post eller andre store tekstsamlinger.

Komponent i større KI-systemer

Moderne KI-baserte løsninger bruker ofte flere modeller i samspill. Små språkmodeller fyller viktige roller i slike systemer.

  • RAG-pipelines: spørsmålsomskriving, reranking og svarvalidering på norsk.
  • Agentsystemer: ruting av forespørsler, verktøyvalg og enkel resonnering.
  • Kvalitetssikring: evaluering og filtrering av output fra større modeller.
  • God norsk: sørge for at teksten som genereres er god norsk og klart språk, både nynorsk og bokmål.
  • Sammendragslaget i flertrinns-pipelines der hastighet er kritisk.

Kulturarv og Nasjonalbibliotekets samlinger

For Nasjonalbiblioteket vil bruk av Borealis-modellene på den digitale samlingen gi mange spennende muligheter.

  • Forbedret søk og gjenfinning i digitaliserte samlinger
  • Automatisk transkribering og OCR-etterbehandling av historisk norsk tekst
  • Metadata-generering: automatisk emneord, sjanger og periodisering
  • Tilgjengeliggjøring: forenklet tilgang til eldre språkformer gjennom oversettelse og forklaring
  • Analyse av store tekstkorpus: trendanalyse, tematisk kartlegging og språkutvikling over tid
Ja, en svært stor del av Nasjonalbibliotekets fysiske samling er plassert og blir digitalisert i fjellhallene i Mo i Rana.

Utdanning og forskning

Åpne språkmodeller med norsk språkkompetanse gir unike muligheter for akademia.

  • Forskere kan eksperimentere med og inspisere modellene fullt ut, uten skykostnader.
  • Studenter får tilgang til modeller de kan modifisere som del av undervisningen.
  • Språkforskere får verktøy for å studere norsk språkstruktur, dialekter og språkutvikling.
  • Reproduserbar forskning – åpne vekter og dokumenterte treningsdata gir transparens.

Edge-distribusjon og lokal kjøring

De minste modellene i Borealis-serien kan kjøres på vanlig maskinvare, noe som åpner for nye distribusjonsformer:

  • Kjøring på bærbare datamaskiner, arbeidsstasjoner og mobiltelefoner uten GPU-klynger.
  • Distribusjon til felt- og beredskapspersonell uten stabil nettforbindelse.
  • Innebygd i IoT- og industrielle systemer med norsk språkgrensesnitt.
  • Mobilapplikasjoner med lokal språkbehandling.

Energiforbruk og bærekraft

Store språkmodeller krever enorme mengder regnekraft både under trening og ved inferens. Små, spesialiserte modeller har et vesentlig lavere energifotavtrykk, noe som gjør dem til et mer bærekraftig alternativ for mange oppgaver.

Dramatisk lavere energiforbruk per forespørsel – en 7B-modell bruker en brøkdel av energien til en modell med flere hundre milliarder parametere.

  • Kan kjøres på energieffektiv maskinvare uten behov for store GPU-klynger.
  • Lokale modeller fjerner energikostnaden ved datatransport til og fra store skydatasentre i utlandet.
  • Godt egnet for norsk infrastruktur med tilgang på fornybar energi – modellene kan trenes og driftes med lavt karbonavtrykk.
  • I en tid der det globale energiforbruket til KI-trening og -inferens vokser raskt, representerer små og målrettede modeller et mer ansvarlig valg, særlig når oppgaven ikke krever en generell frontier-modell.

Oppsummering

Små, spesialiserte språkmodeller som Borealis-modellene er ikke ment å erstatte de store kommersielle frontier-modellene. 

De små språkmodellene fyller en annen og komplementær rolle, de gir norske virksomheter tilgang til språkteknologi som kan skreddersys, kjøres lokalt, kontrolleres fullt ut, og driftes kostnadseffektivt. For mange praktiske oppgaver kan en liten, spesialisert språkmodell være det beste valget.

Innlegget ble først publisert på LinkedIn.

Powered by Labrador CMS