– Gode grunner til å utvikle norske modeller, ikke minst suverenitet

Nasjonalbiblioteket planlegger å lansere deres første serie med Borealis-modeller i slutten av april. Avdelingsdirektør Wilfred Østgulen forteller mer om bakgrunnen.

Wilfred Østgulen, avdelingsdirektør for IT ved Nasjonalbiblioteket.Foto: Gorm K. Gaare/Nasjonalbiblioteket

📷: Gorm K. Gaare / Nasjonalbiblioteket

Wilfred Østgulen Wilfred Østgulen IT-direktør i Nasjonalbiblioteket

Publisert 14.04.2026 - 08:00

✍ leserinnlegg

Dette er et leserinnlegg fra en ekstern skribent, som betyr at innholdet ikke nødvendigvis speiler kode24s meninger. Vil du også bidra? Send oss en epost på [email protected], eller les mer her!

Vi får ofte spørsmål om hva små, norske språkmodeller kan brukes til - hvordan kan de konkurrere med de store modellene fra de store AI-labene?

Bakgrunn

Nasjonalbiblioteket utvikler Borealis, en serie åpne språkmodeller som skal styrke norsk og samisk i kunstig intelligens.

Modellene trenes på Norges digitale kulturarv og innrettes i tråd med norske verdier og væremåte. Modellene er en videretrening av Google sine Gemma-modeller, de lanseres i flere størrelser med åpen lisens og de kan fintrenes og driftes på egen infrastruktur.

Et vanlig spørsmål er hva slike språkmodeller kan brukes til, siden de er mye mindre enn de store modellene fra OpenAI, Anthropic, Google og Meta som vi bruker til daglig? Svaret er at små, spesialiserte språkmodeller har en rekke styrker som gjør dem svært godt egnet for mange praktiske oppgaver.

Nasjonalbiblioteket på Solli plass i Oslo.

Strukturerte språkoppgaver

Små språkmodeller presterer ofte på høyde med eller bedre enn, store modeller på avgrensede språkoppgaver der treningsdata kan skreddersys.

Typiske oppgaver:

Tekstklassifisering og kategorisering.
Navngitt entitetsgjenkjenning (NER) for norske person-, steds- og organisasjonsnavn.
Sentimentanalyse tilpasset norsk språkbruk og kontekst.
Oppsummering og uttrekk av nøkkelinformasjon.
Oversettelse, særlig mellom bokmål, nynorsk og etterhvert samiske språk.

Betaler 45 millioner kroner i året for å trene modell på innholdet

Nasjonalbiblioteket skal lage språkmodeller som er trent på avisinnhold. Kostnaden er på 45 millioner kroner per år.

Domenespesifikke fagsystemer

En av de viktigste anvendelsene er å fintrene Borealis-modellene for spesifikke fagområder. En Borealis-modell som er videretrent på domenespesifikk tekst kan bli svært god på sitt område:

Juridisk språkforståelse: tolkning av lover, forskrifter og rettsavgjørelser.
Medisinsk og helsefaglig tekst: klinisk dokumentasjon, pasientjournaler, legemiddelinformasjon.
Offentlig forvaltning: saksbehandlingsstøtte, automatisk kategorisering av henvendelser, tilsynsrapporter.
Finans: analyse av årsrapporter, risikodokumentasjon og tilsynsbrev på norskTeknisk dokumentasjon: automatisk vedlikehold av håndbøker, standarder og prosedyrer.

Digital suverenitet og personvern

For mange virksomheter er det avgjørende at data ikke forlater egen infrastruktur eller norsk jurisdiksjon. Små språkmodeller som kjøres lokalt gjør dette mulig.

Helsesektoren: behandling av pasientdata uten at informasjon sendes til utenlandske skytjenester.
Forsvar og sikkerhet: klassifisert og sikkerhetsgradert informasjonsbehandling
Rettsvesenet: analyse av saksdokumenter med strenge personvernkrav.
Offentlig forvaltning: etterlevelse av Schrems II, GDPR og nasjonale sikkerhetskrav.
Kritisk infrastruktur: språkmodeller som fungerer uten internettilgang.

Oljefondet er avhengig av amerikanske tek-selskaper

Mens debatten om digital suverenitet pågår, tjener Oljefondet på at amerikanske teknologiselskap gjør det bra. Lite å investere i i Europa, påpeker Tangen.

Kostnadseffektivitet og høyvolumoppgaver

Små modeller har vesentlig lavere driftskostnader og lavere latens enn store språkmodeller. Dette gjør dem velegnet for:

Prosessering av store dokumentmengder – automatisk tagging og metadata-generering for millioner av dokumenter.
Sanntids chatboter og kundeservice på norsk med lav responstid.
Innebygd i produkter og tjenester der API-kall til store modeller blir for dyrt eller for tregt.
Batch-prosessering av arkivmateriale, e-post eller andre store tekstsamlinger.

Komponent i større KI-systemer

Moderne KI-baserte løsninger bruker ofte flere modeller i samspill. Små språkmodeller fyller viktige roller i slike systemer.

RAG-pipelines: spørsmålsomskriving, reranking og svarvalidering på norsk.
Agentsystemer: ruting av forespørsler, verktøyvalg og enkel resonnering.
Kvalitetssikring: evaluering og filtrering av output fra større modeller.
God norsk: sørge for at teksten som genereres er god norsk og klart språk, både nynorsk og bokmål.
Sammendragslaget i flertrinns-pipelines der hastighet er kritisk.

Bokbransjen er bekymret for KI-bruk hos forlag

Flere norske forlag bekrefter at de har begynt å bruke kunstig intelligens (KI) i utgivelsen av bøker. Bokbransjen er bekymret for utviklingen.

Kulturarv og Nasjonalbibliotekets samlinger

For Nasjonalbiblioteket vil bruk av Borealis-modellene på den digitale samlingen gi mange spennende muligheter.

Forbedret søk og gjenfinning i digitaliserte samlinger
Automatisk transkribering og OCR-etterbehandling av historisk norsk tekst
Metadata-generering: automatisk emneord, sjanger og periodisering
Tilgjengeliggjøring: forenklet tilgang til eldre språkformer gjennom oversettelse og forklaring
Analyse av store tekstkorpus: trendanalyse, tematisk kartlegging og språkutvikling over tid

Ja, en svært stor del av Nasjonalbibliotekets fysiske samling er plassert og blir digitalisert i fjellhallene i Mo i Rana.

Utdanning og forskning

Åpne språkmodeller med norsk språkkompetanse gir unike muligheter for akademia.

Forskere kan eksperimentere med og inspisere modellene fullt ut, uten skykostnader.
Studenter får tilgang til modeller de kan modifisere som del av undervisningen.
Språkforskere får verktøy for å studere norsk språkstruktur, dialekter og språkutvikling.
Reproduserbar forskning – åpne vekter og dokumenterte treningsdata gir transparens.

IT-topper om IT-studier: – Etterspørselen er fortsatt svært høy

Onsdag er det frist for å søke høyere utdanning. – Vi kommer til å trenge flere som tar ansvar for hvordan teknologi faktisk brukes.

Edge-distribusjon og lokal kjøring

De minste modellene i Borealis-serien kan kjøres på vanlig maskinvare, noe som åpner for nye distribusjonsformer:

Kjøring på bærbare datamaskiner, arbeidsstasjoner og mobiltelefoner uten GPU-klynger.
Distribusjon til felt- og beredskapspersonell uten stabil nettforbindelse.
Innebygd i IoT- og industrielle systemer med norsk språkgrensesnitt.
Mobilapplikasjoner med lokal språkbehandling.

Energiforbruk og bærekraft

Store språkmodeller krever enorme mengder regnekraft både under trening og ved inferens. Små, spesialiserte modeller har et vesentlig lavere energifotavtrykk, noe som gjør dem til et mer bærekraftig alternativ for mange oppgaver.

Dramatisk lavere energiforbruk per forespørsel – en 7B-modell bruker en brøkdel av energien til en modell med flere hundre milliarder parametere.

Kan kjøres på energieffektiv maskinvare uten behov for store GPU-klynger.
Lokale modeller fjerner energikostnaden ved datatransport til og fra store skydatasentre i utlandet.
Godt egnet for norsk infrastruktur med tilgang på fornybar energi – modellene kan trenes og driftes med lavt karbonavtrykk.
I en tid der det globale energiforbruket til KI-trening og -inferens vokser raskt, representerer små og målrettede modeller et mer ansvarlig valg, særlig når oppgaven ikke krever en generell frontier-modell.

Oppsummering

Små, spesialiserte språkmodeller som Borealis-modellene er ikke ment å erstatte de store kommersielle frontier-modellene.

De små språkmodellene fyller en annen og komplementær rolle, de gir norske virksomheter tilgang til språkteknologi som kan skreddersys, kjøres lokalt, kontrolleres fullt ut, og driftes kostnadseffektivt. For mange praktiske oppgaver kan en liten, spesialisert språkmodell være det beste valget.

Innlegget ble først publisert på LinkedIn.

Foretrekk oss i Google Discover

Ved å legge oss til som foretrukket kilde i Google vil du blant annet få opp flere av sakene våre i Google Discover. Tusen takk for støtten!

Foretrekk oss 😻

– Gode grunner til å utvikle norske modeller, ikke minst suverenitet

✍ leserinnlegg

Bakgrunn

Strukturerte språkoppgaver

Betaler 45 millioner kroner i året for å trene modell på innholdet

Domenespesifikke fagsystemer

Digital suverenitet og personvern

Oljefondet er avhengig av amerikanske tek-selskaper

Kostnadseffektivitet og høyvolumoppgaver

Komponent i større KI-systemer

Bokbransjen er bekymret for KI-bruk hos forlag

Kulturarv og Nasjonalbibliotekets samlinger

Utdanning og forskning

IT-topper om IT-studier: – Etterspørselen er fortsatt svært høy

Edge-distribusjon og lokal kjøring

Energiforbruk og bærekraft

Oppsummering

Foretrekk oss i Google Discover

Brukte kreativiteten for å ro alt i land 🚣🏼

Slik løste de Altinn 3-overgangen

Sakte, men sikkert mot Next.js 16.3

KI-søk kan true Wikipedias modell

– I strid med EUs regler

Helseminister: – Ikke nødvendig med smart-brilleregler

Uløst problem

🔥 Mest lest denne uka:

Skaper overskrifter i USA – klippet er falskt

Microsoft sier opp 4800 ansatte

– Jeg bygger en profil som foreløpig er sjelden i det norske markedet

Vanskeligste problemet innen robotikk

– Fotball har flere mulige utfall enn det finnes atomer i universet

Økokrim frykter datasentre brukes til hvitvasking

Skatteetaten advarer mot epost-svindel

Skaper overskrifter i USA

Apple tapte i EU-domstolen

– Mer enn bare rekruttering

Forlater OpenAI etter ni år

Kapret jobb i Bouvet

150 millioner datapunkter per kamp

Sterk KI-advarsel

Norske bøker brukes til å trene KI – vekker bekymring

Tæppingen eksploderte

Sier opp

– Felles ansvar for at teamet fungerer

– Jeg bygger en profil som foreløpig er sjelden i det norske markedet

Kvalitetssikre KI-innhold: – Mentalt krevende

Lager KI-språket: Sema

Avslører strømforbruket

Enorm pågang

Skeptisk til Rødts KI-brems

Gjenskaper stemmen

– Kan bli svært problematisk

Slik løste de

Altinn 3-overgangen

Skaper overskrifter
i USA

150 millioner datapunkter
per kamp