ANNONSØRINNHOLD

SKATTEETATEN
SOMMERPROSJEKT: Ni studenter har i sommer jobbet med Skatteetaten for å lage et rammeverk for hvordan AI kan brukes til å analysere skattedata. Vis mer

Studenter hjelper Skatteetaten med AI

For å håndtere kompleksiteten i skattedata - og bruke dem bedre - har Skatteetaten satt sammen et tverrfaglig team. Ni av dem er sommerstudenter.

- Det er givende å se hvordan man kan finne trender, lage prediktive modeller og lage et produkt som forbedrer skattemeldingsprosessen.

Jon-Mikkel Korsvik (23) er én av i alt ni sommerstudenter i Skatteetatens nye, tverrfaglige team. Sammen med 30 utviklere, økonomer og jurister har studentene vært med på å analysere de enormt store mengdene data som skal til for å gjøre Skattetatens Big Data brukbare i presentasjoner og visualiseringer - og ikke minst: i maskinlæring.

Til sammen er det snakk om over 10 milliarder verdier. Data Wrangling-prosessen er både en spennende og essensiell del av AI-arbeidet.

STUDENTHJELP: For å sjonglere Skatteetatens avanserte Big Data, har de blant andre hyret ni studenter med ingeniør- og IT-bakgrunn.
STUDENTHJELP: For å sjonglere Skatteetatens avanserte Big Data, har de blant andre hyret ni studenter med ingeniør- og IT-bakgrunn. Vis mer
BIG DATA: Skatteetatens enorme mengde data må analyseres og håndteres for å kunne brukes. Nå - og i fremtiden.
BIG DATA: Skatteetatens enorme mengde data må analyseres og håndteres for å kunne brukes. Nå - og i fremtiden. Vis mer

Teamet er mønstret for å hjelpe Skatteetaten med å lage et mini-rammeverk for å bruke AI til å analysere skattedata. Det skal til i en verden der kompetanse innen AI og maskinlæring (ML) blir viktigere og viktigere. Det gjelder ikke minst på et område der sammenhengene er svært kompliserte, og der algoritmene som skal oppdage feil og mangler er nødt til å være veldig sofistikerte.

Målet er å løse Skattetatens samfunnsoppdrag på best mulig måte.

Jon-Mikkel Korsvik studerer til vanlig på sivilingeniørlinjen Data Science ved Norges miljø- og biovitenskapelige universitet (NMBU). Anvendt datavitenskap er hjørnesteinen i læringsutbyttet i utdannelsen, og Korsvik forteller at veldig mye av det han har lært i løpet av studietiden har kommet til nytte i oppdraget for Skatteetaten.

- Prosjektet har gitt meg en større dybde i å designe programmer for å hente ut ønsket data fra datavarehus.

All data som er blitt hentet ut og generert, er blitt lagret i databaser underveis. Både for å ha kontroll på materialet, og for å sikre delbarheten mellom utviklerne. Neste skritt er å bruke dataene til å designe modeller som kan hente ut ny informasjon.

- Vi har jobbet eksperimentelt med hele spekteret av maskinlæring: Unsupervised, semi-supervised og supervised learning, sier Jon-Mikkel Korsvik.

- Vi har både jobbet selvstyrt og i samspill med andre for å kunne teste og ta i bruk forskjellige metoder og modeller innenfor datavitenskap og maskinlæring.

VIKTIG: Jon-Mikkel (f.v.), Khariton og Lars har ikke "bare" hatt en sommerjobb , men har vært med på å løse reelle utfordringer for AS Norge.
VIKTIG: Jon-Mikkel (f.v.), Khariton og Lars har ikke "bare" hatt en sommerjobb , men har vært med på å løse reelle utfordringer for AS Norge. Vis mer

Nye ML-metoder for å henge med

Datasettene som Skatteetaten jobber med er store, med høye dimensjoner. Det gjør det vanskelig å bruke klassisk statistikk for å få et godt innblikk i dem. Derfor har Skattetaten sett i retning av nyere maskinlæringsmetoder for å kunne henge med i den store datarevolusjonen.

En av studentene som har vært med i sommerprosjektet er Khariton Gorbunov (22). Han studerer Computer Science ved Universitetet i Oxford. I Skattetatens prosjekt har han jobbet med dataanalyse og utviklet AI-løsninger.

- Det store stigmaet om arbeidslivet er at man bruker veldig lite av det man lærer på skolebenken. Men det har slett ikke vært tilfellet for meg som sommerstudent hos Skatteetaten, sier Gorbunov.

Modellene teamet har brukt for å utforske den enorme datamengden er blant annet DBScan, Agglomerative Clustering og UMAP. For Skatteetaten betyr det at de kan bruke disse modellene som strategiske hjelpemidler når de skal ta samfunnskritiske avgjørelser som gjelder store befolkningsgrupper.

Skatteetaten må ofte ekstrapolere data for å kunne treffe bedre avgjørelser. Det sier seg nesten selv at dette er tidkrevende, og med konvensjonelle metoder ville det bety en enorm, manuell jobb. Derfor har teamet også fokusert på prediksjonsmodeller både innen klassifisering og regresjon. De brukte algoritmer som XGBoost, Deep Learning, LSTM og Autoencoders.

Eller oversatt til hverdagsspråk: Modeller som gjør at Skatteetaten både kan jobbe mer målrettet - og mer effektivt.

Det er her Khariton Gorbunov mener at stigmaet om arbeidslivet kom til kort i møtet med Skatteetaten. For han og de andre i teamet fikk frie tøyler.

- Jeg fikk friheten til å komme opp og teste ut idéer på ulike modeller både innenfor klassifisering, regresjon og mønstergjenkjenning.

Maskinlæring som tjeneste

Når så mange forskjellige metoder ble tatt i bruk, krever det sitt av rammeverket når det kommer til samhandling og videre utvikling. Én av studentene har jobbet med hva slags arkitektur som kan brukes til å løse dette. Til vanlig studerer Lars Lødemel Sandberg (23) på sivilingeniørlinjen Kybernetikk og robotikk ved NTNU.

- Jeg har jobbet en del med eksperimentell maskinlæring tidligere. Muligheten til å bygge et omfattende system for dette fra bunnen av appellerte veldig til meg.

Selve tjenesten er skrevet i Python, med en PostgreSQL-database. Backend er løst med FastAPI, mens frontend er gjort i React. Målet med løsningen har vært å få til en sømløs integrasjon mellom eksperimentell maskinlæring og verifiserte maskinlæringsmodeller i en fullautomatisert pipeline.

- Vi har hatt høye ambisjoner om funksjonalitet, og høye krav til DevOps-siden av løsningen. Det er veldig inspirerende å se at sluttresultatet ble såpass bra, sier Lødemel Sandberg.

LAGÅND: Studentene har jobbet med Skatteetatens egne ansatte i et sommerprosjekt for å lage et mini-rammeverk for hvordan etaten skal bruke AI til å analysere skattedata.
LAGÅND: Studentene har jobbet med Skatteetatens egne ansatte i et sommerprosjekt for å lage et mini-rammeverk for hvordan etaten skal bruke AI til å analysere skattedata. Vis mer

I wep-appen kan modellprediksjoner og treninger bestilles fra bestemte modeller og datasett, og skattekyndige fagpersoner kan gi tilbakemelding på resultater og vurdere modellenes nytteverdi direkte. Feedbacken kan igjen brukes til å videreutvikle modellene.

Løsningen er et samhandlingsverktøy for utviklere og fagpersoner. Målet? Å få Skattetaten til å ligge i front av den spennende utviklingen på kunstig intelligens-feltet. Maskinslæringsmetodene som teamet har utviklet så langt har gitt svært lovende resultater.

Lødemel Sandberg er glad for friheten han og de andre sommerstudentene har fått i arbeidet med å lage AI-rammeverket.

- Det har vært mye rom for å utforske mulige løsninger, og utviklingsprosessen har vært smidig og rask.

Utviklingen for å skape verdens mest teknisk avanserte skattemelding fortsetter. Her kan du lese mer om å jobbe med IT i Skattetaten!