Hva gjør egentlig en data scientist? Nora er ikke helt sikker, selv

- Jeg driver i alle fall med noe datagreier, forteller data scientist Nora Gjøen-Gjøsæter.

Nora Gjøen-Gjøsæter er utdanna matematiker, men jobber som data scientist. Uten at det definerer yrket hennes. 📸: Privat
Nora Gjøen-Gjøsæter er utdanna matematiker, men jobber som data scientist. Uten at det definerer yrket hennes. 📸: Privat Vis mer

Akkurat nå ligger det flere ledige jobber på kode24.no/jobb som fokuserer på data. Norske selskaper leter etter "data engineers", noen som vil "jobbe med data", ledere av "data science-avdelinger", og ikke minst: "Data scientists".

I kode24s serie "Hva gjør en..?" huker vi denne gangen tak i en vaskeekte data scientist, Nora Gjøen-Gjøsæter i Kantega, for å høre hva de egentlig driver med.

- Ja, tittelen min er data scientist, men den bruker jeg helst bare når jeg . For jeg har ikke noen klar formening om hva det egentlig betyr eller hva man egentlig bør kreve av en med min tittel, sier hun til kode24.

- Trenger man en PhD, et par år som utvikler, eller bare deltakelse på en Kaggle-konkurranse? Jeg aner ikke, men jeg driver i alle fall med noe datagreier.

Ikke er hun sikker på om data scientist er det beste begrepet, heller. Selv har hun begynt å bli glad i det norske begrepet dataviter.

- Samtidig synes jeg ikke helt at det fanger alt jeg driver med – jeg toucher en del borti det noen vil si er "data engineer"-oppgaver. Kanskje jeg bare skal kalle meg "dataentusiast"? For det er jeg jo.

«Jeg har master i statistikk, og er egentlig utdannet aktuar, eller forsikringsmatematiker.»

Hvordan havna du i den rollen? 📚

Jeg har master i statistikk, og er egentlig utdannet aktuar, eller forsikringsmatematiker. Jeg jobbet i forsikringsselskap, og fant ut at jeg var spesielt interessert i maskinlæringsbiten.

Men jeg følte meg litt alene, spesielt rundt tema som produksjonssetting og modellforvaltning, og ville gjerne vite hvordan proffene gjorde det.

Derfor flyttet jeg til konsulentbransjen. Men jeg fant vel egentlig bare ut at det ikke eksisterte noe veletablert best practice på de tingene jeg var mest usikker på.

Likevel er jeg fornøyd med valget, for å jobbe som data scientist i et konsulentselskap gir en helt unik mulighet til å jobbe med veldig ulike typer data: Alt fra virkelig store, ustrukturerte data, til minidata med masse hull i. Ofte må du bekle flere roller. I tillegg får man dra med seg gode ideer og praksiser på tvers av bransjer.

Nora Gjøen-Gjøsæter jobber mye med blant annet programmering i Python og R. 📸: Privat
Nora Gjøen-Gjøsæter jobber mye med blant annet programmering i Python og R. 📸: Privat Vis mer

Hva innebærer rollen din? 💪

Jeg driver vel egentlig med alt som har med data å gjøre, fra innhenting, til transformasjoner, visualisering og maskinlæringsmodellering.

Jeg foretrekker å gjøre det meste i skyen, og blir gjerne med på å tegne opp infrastruktur og rulle ut og ta i bruk nye tekniske komponenter.

Akkurat nå er jeg så heldig at jeg jobber med en superspennende AI-startup, og da får jeg drive med et skikkelig bredt spekter av arbeidsoppgaver - alt fra tilrettelegging for en smidig arbeidshverdag i teamet, til trening av maskinsynsmodeller og vurderinger rundt personvern.

Hvordan ser en vanlig arbeidsdag ut for deg? 📅

Dagen starter jeg aller helst et par timer før stå-opp klokken 9. Da tenker jeg best.

Utover dagen forsøker jeg å samle møtene, som det er alt fra 0 til 4 av. Jeg digger å snakke om faget mitt, spesielt sammen med andre som også er interessert i data.

Utenom møter er det helst noen timer i strekk med en eller annen teoretisk eller teknisk oppgave der jeg får brukt hodet skikkelig.

Er jeg ekstra heldig, blir det en økt med par- eller mobprogrammering. Vi data scientist-er har sannsynligvis enda mer nytte av dette enn utviklere i mer tradisjonelle roller, da vi ofte blir sittende litt for alene litt for lenge.

Kanskje fordi mange kommer fra akademia, kanskje fordi vi liker å gi inntrykk av at det vi driver med er superavansert, jeg er faktisk litt usikker. Men jeg tror generelt vi har mye å lære av gode utviklingsteam, spesielt med tanke på kompetansespredning.

Sånn kan skjermen til data scientist Nora Gjøen-Gjøsæter se ut i løpet av arbeidsdagen.
Sånn kan skjermen til data scientist Nora Gjøen-Gjøsæter se ut i løpet av arbeidsdagen. Vis mer

Hvilke verktøy, språk og programvare bruker du mest tid i? 💾

Når det gjelder maskinlæring og datawrangling skriver jeg primært Python og R. Jeg foretrekker å kode i VS Code lokalt, og Databricks i skyen. Databricks er litt som Jupyter Notebooks, men med en del ekstra funksjonalitet og preinstallerte biblioteker ut av boksen.

Jeg digger ting som bare funker, så jeg kan bruke hodet mitt på å forstå dataene. I eksperimenteringsfase blir det gjerne notebooks jeg scripter opp. Men jeg er også med på å utvikle biblioteker i Python, og da blir det mer klassisk koding, testing, kodekvalitetstiltak og den type ting.

Er det infrastruktur som skal på plass, er jeg stor fan av Terraform. Primært på grunn av veldig enkel og grundig dokumentasjon på de enkle tingene jeg driver med.

Ellers brenner jeg for MLOps, og spesielt sporbarhet og reproduserbarhet. Her er det foreløpig en god jungel av alternativer som dekker et eller flere områder innen sfæren, men jeg vil spesielt skryte av MLFlow, som er open source og etter min mening har skikkelig gode og intuitive API-er i både R og Python. Jeg vil tippe det er bra i Java også.

Hva er det beste og verste ved rollen din, synes du? 💘

Det beste med rollen min er selve modelleringsjobben. Det er bare gøy – og det er skikkelig givende når du ser resultater. Iblant får du gjøre ting du føler absolutt ingen har gjort før deg. Det er artig.

Det er generelt lite jeg misliker, men jeg skulle ønske verktøykassen vår var mer moden, så det ble enklere å håndtere både kode og data på en mer standardisert måte.

Det vanskeligste med rollen mener jeg å gå fra eksperiment til produksjon. Dette handler ikke bare om tekniske løsninger, det handler vel så mye om å gjøre modellene forståelige og transparente, så beslutningstakerne er komfortable med å for eksempel bytte ut manuelle vurderinger med systemer basert på logikk eller maskinlæring.

- Jeg tror mange kan lese seg opp på grunnleggende maskinlæring og bygge en fin klassifiseringsmodell for et enkelt datasett, sier data scientist Nora Gjøen-Gjøsæter. 📸: Privat
- Jeg tror mange kan lese seg opp på grunnleggende maskinlæring og bygge en fin klassifiseringsmodell for et enkelt datasett, sier data scientist Nora Gjøen-Gjøsæter. 📸: Privat Vis mer

Hvorfor trenger rollen din å faktisk være en egen rolle? 🤷

Jeg er veldig for demokratisering av maskinlæring, og ønsker at de som kommer fra en utviklerbakgrunn også kan ta i bruk verktøy fra min kasse.

Jeg tror mange kan lese seg opp på grunnleggende maskinlæring og bygge en fin klassifiseringsmodell for et enkelt datasett.

På samme måte som jeg helt sikkert kan bygge en enkel webapplikasjon.

Hvordan er lønna og arbeidsmarkedet for folk med din rolle? 💰

Jeg er fornøyd med lønnen min, men har ikke så god oversikt over andre med min tittel.

Igjen – hva er en data scientist?

Jeg tror bakgrunn og erfaring er viktigere enn akkurat hvilken tittel man bærer.