Hva skjer når du kombinerer håndskrevne klimadata fra forrige århundre med moderne språkmodeller og bildeanalyse? Det lurte vi på.
Til daglig jobber vi i Findable med å gjøre bygningsdokumentasjon søkbar og forståelig ved hjelp av kunstig intelligens. Men denne gangen ville vi utfordre teknologien vår på noe helt annet – et unikt klimahistorisk datasett skrevet inn for hånd mellom 1928 og 1952.
I denne perioden ledet professor Henrik Printz en nasjonal dugnad for å dokumentere naturens rytmer: når snøen smeltet, når fuglene kom tilbake, når trærne blomstret. Nesten 84 000 slike fenologiske observasjoner ble samlet inn av lærere og frivillige over hele landet, og ført inn for hånd i store tabeller.
Problemet? Alt var uleselig for maskiner.
«De håndskrevne tabellene var skannet som dobbeltsider, ofte skeivt og med ujevn skrift.»
Håndskrevet og skeivt
De håndskrevne tabellene var skannet som dobbeltsider, ofte skeivt og med ujevn skrift. Mange av tegnene var vanskelige å tyde selv for mennesker. Vi startet med klassisk bildebehandling: delte opp sidene, roterte dem riktig vei, og identifiserte hver enkelt celle i tabellen. Deretter behandlet vi hver celle som et eget bilde.

Så tok vi i bruk en språkmodell med visuelle evner – Qwen 2.5 VL – og finjusterte den med Unsloth. Målet var å lære modellen å forstå akkurat denne typen håndskrift og tabellstruktur. Vi måtte lære den at «1» ofte var skrevet med skråstrek, og at «7» hadde en tverrstrek – små detaljer som var helt avgjørende for å oppnå gode resultater.
Før vi kunne trene modellen, måtte vi forstå svakhetene. Vi gjennomgikk store deler av datasettet manuelt og lærte hvor modellen lett kunne bomme, for eksempel ved svak skrift, visuell støy eller cellekanter som lignet på tall. Disse funnene brukte vi til å forbedre både treningsgrunnlaget og presisjonen.

Resultatet? Et datasett som tidligere var utilgjengelig for digital behandling, er nå søkbart, strukturert og klart for analyse, med høy nøyaktighet.
Og vi gjør det åpent tilgjengelig, slik at forskere og interesserte kan bruke det til å forstå hvordan naturens rytmer har utviklet seg over tid.
For oss er dette mer enn et teknisk eksperiment. Det er et bevis på at teknologien vi bygger for eiendomsbransjen også kan brukes til å hente fram verdifulle innsikter fra historiske dokumenter.
Og kanskje viktigst av alt: en påminnelse om hvor mye kunnskap som fortsatt ligger skjult i gamle arkiver – bare vi gir maskinene muligheten til å lese dem.
