Eivind Kjosbakken og Lars Aurdal i Findable gjorde 84.000 håndskrevne klimahistoriske observasjoner søkbare. 📸: Findable

Gjorde håndskrevne data fra forrige århundre søkbare

Slik gjorde utviklerne hos Findable 84.000 klimahistoriske observasjoner søkbare ved hjelp av språkmodeller og bildeanalyse.

Eivind Kjosbakken Data Scientist, Findable

Lars Aurdal Cofounder & Head of Research, Findable

Publisert 03.06.2025 - 05:00

✍ leserinnlegg

Dette er et leserinnlegg fra en ekstern skribent, som betyr at innholdet ikke nødvendigvis speiler kode24s meninger. Vil du også bidra? Send oss en epost på [email protected], eller les mer her!

Hva skjer når du kombinerer håndskrevne klimadata fra forrige århundre med moderne språkmodeller og bildeanalyse? Det lurte vi på.

Til daglig jobber vi i Findable med å gjøre bygningsdokumentasjon søkbar og forståelig ved hjelp av kunstig intelligens. Men denne gangen ville vi utfordre teknologien vår på noe helt annet – et unikt klimahistorisk datasett skrevet inn for hånd mellom 1928 og 1952.

I denne perioden ledet professor Henrik Printz en nasjonal dugnad for å dokumentere naturens rytmer: når snøen smeltet, når fuglene kom tilbake, når trærne blomstret. Nesten 84 000 slike fenologiske observasjoner ble samlet inn av lærere og frivillige over hele landet, og ført inn for hånd i store tabeller.

Problemet? Alt var uleselig for maskiner.

De håndskrevne tabellene var skannet som dobbeltsider, ofte skeivt og med ujevn skrift.

Håndskrevet og skeivt

De håndskrevne tabellene var skannet som dobbeltsider, ofte skeivt og med ujevn skrift. Mange av tegnene var vanskelige å tyde selv for mennesker. Vi startet med klassisk bildebehandling: delte opp sidene, roterte dem riktig vei, og identifiserte hver enkelt celle i tabellen. Deretter behandlet vi hver celle som et eget bilde.

Tabellene i datasettet var skannet som dobbeltsider – ofte skeivt, og alltid håndskrevet. 📸: Findable

Så tok vi i bruk en språkmodell med visuelle evner – Qwen 2.5 VL – og finjusterte den med Unsloth. Målet var å lære modellen å forstå akkurat denne typen håndskrift og tabellstruktur. Vi måtte lære den at «1» ofte var skrevet med skråstrek, og at «7» hadde en tverrstrek – små detaljer som var helt avgjørende for å oppnå gode resultater.

Før vi kunne trene modellen, måtte vi forstå svakhetene. Vi gjennomgikk store deler av datasettet manuelt og lærte hvor modellen lett kunne bomme, for eksempel ved svak skrift, visuell støy eller cellekanter som lignet på tall. Disse funnene brukte vi til å forbedre både treningsgrunnlaget og presisjonen.

Vi hentet ut tekst fra denne typen bilder ved hjelp av Qwen 2.5 VL. Disse cellene er hentet ut fra tabeller som den du ser lengre oppe, ved hjelp av bildebehandlingsteknikker. 📸: Findable

Resultatet? Et datasett som tidligere var utilgjengelig for digital behandling, er nå søkbart, strukturert og klart for analyse, med høy nøyaktighet.

Og vi gjør det åpent tilgjengelig, slik at forskere og interesserte kan bruke det til å forstå hvordan naturens rytmer har utviklet seg over tid.

Les mer

Fine-tuning vLLMs for Document Understanding: Teknisk artikkel av Eivind Kjosbakken på Towards Data Science
Professor Printz and his phenology data: Blogginnlegg av Lars Aurdal på Hugging Face
Data og modeller: Tilgjengeliggjort via Findables profil på Hugging Face

For oss er dette mer enn et teknisk eksperiment. Det er et bevis på at teknologien vi bygger for eiendomsbransjen også kan brukes til å hente fram verdifulle innsikter fra historiske dokumenter.

Og kanskje viktigst av alt: en påminnelse om hvor mye kunnskap som fortsatt ligger skjult i gamle arkiver – bare vi gir maskinene muligheten til å lese dem.