Deler tusenvis av gamle, norske nettsider
– Tjenesten har per nå rundt 1,4 milliarder objekter indeksert, forteller Thomas Langvann i det nye nettarkivet til Nasjonalbiblioteket.
– Vi har lansert en første, offentlig demonstrasjon av hvordan Nasjonalbiblioteket kan tilgjengeliggjøre arkiverte norske nettsider på nett.
Det forteller Thomas Langvann, produktleder for Nettarkivet i Nasjonalbiblioteket, til kode24.
Nettarkivetet deres har lagret norske nettsider i over 20 år, og er nå på svimlende 2 petabyte – altså 2 millioner gigabyte. Her finnes alt fra VG.no til små, personlige blogger.
Men ingenting av denne typen er ennå ute på det Langvann kaller en MVP, som du finner på nettarkivet.beta.nb.no.
– Målet nå er å teste teknologi, vise grunnleggende funksjonalitet og hente inn erfaringer før videre utvikling, forklarer Langvann.
Nettsider fra 2005
– Det er noen begrensninger på hva vi kan vise åpent på nett, og vi må blant annet ta hensyn til personvern og opphavsrett, sier Langvann.
Nettsteder eid av offentlige virksomheter kan derimot deles offentlig, og blir nå endelig delt offentlig, på nettarkivet.beta.nb.no.
I første omgang rundt 200 av dem, lagret mellom 2005 og 2011:
- Du finner for eksempel sider som Meteorologisk institutt, Aetat, Regjeringen.no, Folkehelseinstituttet og Nasjonalbiblioteket selv. Enda flere offentlige nettsteder skal dukke opp i tjenesten framover.
- For eksempel kan du se hvordan Met.no den 15. november 2005 meldte om -1 grader i Kirkenes med massevis av flott værgrafikk. Eller hvordan statsiminister Jens Stoltenberg orienterte om at StatoilHydro gikk inn i Shtokman på Regjeringen.no 29. oktober 2007.
- Det har blitt hentet inn mange kopier av alle sidene, så du kan spole deg fram og tilbake i tid.
1,4 milliarder objekter
200 nettsider høres kanskje ikke spesielt imponerende ut. Men da det altså er mange kopier av hver, blir det nok av data, likevel.
– Tjenesten har per nå rundt 1,4 milliarder objekter indeksert. Mye er HTML, men det er også hundrevis av millioner med bilder, lyd, video og PDF-dokumenter, forteller Langvann.
Sidene serveres ved hjelp av pywb, som er en fri programvare for web-arkiv, og brukes av flere nasjonalbiblioteker rundt om i verden.
Når det kommer til å faktisk få lest av innholdet, er dette i stor grad opp til bakover-kompabiliteten til nettleseren din. Det Nasjonalbiblioteket gjør med sidene, er stort sett å bare endre URL-er, så de peker til deres egne kopier av innholdet.
Ingen "norsk archive.org"
Nasjonalbiblioteket jobber nå mye med å deduplisering av data i eget arkiv, tilgjengeliggjøre flere nettsider, gjøre dem tilgjengelig i nyere utgaver også etter 2011, og generelt jobbe med å lage en bedre tjeneste.
Men noen "norsk Wayback Machine" vil ikke Nasjonalbiblioteket bygge. I motsetning til visse andre, respekterer de opphavsretten, så med mindre de får spesielle tillatelser deler de ikke kopiene sine fritt.
– Foreløpig prioriterer vi den åpne tjenesten med offentlige nettsteder, men vi jobber også med å bygge en forskningsinfrastruktur for nettdata, i et stort prosjekt med blant andre Norsk regnesentral, Universitetet i Oslo og UiT Norges arktiske universitet, sier Langvann, og viser til webdata.nb.no.
Det jobbes også med en tjeneste som vil bli tilgjengelig på universitets- og høyskolebibliotek, hvor de kan dele mye mer enn de gjør på sine offentlige sider.
– Vi håper også at offentlig tilgang vil gi nettstedseiere bedre kontroll og innsikt i hva som har blitt bevart, i og med at de selv kan sjekke tilstanden på bevarte nettsteder, og sånn sett bidra til å forbedre bevaring av den norske delen av internett.