Slik kan vi forsvare oss mot KI-«dommedag»
Tankesmien Langsikt peker på tre scenarioer for autonome KI-katastrofer. Og måter å forebygge dem på. – Lite sannsynlig, mener forsker.
Teknologiselskapene satser på utvikling av KI som aldri før.
Hvor galt kan det gå, hvis KI en gang blir selvstyrt? Kan de finne på å utslette menneskeheten?
Fredag kom den ideelle tankesmien Langsikt med et notat om KI-katastrofer, skrevet av fagsjef Aksel Braanen Sterri og Preben Monteiro Ness, stipendiat ved Simula og NTNU.
– KI-utviklingen akselererer og tidsvinduet for handling er begrenset. Hvis vi venter til systemene er tilstrekkelig kapable til å forårsake en katastrofe, kan det være for sent, advarer de.
Tre scenarioer
De peker på tre konkrete katastrofescenarier der KI:
- blir overmenneskelig hacker som kan kneble kritisk digital infrastruktur.
- får fysiske kapabiliteter i form av autonome droner og roboter.
- blir supermanipulatør som utnytter sin overlegne evne til sosial påvirkning for å skaffe seg ressurser og innflytelse.
– Alle disse scenariene har forløpere i dagens KI-systemer. Samtidig er det stor uenighet blant forskere om hvor sannsynlig og hvor nært forestående en eventuell KI-katastrofe er, påpeker forfatterne.
Dette må til
Videre peker de på tre ingredienser som må til grunn for at en autonom KI-katastrofe skal kunne skje:
- KI-systemene blir tilstrekkelig kapable.
- Systemene er misaligned – altså har et driv til å handle på måter som strider mot menneskers interesser. Forskning viser at modeller kan lære seg å skjule misaligned adferd når de vet at de blir testet.
- Mennesker mister kontrollen over systemene, og har ikke lenger mulighet til å stoppe dem eller skru dem av.
Investere i cyberforsvar
Videre ser Sterri og Ness for seg følgende måter å forebygge KI-katastrofer på, uavhengig om man tror det faktisk kommer til å skje:
- Bidra til internasjonale prosesser som søker å styre utviklingen av de mest avanserte KI-systemene.
- Investere i grunnforskning på alignment og forklarbar KI – ikke bare anvendt forskning. Her peker de på norske forskningsmiljøer som TRUST-senteret ved Universitetet i Oslo et godt utgangspunkt. – Men vi trenger også et KI-sikkerhetsinstitutt som kan delta i internasjonale allianser og sertifisere produkter i Norge, mener Sterri og Ness.
- Investere i resiliens: beredskapsplaner, robuste offentlige systemer og infrastruktur som tåler både cyberangrep og mer alvorlige forstyrrelser.
Forsker: – Lite sannsynlig
Pinar Heggernes, professor i informatikk ved UiB, er blant forskerne som ikke er så bekymret for at KI skal ta helt av og utslette hele eller deler av menneskeheten.
– For meg er det lite sannsynlig. Hvis systemene blir superintelligente, hvorfor skal de alltid bli onde, spør hun i en panelsamtale etter notatet ble lansert fredag.
Hun peker på at KI-verktøy så langt også har ført til en «fantastisk vitenskaplig utvikling» innen for eksempel kreftforsking.
Men vedgår:
– Sannsynligheten er ikke helt null, så det er fint vi tenker på muligheter.
– Lite fokus på katastrofale problemer
OsloMet-professor Laurence Habib er på sin side glad for Langsikt-rapporten. Hun mener det i norsk debatt stort sett er fokus på muligheter med KI.
– Det er veldig lite fokus på katastrofale problemer, sier Habib.
Hun sier vi allerede ser misalignment, og mener at det de neste 20-50 årene kan skje endringer i kapabilitet.
– Tap av kontroll har vi enda ikke sett i storskala, men ville sagt det er den mest potente ingrediensen, fordi den kan være irreversibel, sier Habib.
Bekymret for dårlig bruk av KI
Simula-forsker Michael Riegler er ikke så bekymret for advarslene i Langsikt-notatet, men for at mennesker prøver å tvinge modeller til å gjøre noe ondt.
– Det jeg er mest bekymra for er dårlig bruk av KI, det er der vi ser mest risiko i dag.
Han påpeker at KI-systemene han jobber med «gjør masse rare ting».
– Det gjør de ikke fordi de er onde eller har en vilje til å gjøre det. Det er bare sånn de regner ut ting, og det er noen probabilities som sier at nå skal jeg slette alle de e-postene.
– Neste gang kunne den samme modellen ha regnet ut at «nei, jeg skal ikke gjøre det», legger han til.
Han peker på Moltbook-plattformen som kom på nyåret.
– Først var det litt sånn magisk hatt-triks, at det var society merging, men så analyserte vi data og så at det ikke var det, men mye hallusinering, sier Riegler.