Slik kan vi forsvare oss mot KI-«dommedag»

Tankesmien Langsikt peker på tre scenarioer for autonome KI-katastrofer. Og måter å forebygge dem på. – Lite sannsynlig, mener forsker. 

Simula-Stipendiat Preben Monteiro Ness legger fram scenarioer og løsninger fra Langsikt-notatet han er med på å skrive.
Publisert

Teknologiselskapene satser på utvikling av KI som aldri før. 

Hvor galt kan det gå, hvis KI en gang blir selvstyrt? Kan de finne på å utslette menneskeheten? 

Fredag kom den ideelle tankesmien Langsikt med et notat om KI-katastrofer, skrevet av  fagsjef Aksel Braanen Sterri og Preben Monteiro Ness, stipendiat ved Simula og NTNU.

– KI-utviklingen akselererer og tidsvinduet for handling er begrenset. Hvis vi venter til systemene er tilstrekkelig kapable til å forårsake en katastrofe, kan det være for sent, advarer de.

Tre scenarioer

De peker på tre konkrete katastrofescenarier der KI:

  • blir overmenneskelig hacker som kan kneble kritisk digital infrastruktur.
  • får fysiske kapabiliteter i form av autonome droner og roboter.
  • blir supermanipulatør som utnytter sin overlegne evne til sosial påvirkning for å skaffe seg ressurser og innflytelse.

– Alle disse scenariene har forløpere i dagens KI-systemer. Samtidig er det stor uenighet blant forskere om hvor sannsynlig og hvor nært forestående en eventuell KI-katastrofe er, påpeker forfatterne. 

Dette må til

Videre peker de på tre ingredienser som må til grunn for at en autonom KI-katastrofe skal kunne skje: 

  1. KI-systemene blir tilstrekkelig kapable.
  2. Systemene er misaligned – altså har et driv til å handle på måter som strider mot menneskers interesser. Forskning viser at modeller kan lære seg å skjule misaligned adferd når de vet at de blir testet.
  3. Mennesker mister kontrollen over systemene, og har ikke lenger mulighet til å stoppe dem eller skru dem av. 
Preben Monteiro Ness er PhD-stipendiat innen KI ved NTNU Trondheim og Simula Research Laboratory, og tilknyttet tankesmien Langsikt.

Investere i cyberforsvar

Videre ser Sterri og Ness for seg følgende måter å forebygge KI-katastrofer på, uavhengig om man tror det faktisk kommer til å skje: 

  • Bidra til internasjonale prosesser som søker å styre utviklingen av de mest avanserte KI-systemene.
  • Investere i grunnforskning på alignment og forklarbar KI – ikke bare anvendt forskning. Her peker de på norske forskningsmiljøer som TRUST-senteret ved Universitetet i Oslo et godt utgangspunkt. – Men vi trenger også et KI-sikkerhetsinstitutt som kan delta i internasjonale allianser og sertifisere produkter i Norge, mener Sterri og Ness.
  • Investere i resiliens: beredskapsplaner, robuste offentlige systemer og infrastruktur som tåler både cyberangrep og mer alvorlige forstyrrelser.

Forsker: – Lite sannsynlig

Pinar Heggernes, professor i informatikk ved UiB, er blant forskerne som ikke er så bekymret for at KI skal ta helt av og utslette hele eller deler av menneskeheten. 

– For meg er det lite sannsynlig. Hvis systemene blir superintelligente, hvorfor skal de alltid bli onde, spør hun i en panelsamtale etter notatet ble lansert fredag. 

Hun peker på at KI-verktøy så langt også har ført til en «fantastisk vitenskaplig utvikling» innen for eksempel kreftforsking.

Men vedgår: 

– Sannsynligheten er ikke helt null, så det er fint vi tenker på muligheter.

Tellef Raabe fra Langsikt, Simula-forsker Michael Riegler, OsloMet-professor Laurence Habib og UiB-professor Pinar Heggernes.

– Lite fokus på katastrofale problemer

OsloMet-professor Laurence Habib er på sin side glad for Langsikt-rapporten. Hun mener det i norsk debatt stort sett er fokus på muligheter med KI. 

– Det er veldig lite fokus på katastrofale problemer, sier Habib. 

Hun sier vi allerede ser misalignment,  og mener at det de neste 20-50 årene kan skje endringer i kapabilitet. 

– Tap av kontroll har vi enda ikke sett i storskala, men ville sagt det er den mest potente ingrediensen, fordi den kan være irreversibel, sier Habib. 

Bekymret for dårlig bruk av KI

Simula-forsker Michael Riegler er ikke så bekymret for advarslene i Langsikt-notatet, men for at mennesker prøver å tvinge modeller til å gjøre noe ondt. 

– Det jeg er mest bekymra for er dårlig bruk av KI, det er der vi ser mest risiko i dag. 

Han påpeker at KI-systemene han jobber med «gjør masse rare ting». 

– Det gjør de ikke fordi de er onde eller har en vilje til å gjøre det. Det er bare sånn de regner ut ting, og det er noen probabilities som sier at nå skal jeg slette alle de e-postene. 

– Neste gang kunne den samme modellen ha regnet ut at «nei, jeg skal ikke gjøre det», legger han til. 

Han peker på Moltbook-plattformen som kom på nyåret. 

– Først var det litt sånn magisk hatt-triks, at det var society merging, men så analyserte vi data og så at det ikke var det, men mye hallusinering, sier Riegler. 

Powered by Labrador CMS