Advarer mot bakdører i maskinlæring-modeller: - Blind tillit er farlig

Amerikanske forskere klarer å lage bakdører som er "umulige" å oppdage, selv for kvantemaskiner.

Når man bruker en klassifiserer som er trent av en upålitelig part, må risikoen forbundet med en potensiell plantet bakdør tas med i beregningen, ifølge de amerikanske forskerne. Bilder viser en menneskelignende robot som ble vist fram under Consumer Electronics Show (CES) i år. 📸: Patrick T. FALLON / AFP
Når man bruker en klassifiserer som er trent av en upålitelig part, må risikoen forbundet med en potensiell plantet bakdør tas med i beregningen, ifølge de amerikanske forskerne. Bilder viser en menneskelignende robot som ble vist fram under Consumer Electronics Show (CES) i år. 📸: Patrick T. FALLON / AFP Vis mer

Forskere fra UC Berkeley, MIT og Institute for Advanced Study i USA har utviklet teknikker for å implementere uoppdagelige bakdører i modeller for maskinlæring (ML), skriver The Register.

Ifølge dem antyder arbeidet til forskerne at ML-modeller utviklet av tredjeparter i utgangspunktet ikke kan stoles på.

I forskningsartikkelen "Planting Undetectable Backdoors in Machine Learning Models", som er under fagfellevurdering, forklarer Shafi Goldwasser, Michael Kim, Vinod Vaikuntanathan og Or Zamir hvordan en ondsinnet person som lager algoritmer som klassifiserer data kan undergrave "klassifisereren" på en måte som ikke er åpenbar for andre.

Kan ikke oppdages

Ifølge forskningsartikkelen oppfører en slik "bakdørs-klassifiserer" seg normalt, men i virkeligheten opprettholder programvaren en mekanisme for å endre klassifiseringen av alle input, ved bare en liten forstyrrelse.

Uten den riktige "bakdørsnøkkelen" vil mekanismen være skjult.

- Under vanlige, kryptografiske forutsetninger, er det umulig å oppdage bakdører i klassifiserere, siterer The Register forskningsartikkelen på.

Videre står det at dette betyr at når man bruker en klassifiserer som er trent av en upålitelig part, må risikoen forbundet med en potensielt plantet bakdør tas med i beregningen.

«Det vi viser er at blind tillit til tjenester er veldig farlig.»

Skaper debatt

Ifølge The Register har enkelte problemer med å tro på konklusjonene - til tross for at artikkelen inneholder matematiske bevis.

- Dette er usant i praksis. I det minste for nettverk med ReLu-baserte nettverk. Du kan sette ReLu-baserte nevrale nettverk gjennom en (robust) MILP-løser som garantert vil oppdage disse bakdørene, skriver for eksempel "Anno0770" på Twitter.

The Register har konfrontert forskerne med påstanden, som begge har avist den. Zamir, som er postdoktor ved Princeton University, mener påstanden rett og slett er feil:

- Å løse MILP er "NP-hard" (det vil si svært usannsynlig å alltid ha en effektiv løsning) og dermed bruker MILP-løsere heuristikk som ikke alltid fungerer, men som bare fungerer noen ganger, sier han til The Register.

Blind tillit farlig

Forskerne bak artikkelen forventer at bakdørene heller ikke vil oppdages av fremtidens kvantedatamaskiner.

- Våre konstruksjoner er uoppdagelige selv for kvantealgoritmer, sier Kim.

Forutsatt at disse forutsetningene overlever fagfellevurderingen, er forslaget til forskerne at tredjepartstjenester som lager ML-modeller må komme opp med en måte å garantere at arbeidet deres er å stole på – noe åpen kildekode-leverandørkjeden ikke har løst.

- Det vi viser, er at blind tillit til tjenester er veldig farlig, sier Kim.