Hevder Perplexity bryter robots.txt og maskerer AI-botter

Cloudflare har gjort et enkelt eksperiment de mener beviser at AI-chatten bryter reglene, mens Perplexity nekter.

Perplexity skal gi deg informasjonen du er ute etter, uansett hva de som eier nettsidene måtte mene. Her i deres nye Comet-nettleser.
Publisert

Dagens kunstige intelligens handler om å gjette neste ord i en rekke, og for å trene opp modellene til dette, trenger de så mange ord som overhodet mulig. Dette gjøres de gjennom AI-botter som tråler nettet på jakt etter stadig flere ord – gjerne typ alle ord som noen sinne er skrevet på internett

I tillegg har du bottene fra AI-produkter som ikke trener sine egne modeller, men gir informasjonen brukerne ber om. 

Dermed har det oppstått et problem, med AI-botter som stadig kommer innom nettsider og skaper dyr, verdiløs trafikk

Cloudflare har lenge engasjert seg i kampen mot AI-bottene – selvfølgelig for å tjene en slant penger i samme slengen – gjennom å hjelpe nettsideeiere å stenge bottene ute. AI-selskapene følger nemlig ikke alltid reglene du setter, gjennom for eksempel robots.txt-filer. 

Nå hevder Cloudflare å bevise at Perplexity bryter disse reglene med vilje.

Et enkelt eksperiment

I et langt blogginnlegg legger Cloudflare fram et eksperiment de har utført: 

  • Først registrerte de flere nye nettsider på helt nye domener, som alle hadde en robots.txt-fil som skulle stenge AI-aktører ute, deriblant Perplexity. 
  • Deretter stilte de Perplexity sin AI-chat spørsmål rundt disse sidene. Og Perplexity svarte villig vekk, med riktig informasjon. Den hadde med andre ord navigert seg til dem, tross at robots.txt-filene sa at den ikke fikk lov.
  • Nå kunne de se hvem som faktisk hadde besøkt nettsida deres, for å se hvordan Perplexity sin rampete bot hadde oppført seg. 

Og det er her de mener å bevise at Perplexity med vilje omgår robots.txt-regler, ved å maskere seg. 

Botten gir seg ikke

Cloudflare sine robots.txt-filer skulle stoppe alle automatisert lesning av nettsidene deres. Inkludert Perplexity sine botter, i henhold til informasjonen Perplexity gir ut

Men dette stanset altså ikke AI-botten. Fordi: 

  • En definert brukeragent, altså en bot som sier "hei sveis, jeg kommer fra Perplexity", sjekka om den ble blokkert av robots.txt. Om nei, så skrapa den i vei. 
  • Om så var, sjekka den om den ble blokkert gjennom Web Application Firewall (WAF). Om nei, så skrapa den i vei. 
  • Om så var, kom den tilbake, som en udefinert brukeragent. Det vil si; en brukeragent maskert som en Chrome-bruker på MacOS. I tillegg roterte den på IP-adressene sine, så den ikke skulle bli blokkert gjennom det offisielle IP-spekteret til Perplexity, heller. 

Og ja; Perplexity klarte på denne måten å svare på spørsmålene Cloudflare stilte om sine egne nettsider. 

Nekter for alt

– Internett som vi har kjent det de siste tre tiårene forandrer seg fort, men én ting gjenstår: Det er bygd på tillit, skriver Gabriel Corral, Vaibhav Singhal, Brian Mitchell og Reid Tatoris hos Cloudflare.

Denne tilliten mener de at Perplexity bryter, gjennom det de mener er bevisst omgåelse av alle sperrene. 

Perplexity, på sin side, nekter for å ha gjort noe galt. I en epost til TechCrunch skriver talsperson Jesse Dwyer at Cloudflares innlegg bare er en salgs-pitch, at skjermdumpene deres ikke viser at Perplexity klarte å svare på spørsmåla, og at bottene Cloudflare viser til ikke er deres. 

Men som TechCrunch påpeker, er det uavhengig av dette enkelttilfellet en kjent sak at AI-selskaper er villig til å gå over døde robots.txt-filer for å både trene modeller og skaffe infoen brukerne ber om. 

Powered by Labrador CMS