Trodde det var gratis – fikk 150.000 i regning fra Google

Enormt datasett ga enorm regning.

Du bør vite hva du gjør før du kjører SQL-spørringer mot svære datasett i Google BigQuery. 📸: <a href="https://unsplash.com/@charlesdeluvio?utm_content=creditCopyText&amp;utm_medium=referral&amp;utm_source=unsplash">charlesdeluvio</a>, <a href="https://unsplash.com/photos/person-facing-computer-desktop-pjAH2Ax4uWk?utm_content=creditCopyText&amp;utm_medium=referral&amp;utm_source=unsplash">Unsplash</a>
Du bør vite hva du gjør før du kjører SQL-spørringer mot svære datasett i Google BigQuery. 📸: charlesdeluvio, Unsplash Vis mer

En bruker fikk seg en kjempeoverraskelse etter å ha kjørt en spørring mot Googles BigQuery-datavarehus, skriver The Register.

– Forrige uke kjørte jeg et script for historiske HTTP Archive-data og fikk en regning på 14.000 dollar fra Google Cloud, med null advarsler. Og de vil ikke fjerne avgiften, forteller en bruker av HTTP Archive som bare kaller seg "Tim".

Beløpet tilsvarer rundt 150.000 kroner.

HTTP Archive er et prosjekt som forsøker å holde styr på hvordan weben er laget, ved å "crawle" nettsider og lagre informasjon om blant annet hvilke web-API-er og teknologier nettsidene bruker.

De har et offentlig tilgjengelig datasett på mange petabyte liggende hos Google Cloud BigQuery. Men at datasettet er åpent tilgjengelig for hvem som helst å bruke, betyr ikke at det er gratis å bruke – noe Tim fikk smertelig erfare.

– Nettsiden bør oppdateres!

Tim skriver at han ut fra beskrivelsen på nettsidene til HTTP Archive fikk inntrykk av at datasettet på BigQuery var et "offentlig" datasett som communityet kunne bruke.

– Den offisielle nettsiden bør oppdateres for å advare mennesker om at Google tilsynelatende nå hoster dette datasettet for å tjene penger.

Han advarer akademikere, spesielt studenter, om å være oppmerksom på problemet før de gir fra seg kredittkortnummeret til Google.

En av de som vedlikeholder HTTP Archive svarte Tim og forklarte at 99 prosent av de som bruker HTTP Archive bare bruker gratisrapportene deres, og at BigQuery er beregnet på superbrukere som har behov for rådataene.

HTTP Archive har oppdatert nettsidene med en advarsel om at det kan bli dyrt å bruke arkivet deres hos Google BigQuery hvis du ikke vet hva du driver med.
HTTP Archive har oppdatert nettsidene med en advarsel om at det kan bli dyrt å bruke arkivet deres hos Google BigQuery hvis du ikke vet hva du driver med. Vis mer

Kort tid etterpå ble nettsidene oppdatert med en advarsel om at man må være ekstremt forsiktig når man bruker datasettet så man ikke får uventede regninger fra Google.

150.000 kroner med én SQL-spørring

Han som vedlikeholder arkivet påpekte at 14.000 dollar er omtrent hva det koster å prosessere 2,5 petabyte hos Google, og at hvis man prøver å skrive en SQL-spørring for å prosessere så mye data vil Google komme med en advarsel om datamengden.

Så la han ut dette eksempelet på en 14.000-dollars-spørring:

Denne SQL-spørringen mot HTTP Archives arkiv i Google BigQuery vil koste deg rundt 150.000 kroner. 📸: HTTP Archive
Denne SQL-spørringen mot HTTP Archives arkiv i Google BigQuery vil koste deg rundt 150.000 kroner. 📸: HTTP Archive Vis mer

Tim svarer at han kjørte spørringene sine fra et Python-script med de offisielle bibliotekene fra Google Cloud Platform, og i motsetning til med Web-UI-et er det der visstnok ingen mekanismer for å vise kostnadene for en spørring.

Ifølge The Register heiv én bruker seg inn i diskusjonen for å påpeke at han som gjorde tabben var en idiot som kjørte spørringer uten å forstå hvor stort datavolum spørringen ville prosessere. Kommentaren er nå fjernet.