Derfor gikk Cloudflare ned i fire timer: «Uakseptabelt»
– Dette var vår verste nedetid siden 2019, skriver Cloudflare-sjefen, som trodde han ble angrepet.
Cloudflare var nede i mange timer tirsdag denne uka.
Nettsider som kode24 var nede, tjenester som ChatGPT var nede, burgerbestillinger på norske Max var nede.
I dag forteller Cloudflare hva som gikk galt.
Kort fortalt: De trodde de ble angrepet, men det var deres egen feil.
Varte i fire timer
Problemene starta klokka 12:20 norsk tid tirsdag, ifølge et blogginnlegg av CEO Matthew Prince i Cloudflare.
De jobba naturlig nok på spreng, og implementerte diverse fikser, men det tok tid:
- Klokka 14:05 skal de første grepene ha gjort følgene mindre for mange.
- Klokka 15:30 skal de fleste problemene ha blitt løst. Men på dette tidspunktet sleit kode24 fortsatt.
- Ikke før 18:06 skal alt ha vært som normalt igjen.
Med andre ord varte problemene i hele fire timer.
– Dette var vår verste nedetid siden 2019, skriver Prince.
– En slik nedetid er uakseptabel, skriver han videre, og legger seg flat:
– På vegne av hele teamet i Cloudflare vil jeg beklage smerten vi påførte internett i dag.
Feil i endring av databasene
– Dette problemet skjedde ikke, hverken direkte eller indirekte, et cyberangrep eller ondsinnet aktivitet av noe slag, påpeker Prince.
Men dette var det første de trodde – at de ble rammet av et digert DDOS-angrep. Sannheten var noe helt annet: Det var deres egen feil.
Cloudflare skal ha gjort en endring i tilgangene til et av "database-systemene" sine, ifølge Prince, som gjorde en fil større enn den skulle være – og korthuset raste.
Med fare for at ting blir mista i oversettelsen siterer vi han på engelsk:
«...which caused the database to output multiple entries into a “feature file” used by our Bot Management system. That feature file, in turn, doubled in size. The larger-than-expected feature file was then propagated to all the machines that make up our network.»
«The software running on these machines to route traffic across our network reads this feature file to keep our Bot Management system up to date with ever changing threats. The software had a limit on the size of the feature file that was below its doubled size. That caused the software to fail.»
Er du nysgjerrig på alle de tekniske detaljene, går han grundig til verks i innlegget.