CloudFlare-Ausfall

Ein sehr interessantes Video vom Cloudflare-Ausfall am Wochenende. Golem meint:

Rund 785.000 Websites waren am Wochenende für rund eine Stunde offline.

Die Frage, die mir inzwischen dreimal gestellt wurde, lautete: „Darf ein solcher Fehler passieren?“ – darauf kann ich allerdings keine eindeutige Antwort geben. Bei Cloudflare arbeiten Menschen und Menschen machen Fehler – man sollte natürlich, gerade bei solch wichtigen Änderungen, dringend mit mindestens acht Augen über die Routerregeln schauen, bevor man sie aktiviert. Blöd gelaufen ist eigentlich nur, dass die Regel sich über die ganzen Router verteilt hat – und somit einige Websites vom Netz genommen hat.

Wie man mit einem Fehler umgeht – das ist doch die entscheidende Frage. Wie also ging Cloudflare mit dem Problem um? Offen und transparent:

The cause of the outage was a system-wide failure of our edge routers. CloudFlare currently runs 23 data centers worldwide. These data centers are connected to the rest of the Internet using routers. These routers announce the path that, from any point on the Internet, packets should use to reach our network. When a router goes down, the routes to the network that sits behind the router are withdrawn from the rest of the Internet.

cloudflare_outage.png.scaled1000

Und was wollen die Jungs und Mädels bei Cloudflare nun besser machen? Folgende Aussage gibt’s auf dem verlinkten Blogeintrag:

We let our customer down this morning, but we will learn from the incident and put more controls in place to eliminate problems like this in the future.

In diesem Sinne: Hut ab, Cloudflare!

Schreibe einen Kommentar