CloudFlare 宕機(jī)導(dǎo)致 78 萬網(wǎng)站下線
幾個(gè)小時(shí)前,CloudFlare 由于 DNS 路由配置錯(cuò)誤導(dǎo)致使用其 CDN 和安全服務(wù)的 785000 多個(gè)網(wǎng)站遭受影響,其中不乏 4chan、Wikileaks, Metallica 等大型網(wǎng)站,故障在 30 分鐘左右被排除,影響持續(xù)了一個(gè)多小時(shí)。
CloudFlare 首席執(zhí)行官 Matthew Prince 在剛剛官方博客發(fā)文闡述了整個(gè)事故發(fā)生的過程:CloudFlare 的管理團(tuán)隊(duì)發(fā)現(xiàn)一處 DDoS 攻擊,監(jiān)測(cè)工具顯示攻擊包大小在 99971 ~ 99985 bytes 左右(正常包大小是 1500 bytes,通常都在 500 ~ 600 bytes),于是將其規(guī)則加入 Juniper 的 Junos 防火墻設(shè)置中,不過預(yù)期大小的包并沒有被攔截,因?yàn)閷?shí)際上并不存在這么大的數(shù)據(jù)包,取而代之的是匹配規(guī)則的數(shù)據(jù)包沖刷到內(nèi)存中,直到內(nèi)存耗盡,系統(tǒng)崩潰。
通常系統(tǒng)崩潰會(huì)自動(dòng)重啟而恢復(fù)工作,但這次例外了。由于系統(tǒng)沒有正常啟動(dòng),管理端口沒有響應(yīng)控制,于是 CloufFlare 的管理中心只能電話通知全球 14 個(gè)國家的 23 個(gè)數(shù)據(jù)中心的管理員硬啟動(dòng)機(jī)器,這個(gè)過程大概花費(fèi)了 30 分鐘。最早恢復(fù)的數(shù)據(jù)中心由于負(fù)荷了最多了訪問流量,仍然導(dǎo)致了 CloudFlare 服務(wù)的不穩(wěn)定性,加上等待 DNS 緩存更新等,服務(wù)恢復(fù)時(shí)已經(jīng)影響已持續(xù)超過 1 小時(shí)。
CloudFlare 最新數(shù)據(jù)顯示,其服務(wù)的網(wǎng)站每月 PV 數(shù)超過 1000 億,是全球十大流量網(wǎng)站之一,此次宕機(jī)是 4 年中第三大事故。與今早 Evernote 被黑客入侵事件一起,云計(jì)算服務(wù)可靠性和造成的大規(guī)模影響應(yīng)該引發(fā)使用者更多關(guān)注和思考。