因 BGP 配置錯誤,美國網(wǎng)絡大癱瘓:全球 web 流量下降 3.5%
CenturyLink的一個BGP路由錯誤已引起整個互聯(lián)網(wǎng)出現(xiàn)連鎖反應,導致無數(shù)與互聯(lián)網(wǎng)連接的服務癱瘓,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等眾多服務。
這些故障從美國東部標準時間上午6點左右開始,當時客戶們開始報告美國發(fā)生了影響CenturyLink服務的大規(guī)模故障。
在Twitter上搜索一番,可以發(fā)現(xiàn)突然大量用戶紛紛吐槽,抱怨無數(shù)聯(lián)網(wǎng)服務不是性能低下就是完全中斷,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等眾多服務。
CenturyLink聲稱,其Level3 CA3數(shù)據(jù)中心導致了這起故障,正在調(diào)查此問題。
CenturyLink的狀態(tài)頁面顯示:“我們的技術(shù)團隊正在調(diào)查影響CA3數(shù)據(jù)中心一些服務的一個問題。確保我們服務的可靠性是我們的重中之重。隨著這起事件不斷進展,我們會繼續(xù)提供狀態(tài)更新。如果您需要進一步的支持,可以通過help@ctl.io聯(lián)系我們。”
此后該故障已得到了解決,服務在緩慢恢復,一些地區(qū)恢復所花的時間比其他地區(qū)要久。
AWS 恢復消息
BGP路由問題導致故障
據(jù)受影響客戶的無數(shù)報告顯示,今天的問題是CenturyLink的BGP路由問題引起的,CenturyLink的路由沒有正確地傳輸互聯(lián)網(wǎng)的一些部分。
為了使互聯(lián)網(wǎng)正常運行,互聯(lián)網(wǎng)服務提供商(ISP)、數(shù)據(jù)中心和網(wǎng)絡提供商通過BGP路由協(xié)議來通告它們路由和管理的IP地址。
由于這主要是一種基于信任的系統(tǒng),大型ISP開始通告它們并不管理的IP地址范圍的路由時,會導致全球性故障和性能問題。
CenturyLink似乎在BGP路由方面犯了一個錯誤,從而導致了當今的大范圍故障。
大概10分鐘前Centurylink似乎撤回了無效的BGP路由,并修復了其網(wǎng)絡問題。作為一項防范措施,我們暫時任由我們的AS3356會話處于宕機狀態(tài),以防Centurylink又出問題。我們會繼續(xù)全天密切關(guān)注事態(tài)。
2020年8月30日10點04分GMT,CenturyLink發(fā)現(xiàn)一個問題影響多個市場的用戶。IP網(wǎng)絡操作中心(NOC)參與其中,初步研究發(fā)現(xiàn),一個存在問題的flowspec通告阻止邊界網(wǎng)關(guān)協(xié)議(BGP)跨整個CenturyLink網(wǎng)絡的多個網(wǎng)絡單元建立起來。IP NOC部署了全局配置變更,以阻止存在問題的flowspec通告,這讓BGP得以開始正確建立起來。變更實施到整個網(wǎng)絡中后,IP NOC觀察到引發(fā)警報的所有相關(guān)服務解除警報、服務回到穩(wěn)定狀態(tài)。
CenturyLink中斷導致全球Web流量下降了3.5%。