案例 | 一份令人警醒的網(wǎng)絡(luò)重大故障報告
2018年12月6日,對于日本運營商軟銀,簡直是噩夢般的一天。
下午13點39分,軟銀東日本和西日本兩大中心機房的18臺4G核心網(wǎng)網(wǎng)元突發(fā)故障,造成全網(wǎng)大量用戶無法正常通信。
軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團,整整花了近兩個小時才定位出故障原因,直到下午18點04分才恢復(fù)故障。
本次故障歷時4小時25分,共計造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。
事故發(fā)生后,軟銀高層向用戶公開道歉,并承諾以后將加強設(shè)備備份管理,嚴(yán)防事故再次發(fā)生。
由于故障發(fā)生在白天,影響范圍廣,對軟銀造成了極大的負面影響,股票大跌,5天內(nèi)超過1萬戶用戶解約。
估計連日本總務(wù)省也驚呆了,直到20天后,也就是今天,才官方公布確認“收到軟銀提交的嚴(yán)重事故報告”。
以下內(nèi)容來自軟銀的故障報告…
概要
發(fā)生時間:
2018年12月6日 13:39至18:04(4小時25分鐘)
影響內(nèi)容:
•4G LTE移動電話無法進行語音通話和數(shù)據(jù)通信。
•部分LTE 固話和家庭Wi-Fi無法正常使用
•由于4G網(wǎng)絡(luò)故障,導(dǎo)致3G網(wǎng)絡(luò)擁塞
影響范圍:
全國(約3060萬線用戶)
故障原因:
4G核心網(wǎng)設(shè)備(MME)軟件缺陷導(dǎo)致。
故障原因分析
故障具體原因為核心網(wǎng)網(wǎng)元MME(移動管理實體),即4G分組交換設(shè)備的數(shù)字證書(TSL證書)過期導(dǎo)致。
TLS(Transport Layer Security,傳輸層安全)是為網(wǎng)絡(luò)通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。
軟銀解釋到,他們在東日本和西日本兩大中心機房合計部署了18臺分組交換設(shè)備,這些設(shè)備都是按照遠期需求配置,有足夠的負荷冗余量,目前僅使用了30%-40%的負荷。
同時,18臺設(shè)備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設(shè)備發(fā)生故障都不會影響服務(wù)正常提供。
但是,數(shù)字證書過期這種事就不一樣了。
TSL數(shù)字證書過期,意味著系統(tǒng)無法識別那些連接分組交換設(shè)備的其他設(shè)備是否合法,此時,系統(tǒng)檢測到異常,根據(jù)軟銀現(xiàn)網(wǎng)設(shè)置,會采用重啟的方式來試圖恢復(fù)。
不過,數(shù)字證書過期這種事,即使重啟N次,也是無法恢復(fù)的,因此,就發(fā)生了不斷重啟的死循環(huán),從而導(dǎo)致了這次重大故障。
此外,由于4G網(wǎng)絡(luò)服務(wù)中斷,導(dǎo)致大量用戶轉(zhuǎn)移到3G網(wǎng)絡(luò),這也造成3G網(wǎng)絡(luò)嚴(yán)重擁塞。
數(shù)字證書過期了
為什么沒有及早發(fā)現(xiàn)?
軟銀解釋到,該分組交換設(shè)備的數(shù)字證書不同于其他網(wǎng)絡(luò)設(shè)備。
通常,對于其他網(wǎng)絡(luò)設(shè)備,我們在購買設(shè)備后,是可以自行確認數(shù)字證書到期時間的。
但分組交換設(shè)備的數(shù)字證書是通過嵌入式軟件固化在相應(yīng)硬件里的,作為運營商,我們無法確認到期時間。
解決措施
臨時解決措施
本次故障是由2018年4月升級的Ver.1.14版本引起,而之前的Ver.1.08版本沒有問題,因此,臨時解決措施是從Ver.1.14版本回滾到Ver.1.08版本,但這會導(dǎo)致一些4G物聯(lián)網(wǎng)功能無法使用。
中期解決措施
1)全網(wǎng)普查所有設(shè)備的相關(guān)證書是否到期,包括全網(wǎng)基站設(shè)備。
2)制定更加嚴(yán)格的新設(shè)備和新軟件版本入網(wǎng)測試規(guī)范。
3)要求在設(shè)備升級后一年內(nèi),保留舊版本軟件,以在新版軟件出現(xiàn)類似問題后,快速回滾到舊版本。
***性措施
1)要求以后所有購買的網(wǎng)絡(luò)設(shè)備和軟件,運營商均可自行檢查數(shù)字證書是否到期。
2)更改系統(tǒng)異常檢測和應(yīng)急機制,當(dāng)系統(tǒng)檢測到網(wǎng)絡(luò)異常時,不再只是重啟恢復(fù),而是設(shè)置異常告警級別,根據(jù)門限判定是重啟還是繼續(xù)運行。
3)由于引起本次重大事故的原因之一是由于所有設(shè)備都來自同一家供應(yīng)商,因此,要求在2019年6月30日之前引入多家設(shè)備供應(yīng)商,以分散風(fēng)險。
看完軟銀的故障報告,感覺是字里行間透露出一萬個“萬萬沒想到”,盡管各種備份容災(zāi)都做到位了,但意外還是發(fā)生了。真是網(wǎng)絡(luò)安全無小事,運維責(zé)任重如山,令人警醒。