又崩了?盤(pán)點(diǎn)2023年十大線上事故!
又崩了?盤(pán)點(diǎn)2023年十大線上事故!
2023 年,互聯(lián)網(wǎng)世界日新月異,線上應(yīng)用已成為我們生活中不可或缺的一部分。然而,在這一年里,一系列令人咋舌的線上事故頻頻發(fā)生,“XXX 崩了”成為熱搜常客。這些事故不僅給用戶帶來(lái)了不便和困擾,也暴露出線上服務(wù)在穩(wěn)定性、安全性和應(yīng)對(duì)突發(fā)事件的能力方面存在的問(wèn)題。本文將盤(pán)點(diǎn) 2023 年的十大線上事故,以期為未來(lái)的線上服務(wù)提供借鑒和警示。
嗶哩嗶哩
3 月 5 日晚,B 站出現(xiàn)服務(wù)器故障,網(wǎng)頁(yè)端和移動(dòng)端的視頻均無(wú)法加載,轉(zhuǎn)發(fā)的視頻鏈接顯示“資源失效”。
圖片
受影響的主要是“番劇”和“影視”頁(yè)面,用戶反映“追番一直提示獲取視頻內(nèi)容失敗”、“顯示頁(yè)面加載失敗”、“看番看一半加載不出來(lái)”。還有用戶反映,首頁(yè)能夠加載,但全部是繁體字。
圖片
6 月 28 日,不少用戶反應(yīng)“B 站崩了”,該詞條隨后上了熱搜。用戶反映“追番一直提示獲取視頻內(nèi)容失敗”“顯示頁(yè)面加載失敗,你們也這樣嗎?”“看番看一半加載不出來(lái),我以為我的網(wǎng)有問(wèn)題”。
該問(wèn)題持續(xù)了一個(gè)多小時(shí)才被解決。
騰訊
3 月 29 日凌晨,大量網(wǎng)友稱微信、QQ 等騰訊旗下社交軟件出現(xiàn)功能異常。微信包括語(yǔ)音呼叫、賬號(hào)登錄、朋友圈以及支付在內(nèi)的多個(gè)功能無(wú)法正常使用,QQ 文件傳輸、QQ 空間、QQ 郵箱等也同樣出現(xiàn)問(wèn)題。
圖片
騰訊客服對(duì)此回應(yīng)稱,由于系統(tǒng)故障,部分用戶使用微信支付相關(guān)功能出現(xiàn)異常,目前正在緊急修復(fù)中。用戶資金安全不受影響。故障修復(fù)后,相關(guān)功能使用將恢復(fù)正常。
圖片
此次事故是由廣州電信機(jī)房冷卻系統(tǒng)故障導(dǎo)致,騰訊將其定義為公司一級(jí)事故。
事后,工信部通信管理局就微信“3.29 事件”約談了騰訊相關(guān)人員,聽(tīng)取了情況匯報(bào),并要求騰訊公司進(jìn)一步健全安全生產(chǎn)管理制度、落實(shí)網(wǎng)絡(luò)運(yùn)行保障措施,堅(jiān)決避免發(fā)生重大安全生產(chǎn)事故,切實(shí)提升公眾業(yè)務(wù)安全穩(wěn)定運(yùn)行水平。
圖片
12 月 3 日, 騰訊視頻突然沒(méi)有會(huì)員了。
圖片
對(duì)此,騰訊視頻官方微博回應(yīng):目前騰訊視頻出現(xiàn)了短暫技術(shù)問(wèn)題,我們正在加緊修復(fù),各項(xiàng)功能在逐步恢復(fù)中。感謝您的耐心等待,由此給您帶來(lái)的不便我們深感歉意。
圖片
唯品會(huì)
3 月 29 日,“唯品會(huì)崩了”登上微博熱搜。唯品會(huì)對(duì)此進(jìn)行了回應(yīng):
圖片
事后,唯品會(huì)發(fā)布了一份處理公告,將 329 機(jī)房宕機(jī)故障判定為 P0 級(jí)故障。官方在公告中稱,此次南沙機(jī)房重大故障影響時(shí)間持續(xù) 12 個(gè)小時(shí),導(dǎo)致公司業(yè)績(jī)損失超億元,影響客戶達(dá) 800 多萬(wàn)。唯品會(huì)表示,決定對(duì)此次事件嚴(yán)肅處理,對(duì)應(yīng)部門(mén)的直接管理者承擔(dān)此次事故責(zé)任,基礎(chǔ)平臺(tái)部負(fù)責(zé)人予以免職做相應(yīng)處理。
Boss 直聘
5 月 24 日,網(wǎng)友反映 Boss 直聘崩了。隨后 Boss 直聘回應(yīng)稱:今日上午部分用戶使用 boss 直聘 pc 端時(shí),部分功能出現(xiàn)異常,經(jīng)過(guò)緊急搶修,目前已恢復(fù)。
7 月 6 日,許多用戶打開(kāi) BOSS 直聘,發(fā)現(xiàn)頁(yè)面中顯示“系統(tǒng)服務(wù)錯(cuò)誤”,無(wú)法正確切換身份。還有網(wǎng)友表示,正和求職者聊著,要馬上約面試了,結(jié)果就崩了。BOSS 直聘也于當(dāng)天發(fā)布消息稱,“7 月 6 日上午,BOSS 直聘 APP 出現(xiàn)短時(shí)間服務(wù)異常,經(jīng)過(guò)團(tuán)隊(duì)搶修已恢復(fù)正常。期間為用戶帶來(lái)的不便我們深表歉意。我們將持續(xù)優(yōu)化服務(wù)保障。感謝大家一直以來(lái)的關(guān)注與支持”。
9 月 15 日,“BOSS 直聘”突然崩潰,許多用戶無(wú)法刷新頁(yè)面,無(wú)法查看新的招聘信息,甚至無(wú)法進(jìn)行聊天交流。
在社交媒體上,一位自稱是 BOSS 直聘員工表示,金九銀十是招聘旺季,2023 年 9 月 15 日 10 點(diǎn) 15 分 26 秒,在線統(tǒng)計(jì)超過(guò) 4700 萬(wàn)人在刷 BOSS 頁(yè)面,目前服務(wù)器超荷載,正在維護(hù),找工作的人比國(guó)慶買(mǎi)票的人還著急。
BOSS 直聘回應(yīng)稱,關(guān)注到一張網(wǎng)傳截圖。服務(wù)器崩了,是真的。技術(shù)要改進(jìn),是真的。網(wǎng)傳的數(shù)據(jù),是假的。請(qǐng)大家不信謠,不傳謠。據(jù)最新數(shù)據(jù),每月使用 BOSS 直聘的用戶,4360 萬(wàn)人?!?/p>
圖片
語(yǔ)雀
10 月 23 日,螞蟻金服旗下的在線文檔編輯與協(xié)同工具語(yǔ)雀發(fā)生了前所未有的 P0 級(jí)事故,導(dǎo)致平臺(tái)無(wú)法正常訪問(wèn)和使用,持續(xù)了近 8 個(gè)小時(shí)(14:10 至 21:45)
圖片
事后,語(yǔ)雀給出了故障原因及處理過(guò)程:
10 月 23 日下午,服務(wù)語(yǔ)雀的數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)在進(jìn)行升級(jí)操作時(shí),由于新的運(yùn)維升級(jí)工具 bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲(chǔ)服務(wù)器被誤下線。受其影響,語(yǔ)雀數(shù)據(jù)服務(wù)發(fā)生嚴(yán)重故障,造成大面積的服務(wù)中斷。為了盡快恢復(fù)服務(wù),我們和數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)全力進(jìn)行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級(jí)等因素,整體用時(shí)較長(zhǎng)。具體過(guò)程如下:
- 14:07 數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)收到監(jiān)控系統(tǒng)報(bào)警,定位到原因是存儲(chǔ)在升級(jí)中因新的運(yùn)維工具 bug 導(dǎo)致節(jié)點(diǎn)機(jī)器下線;
- 14:15 聯(lián)系硬件團(tuán)隊(duì)嘗試將下線機(jī)器重新上線;
- 15:00 確認(rèn)因存儲(chǔ)系統(tǒng)使用的機(jī)器類別較老,無(wú)法直接操作上線,立即調(diào)整恢復(fù)方案為從備份系統(tǒng)中恢復(fù)存儲(chǔ)數(shù)據(jù)。
- 15:10 開(kāi)始新建存儲(chǔ)系統(tǒng),從備份中開(kāi)始恢復(fù)數(shù)據(jù),由于語(yǔ)雀數(shù)據(jù)量龐大,此過(guò)程歷時(shí)較長(zhǎng)
- 19 點(diǎn)完成數(shù)據(jù)恢復(fù);同時(shí)為保障數(shù)據(jù)完整性,在完成恢復(fù)后,用時(shí) 2 個(gè)小時(shí)進(jìn)行數(shù)據(jù)校驗(yàn);
- 21 點(diǎn)存儲(chǔ)系統(tǒng)通過(guò)完整性校驗(yàn),開(kāi)始和語(yǔ)雀團(tuán)隊(duì)聯(lián)調(diào),最終在 22 點(diǎn)恢復(fù)語(yǔ)雀全部服務(wù)。用戶所有數(shù)據(jù)均未丟失。
以及改進(jìn)措施:
通過(guò)這次故障我們深刻認(rèn)識(shí)到,語(yǔ)雀作為一款服務(wù)千萬(wàn)級(jí)客戶的文檔產(chǎn)品,應(yīng)該做到更完善的技術(shù)風(fēng)險(xiǎn)保障和高可用架構(gòu)設(shè)計(jì),尤其是面向技術(shù)變更操作的“可監(jiān)控,可灰度,可回滾”的系統(tǒng)化建設(shè)和流程審計(jì),從同 Region 多副本容災(zāi)升級(jí)為兩地三中心的高可用能力,設(shè)計(jì)足夠的數(shù)據(jù)和系統(tǒng)冗余實(shí)現(xiàn)快速恢復(fù),并進(jìn)行定期的容災(zāi)應(yīng)急演練。只有這樣,才能提升嚴(yán)重基礎(chǔ)設(shè)施故障時(shí)的恢復(fù)速度,并從根本上避免這類故障再次出現(xiàn)。為此我們制定了如下改進(jìn)措施:
- 升級(jí)硬件版本和機(jī)型,實(shí)現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;
- 運(yùn)維團(tuán)隊(duì)加強(qiáng)運(yùn)維工具的質(zhì)量保障與測(cè)試,杜絕此類運(yùn)維 bug 再次發(fā)生;
- 縮小運(yùn)維動(dòng)作灰度范圍,增加灰度時(shí)間,提前發(fā)現(xiàn) bug;
- 從架構(gòu)和高可用層面改進(jìn)服務(wù),為語(yǔ)雀增加存儲(chǔ)系統(tǒng)的異地災(zāi)備。
并針對(duì)語(yǔ)雀?jìng)€(gè)人用戶,贈(zèng)送了 6 個(gè)月的會(huì)員服務(wù)。
阿里云
11 月 12 日 17 時(shí)左右,阿里云突然出現(xiàn)事故,導(dǎo)致阿里云、淘寶、閑魚(yú)、釘釘?shù)葞缀醢⒗锶祽?yīng)用都出現(xiàn)了問(wèn)題。19 時(shí) 20 分左右,經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤(pán)等應(yīng)用已全面恢復(fù)。
圖片
據(jù)統(tǒng)計(jì),這次異常的影響范圍涉及 API 網(wǎng)關(guān)、視頻點(diǎn)播、運(yùn)維事件中心在內(nèi)的 100 多個(gè)產(chǎn)品,北京、硅谷、倫敦等 25 個(gè)地域受影響。
事后,阿里云并未對(duì)外公布事故原因。不過(guò)網(wǎng)上流傳著一份事故報(bào)告,僅供參考:
圖片
滴滴
11 月 27 日晚,滴滴出行出現(xiàn)系統(tǒng)崩潰,至 28 日修復(fù),崩潰時(shí)間長(zhǎng)達(dá) 12 小時(shí)。11 月 29 日,滴滴公布了此次超長(zhǎng)時(shí)間系統(tǒng)故障的致歉聲明。初步調(diào)查結(jié)果顯示,這起事故的起因是底層系統(tǒng)軟件發(fā)生故障,并非網(wǎng)傳的“遭受攻擊”。
圖片
這次事故發(fā)生時(shí),上海、北京、廣州等多地滴滴用戶反饋,滴滴出行 APP 無(wú)法使用,地圖無(wú)法加載。有網(wǎng)友稱,使用滴滴呼叫了網(wǎng)約車后,APP 突然無(wú)法使用,司機(jī)找不到乘客。有網(wǎng)約車司機(jī)在社交平臺(tái)表示,正在送乘客途中,出現(xiàn)導(dǎo)航無(wú)法使用,地圖無(wú)法加載等情況。
圖片
喜馬拉雅
12 月 19 日,不少網(wǎng)友反饋,喜馬拉雅 App 出現(xiàn)崩潰狀況,無(wú)法正常使用或聆聽(tīng)節(jié)目。隨后,喜馬拉雅官博發(fā)文致歉,稱目前已緊急修復(fù),不會(huì)影響用戶的會(huì)員等權(quán)益。
圖片
ChatGPT
11 月 8 日 22:00 開(kāi)始,不少網(wǎng)友反饋 OpenAI 的 ChatGPT,包括 API 都無(wú)法正常使用。OpenAI 出現(xiàn)故障的時(shí)間大約持續(xù)了 100 分鐘,
圖片
事后,OpenAI 也已經(jīng)把這回的故障,定性為了「嚴(yán)重停機(jī)」(Major Outage)。OpenAI 表示發(fā)現(xiàn)一個(gè)問(wèn)題,導(dǎo)致 ChatGPT 和 API 錯(cuò)誤率很高,正在努力解決。直到 23:33,OpenAI 表示確定并實(shí)施了修復(fù)方案,服務(wù)逐漸恢復(fù)正常。
圖片
OpenAI CEO 奧特曼表示,devday(開(kāi)發(fā)者大會(huì))新功能的使用情況遠(yuǎn)遠(yuǎn)超出預(yù)期,公司原計(jì)劃周一為所有訂閱者啟用 GPT,但仍未能實(shí)現(xiàn)。由于負(fù)載的原因,短期內(nèi)可能會(huì)出現(xiàn)服務(wù)不穩(wěn)定的情況。
圖片
X
12 月 21 日,國(guó)外知名社交平臺(tái) X(原推特)遭遇突發(fā)崩潰事故。許多用戶反映無(wú)法正常加載頁(yè)面、瀏覽個(gè)人資料、查看粉絲列表等操作,該社交平臺(tái)幾乎處于癱瘓狀態(tài)。
這已是 X 平臺(tái)今年第二次大規(guī)模宕機(jī)事件。早在今年 3 月,該平臺(tái)便經(jīng)歷了一次全球性中斷。自 440 億美元收購(gòu)后,馬斯克對(duì)其進(jìn)行了大幅裁員,裁員幅度接近 80%,其中包括許多負(fù)責(zé)修復(fù)和防止服務(wù)中斷的工程師。