降本增笑:滴滴P0級故障
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
2023 年 11 月 27 日晚間,滴滴因系統(tǒng)故障導(dǎo)致 App 服務(wù)異常,不顯示定位且無法打車。11 月 27 日晚,滴滴出行進(jìn)行了回復(fù):非常抱歉,由于系統(tǒng)故障。
11 月 27 日深夜,上海、北京、廣州等多地滴滴用戶反饋,滴滴出行 App 無法使用,顯示網(wǎng)絡(luò)異常,地圖無法加載,用戶無法使用定位功能且無法打車。
“滴滴崩了”的話題隨即登上微博熱搜。熱搜話題下不少用戶發(fā)帖表達(dá)自己在使用滴滴 App 過程中遇到的“奇葩”問題。
有用戶反饋雖然打到了車,但同時來了好幾輛車,有的用戶遇到來了三輛、有用戶遇到來了四輛車,無法取消,無法聯(lián)系客服。
圖片
從各平臺上的反饋來看,此次滴滴平臺在接單、定位、計費等環(huán)節(jié)上都出現(xiàn)了問題。
有網(wǎng)約車司機表示,昨晚 App 崩潰時剛好在接單,“從晚上 10 點 20 分開始什么都做不了,客服電話也進(jìn)不了線。目前恢復(fù)了少部分功能,但不能正常使用,很多錯單亂單,還出現(xiàn)了多位司機接同一單的現(xiàn)象?!?/p>
27 日深夜,滴滴出行對滴滴 App 服務(wù)出現(xiàn)異常進(jìn)行了回復(fù),滴滴出行稱:非常抱歉,由于系統(tǒng)故障,今天晚間滴滴 App 服務(wù)出現(xiàn)異常,技術(shù)目前正陸續(xù)恢復(fù)中。由此給廣大用戶和司機師傅們造成不便,再次向大家致歉。
圖片
2023 年 11 月 28 日早間,滴滴出行消息稱,網(wǎng)約車等服務(wù)已恢復(fù),騎車等在陸續(xù)修復(fù)中。11 月 28 日,在滴滴發(fā)出公告的同時,記者在上海、深圳等地使用滴滴呼叫網(wǎng)約車,發(fā)現(xiàn)網(wǎng)約車功能并未恢復(fù)使用,網(wǎng)絡(luò)加載異常,仍無法打車。11 月 28 日,滴滴向記者回應(yīng)稱,網(wǎng)約車服務(wù)已恢復(fù),司機乘客權(quán)益陸續(xù)恢復(fù)補發(fā)。
11 月 29 日,滴滴再次發(fā)文致歉,稱初步確定事故起因是底層系統(tǒng)軟件發(fā)生故障。
圖片
來源:https://weibo.com/2838754010/NuMAAaUEl
在滴滴官方發(fā)布這份公告之前,已經(jīng)有資深 IT 技術(shù)人士分析:“從表現(xiàn)上看,打車、共享單車全掛,不同的業(yè)務(wù)板塊之間應(yīng)該是有隔離的,說明問題出在更加底層的基礎(chǔ)設(shè)施。攻擊者一般只能訪問到應(yīng)用層,基礎(chǔ)設(shè)施訪問不到。要么是被攻擊者打穿,要么是自己系統(tǒng)操作不慎掛了。即便是前者,也算是一種系統(tǒng)缺陷,才會被打穿?!?/p>
360 安全專家認(rèn)為,滴滴閃崩背后的技術(shù)原因可能有六種:
第一,系統(tǒng)更新升級過程中出現(xiàn)了編程錯誤、邏輯錯誤或未處理的異常情況:一般情況下,互聯(lián)網(wǎng)廠商發(fā)布更新都會在晚上,與滴滴發(fā)生故障的時間也能對應(yīng),當(dāng)然業(yè)務(wù)升級維護(hù)是放量更新,但現(xiàn)在滴滴全平臺、全業(yè)務(wù)都故障了,說明肯定是他 “家里” 的問題。
第二,服務(wù)器故障:比如滴滴的核心機房,可能恒溫恒濕環(huán)境出了問題,導(dǎo)致服務(wù)器過熱、CPU 燒了,或者核心機房所在地發(fā)生了自然災(zāi)害如地震、洪水、海嘯等,這種情況下,硬件需要重新更換,里面的服務(wù)軟件也需要重新配置,恢復(fù)周期相對較長,但這個可能性比較小。
第三,第三方服務(wù)故障:滴滴的后臺架構(gòu)可能使用了第三方服務(wù)或者組件。如果第三方出了問題,也可能會影響滴滴的正常運行。但出于安全性考慮,滴滴可能不會將核心業(yè)務(wù)托管給第三方,不過這個可能性也較小。
第四,DDOS 攻擊:黑客采用分布式拒絕服務(wù)的方式,搶占了大量的服務(wù)器資源,導(dǎo)致用戶無法訪問,但這個不太可能,因為 DDos 不會導(dǎo)致數(shù)據(jù)出錯,而且滴滴從體量上來說,有足夠的成本和能力去對抗。
第五,其他網(wǎng)絡(luò)攻擊:某些黑灰產(chǎn)團(tuán)伙可能會通過拖庫盜取數(shù)據(jù),然后在暗網(wǎng)上售賣,在這個過程中不排除會有誤操作,破壞了數(shù)據(jù)庫。
第六,勒索病毒:網(wǎng)絡(luò)攻擊黑客對滴滴的底層數(shù)據(jù)、業(yè)務(wù)代碼進(jìn)行了加密。據(jù)披露現(xiàn)象,用戶的賬單和打車數(shù)據(jù)都算錯了,存在一定可能是滴滴為了避免更大損失主動暫停了業(yè)務(wù)。近期勒索攻擊事件屢屢發(fā)生,月初,某金融機構(gòu)就是因為遭遇勒索病毒攻擊造成了業(yè)務(wù)停擺。
不過也有網(wǎng)絡(luò)安全公司專家認(rèn)為,如果是來自外部的黑客攻擊,公司一般會在第一時間進(jìn)行聲明。他猜測更集中于滴滴發(fā)生了內(nèi)部重大業(yè)務(wù)調(diào)整,或有新業(yè)務(wù)接入原系統(tǒng),但沒有做好預(yù)案,導(dǎo)致關(guān)聯(lián)業(yè)務(wù)或關(guān)聯(lián)系統(tǒng)出現(xiàn)重大故障,這是大公司系統(tǒng)故障最常見的原因。
因此對于滴滴此次大規(guī)模的長時間故障,有行業(yè)人士認(rèn)為,降本增效可能也是原因之一。
該人士認(rèn)為,互聯(lián)網(wǎng)公司核心業(yè)務(wù)頻繁宕機,且長時間宕機,是降本增效的附屬品之一。系統(tǒng)投資少了,維護(hù)資源少了,程序員更換頻繁了,BUG 就多。
他舉例稱,一般在業(yè)務(wù)上行階段都有冗余,為了迎接隨時爆發(fā)的訂單,上行階段要維持負(fù)載的上限不能過大,比如平時 70%,這樣遇到一個小爆發(fā)不用擔(dān)心會出問題,足以應(yīng)對小高峰;但是下行期的邏輯就不同了,負(fù)載很高的時候抗一抗就行了,雖然后面遇到小高峰可能會難受,但是隨著時間的推移總體負(fù)載會下降。
其實類似故障情況在 2022 年 9 月 22 日也曾出現(xiàn)過。當(dāng)日滴滴出行官方微博致歉稱由于機房網(wǎng)絡(luò)故障,導(dǎo)致滴滴部分服務(wù)受影響。
然而像今天這樣大面積、長時間的故障,應(yīng)該是滴滴史上少有的。以目前情況來看,大家還無法確認(rèn)故障原因。有技術(shù)專家感慨于修復(fù)時間太長,表示“是時候廢棄微服務(wù)了,別覺得自己水平多高,看看今天的滴滴吧?!?/p>
而更多人則認(rèn)為這次故障跟“降本增效”有關(guān)。如平時為了迎接隨時爆發(fā)的訂單,設(shè)置了足夠多的冗余,但現(xiàn)在可能沒有給予足夠的冗余量。根據(jù)相關(guān)資料顯示,目前滴滴由滴滴云提供服務(wù)。滴滴云官網(wǎng)顯示,滴滴出行的云計算服務(wù)基于滴滴出行的業(yè)務(wù)技術(shù)和經(jīng)驗積累,采用領(lǐng)先的云計算架構(gòu)、高規(guī)格服務(wù)器集群搭建、高性能資源配置機制、精細(xì)化運營模式,致力于為開發(fā)者提供簡單快捷、高效穩(wěn)定、高性價比、安全可靠的 IT 基礎(chǔ)設(shè)施云服務(wù)。在今年 2 月,滴滴云發(fā)布公告,由于產(chǎn)品線調(diào)整,滴滴云在 2023 年 3 月 31 日起將不再對外提供公有云服務(wù)。
圖片
對于互聯(lián)網(wǎng)大廠研發(fā)和架構(gòu)師常常提到的高可用性,此次事故讓人不禁感嘆,難道同城多活、異地多活只是PPT里的說辭嗎?降本增效的所謂互聯(lián)網(wǎng)方式,難道只是裁員留下一堆中層領(lǐng)導(dǎo)天天寫PPT來維護(hù)系統(tǒng)嗎?
降本增笑,開猿節(jié)流帶來的后果是:
9月份,Boss直聘服務(wù)器崩了 11月初,阿里云服務(wù)器崩了
11月底,滴滴服務(wù)器崩了
下一位會是誰?
最后來看一下網(wǎng)傳的消息,有同行說滴滴這次嚴(yán)重故障是升級 k8s 版本導(dǎo)致,當(dāng)時 SRE 工程師定位了三個小時都沒定位到問題。
圖片
圖片
從滴滴公開的技術(shù)分享來看,滴滴彈性云在上個月升級了 k8s 版本:從 k8s 1.12 升級到 1.20。(K8s 1.12 發(fā)布于 2018 年,K8s 1.20 發(fā)布于 2020 年。)
圖片
來源:滴滴彈性云基于 K8S 的調(diào)度實踐
另外,滴滴還為所有用戶派發(fā)了一張 “致歉補償券”,無門檻使用,立減 10 元。
不過,有用戶反饋補償券領(lǐng)取失敗,并且登上百度熱搜,因此有用戶質(zhì)疑補償券是限量的。
圖片
對此,滴滴客服回應(yīng)稱:補償券不是限制數(shù)量的,目前領(lǐng)取人數(shù)較多,辛苦您后續(xù)重新嘗試領(lǐng)取。
圖片
原文鏈接:https://mp.weixin.qq.com/s/CkmK155WBVfYp_FTzhYyCg