通過(guò)滴滴技術(shù)博客:探尋造成此次P0故障的真正原因
2023年11月27日晚至2023年11月28日早晨,滴滴發(fā)生了長(zhǎng)達(dá)12小時(shí)的P0級(jí)故障,導(dǎo)致滴滴核心業(yè)務(wù)都受到了影響,比如不顯示定位無(wú)法打車(chē)、滴滴單車(chē)無(wú)法掃碼等問(wèn)題,期間滴滴進(jìn)行了多次致歉。
圖片
來(lái)源:https://weibo.com/2838754010/NuMAAaUEl
目前問(wèn)題故障已經(jīng)恢復(fù),根據(jù)最新的消息得知造成此次事故的原因,是由于升級(jí)K8S 集群導(dǎo)致。
圖片
1. 集群體量大
最大集群規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出了社區(qū)推薦的5千個(gè) node 上限,有問(wèn)題的爆炸半徑大。
圖片
2. 版本升級(jí)跨度大
直接從1.12 升級(jí)到了1.20,跨越多個(gè)版本,有可能存在api不兼容的問(wèn)題。
3. 升級(jí)方式應(yīng)該選擇了原地升級(jí)
雖然滴滴有能力基于K8S二次開(kāi)發(fā),但是由于版本跨度較大,細(xì)節(jié)點(diǎn)較多,原地升級(jí)風(fēng)險(xiǎn)我覺(jué)得比替換升級(jí)大不少。
比如集群版本已經(jīng)升級(jí)為1.20,但是Node節(jié)點(diǎn)的kubelet的版本還是 1.12,如果api不兼容,那么這個(gè)影響是非常大的,集群回滾又沒(méi)有那么快。
圖片
至于為什么采用原地升級(jí)方案,估計(jì)還有很多細(xì)節(jié)我們不得而知,但是此種方式確實(shí)有點(diǎn)激進(jìn),船大不好掉頭。