微信為啥不丟“離線消息”?
需求緣起
當(dāng)發(fā)送方用戶A發(fā)送消息給接收方用戶B時(shí),如果用戶B在線,之前的文章《微信為啥不丟“在線消息”?》聊過(guò),可以通過(guò)應(yīng)用層的確認(rèn),發(fā)送方的超時(shí)重傳,接收方的去重保證業(yè)務(wù)層面消息的不丟不重。
那如果接收方用戶B不在線,系統(tǒng)是如何保證消息的可達(dá)性的呢?這是本文要討論的問(wèn)題。
問(wèn)題:接收方不在線時(shí),消息發(fā)送的流程是怎么樣的?
回答:如上圖所述,
(1)用戶A發(fā)送消息給用戶B
(2)服務(wù)器查看用戶B的狀態(tài)為offline
(3)服務(wù)器將消息存儲(chǔ)到DB中
(4)服務(wù)器返回用戶A發(fā)送成功(對(duì)于發(fā)送方而言,消息落地DB就認(rèn)為發(fā)送成功)
問(wèn)題:離線消息表的設(shè)計(jì),拉取離線的過(guò)程?
receiver_uid, msg_id, time, sender_uid,msg_type, msg_content …
訪問(wèn)模式:接收方B要拉取發(fā)送方A給ta發(fā)送的離線消息,只需在receiver_uid(B), sender_uid(A)上查詢,然后把離線消息刪除,再把消息返回B即可。
整體流程如上圖所述,
(1)用戶B拉取用戶A發(fā)送給ta的離線消息
(2)服務(wù)器從DB中拉取離線消息
(3)服務(wù)器從DB中把離線消息刪除
(4)服務(wù)器返回給用戶B想要的離線消息
問(wèn)題:上述流程存在的問(wèn)題?
回答:如果用戶B有很多好友,登陸時(shí)客戶端需要對(duì)所有好友進(jìn)行離線消息拉取,客戶端與服務(wù)器交互次數(shù)較多
客戶端偽代碼:
- for(all uid in B’s friend-list){ // 登陸時(shí)所有好友都要拉取
- get_offline_msg(B,uid); // 與服務(wù)器交互
- }
優(yōu)化方案一:先拉取各個(gè)好友的離線消息數(shù)量,真正用戶B進(jìn)去看離線消息時(shí),才往服務(wù)器發(fā)送拉取請(qǐng)求(手機(jī)端為了節(jié)省流量,經(jīng)常會(huì)使用這個(gè)按需拉取的優(yōu)化)
優(yōu)化方案二:一次性拉取所有好友發(fā)送給用戶B的離線消息,到客戶端本地再根據(jù)sender_uid進(jìn)行計(jì)算,這樣的話,離校消息表的訪問(wèn)模式就變?yōu)?>只需要按照receiver_uid來(lái)查詢了。登錄時(shí)與服務(wù)器的交互次數(shù)降低為了1次。
問(wèn)題:用戶B一次性拉取所有好友發(fā)給ta的離線消息,消息量很大時(shí),一個(gè)請(qǐng)求包很大,速度慢,容易卡頓怎么辦?
回答:分頁(yè)拉取,根據(jù)業(yè)務(wù)需求,先拉取***(或者最舊)的一頁(yè)消息,再按需一頁(yè)頁(yè)拉取。
問(wèn)題:如何保證可達(dá)性,上述步驟第三步執(zhí)行完畢之后,第四個(gè)步驟離線消息返回給客戶端過(guò)程中,服務(wù)器掛點(diǎn),路由器丟消息,或者客戶端crash了,那離線消息豈不是丟了么(數(shù)據(jù)庫(kù)已刪除,用戶還沒(méi)收到)?
回答:嗯,如果按照上述的1,2,3,4步流程,的確是的,那如何保證離線消息的可達(dá)性?
如同在線消息的應(yīng)用層ACK機(jī)制一樣,離線消息拉時(shí),不能夠直接刪除數(shù)據(jù)庫(kù)中的離線消息,而必須等應(yīng)用層的離線消息ACK(說(shuō)明用戶B真的收到離線消息了),才能刪除數(shù)據(jù)庫(kù)中的離線消息。
問(wèn)題:如果用戶B拉取了一頁(yè)離線消息,卻在ACK之前crash了,下次登錄時(shí)會(huì)拉取到重復(fù)的離線消息么?
回答:拉取了離線消息卻沒(méi)有ACK,服務(wù)器不會(huì)刪除之前的離線消息,故下次登錄時(shí)系統(tǒng)層面還會(huì)拉取到。但在業(yè)務(wù)層面,可以根據(jù)msg_id去重。SMC理論:系統(tǒng)層面無(wú)法做到消息不丟不重,業(yè)務(wù)層面可以做到,對(duì)用戶無(wú)感知。
問(wèn)題:假設(shè)有N頁(yè)離線消息,現(xiàn)在每個(gè)離線消息需要一個(gè)ACK,那么豈不是客戶端與服務(wù)器的交互次數(shù)又加倍了?有沒(méi)有優(yōu)化空間?
回答:不用每一頁(yè)消息都ACK,在拉取第二頁(yè)消息時(shí)相當(dāng)于***頁(yè)消息的ACK,此時(shí)服務(wù)器再刪除***頁(yè)的離線消息即可,***一頁(yè)消息再ACK一次。這樣的效果是,不管拉取多少頁(yè)離線消息,只會(huì)多一個(gè)ACK請(qǐng)求,與服務(wù)器多一次交互。
總結(jié)
“離線消息”的可達(dá)性可能比大家想象的要復(fù)雜,常見的優(yōu)化有:
(1)對(duì)于同一個(gè)用戶B,一次性拉取所有用戶發(fā)給ta的離線消息,再在客戶端本地進(jìn)行發(fā)送方分析,相比按照發(fā)送方一個(gè)個(gè)進(jìn)行消息拉取,能大大減少服務(wù)器交互次數(shù)
(2)分頁(yè)拉取,先拉取計(jì)數(shù)再按需拉取,是無(wú)線端的常見優(yōu)化
(3)應(yīng)用層的ACK,應(yīng)用層的去重,才能保證離線消息的不丟不重
(4)下一頁(yè)的拉取,同時(shí)作為上一頁(yè)的ACK,能夠極大減少與服務(wù)器的交互次數(shù)
文章轉(zhuǎn)載自微信公眾號(hào)“架構(gòu)師之路”