自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文總結(jié):分布式一致性技術(shù)是如何演進(jìn)的?

開(kāi)發(fā) 開(kāi)發(fā)工具 分布式
分布式一致性(Consensus)作為分布式系統(tǒng)的基石,一直都是計(jì)算機(jī)系統(tǒng)領(lǐng)域的熱點(diǎn)。近年來(lái)隨著分布式系統(tǒng)的規(guī)模越來(lái)越大,對(duì)可用性和一致性的要求越來(lái)越高,分布式一致性的應(yīng)用也越來(lái)越廣泛。

[[334877]]

分布式一致性(Consensus)作為分布式系統(tǒng)的基石,一直都是計(jì)算機(jī)系統(tǒng)領(lǐng)域的熱點(diǎn)。近年來(lái)隨著分布式系統(tǒng)的規(guī)模越來(lái)越大,對(duì)可用性和一致性的要求越來(lái)越高,分布式一致性的應(yīng)用也越來(lái)越廣泛??v觀分布式一致性在工業(yè)界的應(yīng)用,從最開(kāi)始的鼻祖Paxos的一統(tǒng)天下,到橫空出世的Raft的流行,再到如今Leaderless的EPaxos開(kāi)始備受關(guān)注,背后的技術(shù)是如何演進(jìn)的?本文將從技術(shù)角度探討分布式一致性在工業(yè)界的應(yīng)用,并從可理解性、可用性、效率和適用場(chǎng)景等幾個(gè)角度進(jìn)行對(duì)比分析。

分布式一致性

分布式一致性,簡(jiǎn)單的說(shuō)就是在一個(gè)或多個(gè)進(jìn)程提議了一個(gè)值后,使系統(tǒng)中所有進(jìn)程對(duì)這個(gè)值達(dá)成一致。

 

為了就某個(gè)值達(dá)成一致,每個(gè)進(jìn)程都可以提出自己的提議,最終通過(guò)分布式一致性算法,所有正確運(yùn)行的進(jìn)程學(xué)習(xí)到相同的值。

工業(yè)界對(duì)分布式一致性的應(yīng)用,都是為了構(gòu)建多副本狀態(tài)機(jī)模型(Replicated State Machine),實(shí)現(xiàn)高可用和強(qiáng)一致。

 

分布式一致性使多臺(tái)機(jī)器具有相同的狀態(tài),運(yùn)行相同的確定性狀態(tài)機(jī),在少數(shù)機(jī)器故障時(shí)整體仍能正常工作。

 

Paxos

Paxos達(dá)成一個(gè)決議至少需要兩個(gè)階段(Prepare階段和Accept階段)。

 

Prepare階段的作用:

  • 爭(zhēng)取提議權(quán),爭(zhēng)取到了提議權(quán)才能在Accept階段發(fā)起提議,否則需要重新?tīng)?zhēng)取。
  • 學(xué)習(xí)之前已經(jīng)提議的值。

Accept階段使提議形成多數(shù)派,提議一旦形成多數(shù)派則決議達(dá)成,可以開(kāi)始學(xué)習(xí)達(dá)成的決議。Accept階段若被拒絕需要重新走Prepare階段。

Multi-Paxos

Basic Paxos達(dá)成一次決議至少需要兩次網(wǎng)絡(luò)來(lái)回,并發(fā)情況下可能需要更多,極端情況下甚至可能形成活鎖,效率低下,Multi-Paxos正是為解決此問(wèn)題而提出。

 

Multi-Paxos選舉一個(gè)Leader,提議由Leader發(fā)起,沒(méi)有競(jìng)爭(zhēng),解決了活鎖問(wèn)題。提議都由Leader發(fā)起的情況下,Prepare階段可以跳過(guò),將兩階段變?yōu)橐浑A段,提高效率。Multi-Paxos并不假設(shè)唯一Leader,它允許多Leader并發(fā)提議,不影響安全性,極端情況下退化為Basic Paxos。 Multi-Paxos與Basic Paxos的區(qū)別并不在于Multi(Basic Paxos也可以Multi),只是在同一Proposer連續(xù)提議時(shí)可以優(yōu)化跳過(guò)Prepare直接進(jìn)入Accept階段,僅此而已。

Raft

不同于Paxos直接從分布式一致性問(wèn)題出發(fā)推導(dǎo)出來(lái),Raft則是從多副本狀態(tài)機(jī)的角度提出,使用更強(qiáng)的假設(shè)來(lái)減少需要考慮的狀態(tài),使之變的易于理解和實(shí)現(xiàn)。 Raft與Multi-Paxos有著千絲萬(wàn)縷的關(guān)系,下面總結(jié)了Raft與Multi-Paxos的異同。 Raft與Multi-Paxos中相似的概念:

 

  • Raft的Leader即Multi-Paxos的Proposer。
  • Raft的Term與Multi-Paxos的Proposal ID本質(zhì)上是同一個(gè)東西。
  • Raft的Log Entry即Multi-Paxos的Proposal。
  • Raft的Log Index即Multi-Paxos的Instance ID。
  • Raft的Leader選舉跟Multi-Paxos的Prepare階段本質(zhì)上是相同的。
  • Raft的日志復(fù)制即Multi-Paxos的Accept階段。

Raft與Multi-Paxos的不同:

 

Raft假設(shè)系統(tǒng)在任意時(shí)刻最多只有一個(gè)Leader,提議只能由Leader發(fā)出(強(qiáng)Leader),否則會(huì)影響正確性;而Multi-Paxos雖然也選舉Leader,但只是為了提高效率,并不限制提議只能由Leader發(fā)出(弱Leader)。 強(qiáng)Leader在工程中一般使用Leader Lease和Leader Stickiness來(lái)保證:

  • Leader Lease:上一任Leader的Lease過(guò)期后,隨機(jī)等待一段時(shí)間再發(fā)起Leader選舉,保證新舊Leader的Lease不重疊。
  • Leader Stickiness:Leader Lease未過(guò)期的Follower拒絕新的Leader選舉請(qǐng)求。

Raft限制具有最新已提交的日志的節(jié)點(diǎn)才有資格成為L(zhǎng)eader,Multi-Paxos無(wú)此限制。 Raft在確認(rèn)一條日志之前會(huì)檢查日志連續(xù)性,若檢查到日志不連續(xù)會(huì)拒絕此日志,保證日志連續(xù)性,Multi-Paxos不做此檢查,允許日志中有空洞。 Raft在AppendEntries中攜帶Leader的commit index,一旦日志形成多數(shù)派,Leader更新本地的commit index即完成提交,下一條AppendEntries會(huì)攜帶新的commit index通知其它節(jié)點(diǎn);Multi-Paxos沒(méi)有日志連接性假設(shè),需要額外的commit消息通知其它節(jié)點(diǎn)。

EPaxos

EPaxos(Egalitarian Paxos)于SOSP'13提出,比Raft還稍早一些,但Raft在工業(yè)界大行其道的時(shí)間里,EPaxos卻長(zhǎng)期無(wú)人問(wèn)津,直到最近,EPaxos開(kāi)始被工業(yè)界所關(guān)注。

EPaxos是一個(gè)Leaderless的一致性算法,任意副本均可提交日志,通常情況下,一次日志提交需要一次或兩次網(wǎng)絡(luò)來(lái)回。

EPaxos無(wú)Leader選舉開(kāi)銷(xiāo),一個(gè)副本不可用可立即訪問(wèn)其他副本,具有更高的可用性。各副本負(fù)載均衡,無(wú)Leader瓶頸,具有更高的吞吐量??蛻舳丝蛇x擇最近的副本提供服務(wù),在跨AZ跨地域場(chǎng)景下具有更小的延遲。

不同于Paxos和Raft,事先對(duì)所有Instance編號(hào)排序,然后再對(duì)每個(gè)Instance的值達(dá)成一致。EPaxos不事先規(guī)定Instance的順序,而是在運(yùn)行時(shí)動(dòng)態(tài)決定各Instance之間的順序。EPaxos不僅對(duì)每個(gè)Instance的值達(dá)成一致,還對(duì)Instance之間的相對(duì)順序達(dá)成一致。EPaxos將不同Instance之間的相對(duì)順序也做為一致性問(wèn)題,在各個(gè)副本之間達(dá)成一致,因此各個(gè)副本可并發(fā)地在各自的Instance中發(fā)起提議,在這些Instance的值和相對(duì)順序達(dá)成一致后,再對(duì)它們按照相對(duì)順序重新排序,最后按順序應(yīng)用到狀態(tài)機(jī)。

從圖論的角度看,日志是圖的結(jié)點(diǎn),日志之間的順序是圖的邊,EPaxos對(duì)結(jié)點(diǎn)和邊分別達(dá)成一致,然后使用拓?fù)渑判?,決定日志的順序。圖中也可能形成環(huán)路,EPaxos需要處理循環(huán)依賴(lài)的問(wèn)題。

EPaxos引入日志沖突的概念(與Parallel Raft類(lèi)似,與并發(fā)沖突不是一個(gè)概念),若兩條日志之間沒(méi)有沖突(例如訪問(wèn)不同的key),則它們的相對(duì)順序無(wú)關(guān)緊要,因此EPaxos只處理有沖突的日志之間的相對(duì)順序。

 

若并發(fā)提議的日志之間沒(méi)有沖突,EPaxos只需要運(yùn)行PreAccept階段即可提交(Fast Path),否則需要運(yùn)行Accept階段才能提交(Slow Path)。

 

PreAccept階段嘗試將日志以及與其它日志之間的相對(duì)順序達(dá)成一致,同時(shí)維護(hù)該日志與其它日志之間的沖突關(guān)系,如果運(yùn)行完P(guān)reAccept階段,沒(méi)有發(fā)現(xiàn)該日志與其它并發(fā)提議的日志之間有沖突,則該日志以及與其它日志之間的相對(duì)順序已經(jīng)達(dá)成一致,直接發(fā)送異步的Commit消息提交;否則如果發(fā)現(xiàn)該日志與其它并發(fā)提議的日志之間有沖突,則日志之間的相對(duì)順序還未達(dá)成一致,需要運(yùn)行Accept階段將沖突依賴(lài)關(guān)系達(dá)成多數(shù)派,再發(fā)送Commit消息提交。

 

EPaxos的Fast Path Quorum為2F,可優(yōu)化至F + [ (F + 1) / 2 ],在3副本和5副本時(shí),與Paxos、Raft一致。Slow Path 為Paxos Accept階段,Quorum固定為F + 1。 EPaxos還有一個(gè)主動(dòng)Learn的算法,在恢復(fù)的時(shí)候可用來(lái)追趕日志,這里就不做具體的介紹了,感興趣的可以看論文。

對(duì)比分析

從Paxos到Raft再到EPaxos,背后的技術(shù)是怎么樣演進(jìn)的,我們可以從算法本身來(lái)做個(gè)對(duì)比,下面主要從可理解性、效率、可用性和適用場(chǎng)景等幾個(gè)角度進(jìn)行對(duì)比分析。

1 可理解性

眾所周知,Paxos是出了名的晦澀難懂,不僅難以理解,更難以實(shí)現(xiàn)。而Raft則以可理解性和易于實(shí)現(xiàn)為目標(biāo),Raft的提出大大降低了使用分布式一致性的門(mén)檻,將分布式一致性變的大眾化、平民化,因此當(dāng)Raft提出之后,迅速得到青睞,極大地推動(dòng)了分布式一致性的工程應(yīng)用。

EPaxos的提出比Raft還早,但卻長(zhǎng)期無(wú)人問(wèn)津,很大一個(gè)原因就是EPaxos實(shí)在是難以理解。EPaxos基于Paxos,但卻比Paxos更難以理解,大大地阻礙了EPaxos的工程應(yīng)用。不過(guò),是金子總會(huì)發(fā)光的,EPaxos因著它獨(dú)特的優(yōu)勢(shì),終于被人們發(fā)現(xiàn),具有廣闊的前景。

2 效率

從Paxos到Raft再到EPaxos,效率有沒(méi)有提升呢?我們主要從負(fù)載均衡、消息復(fù)雜度、Pipeline以及并發(fā)處理幾個(gè)方面來(lái)對(duì)比Multi-Paxos、Raft和EPaxos。

負(fù)載均衡

Multi-Paxos和Raft的Leader負(fù)載更高,各副本之間負(fù)載不均衡,Leader容易成為瓶頸,而EPaxos無(wú)需Leader,各副本之間負(fù)載完全均衡。

消息復(fù)雜度

Multi-Paxos和Raft選舉出Leader之后,正常只需要一次網(wǎng)絡(luò)來(lái)回就可以提交一條日志,但Multi-Paxos需要額外的異步Commit消息提交,Raft只需要推進(jìn)本地的commit index,不使用額外的消息,EPaxos根據(jù)日志沖突情況需要一次或兩次網(wǎng)絡(luò)來(lái)回。因此消息復(fù)雜度,Raft最低,Paxos其次,EPaxos最高。

Pipeline

我們將Pipeline分為順序Pipeline和亂序Pipeline。Multi-Paxos和EPaxos支持亂序Pipeline,Raft因?yàn)槿罩具B續(xù)性假設(shè),只支持順序Pipeline。但Raft也可以實(shí)現(xiàn)亂序Pipeline,只需要在Leader上給每個(gè)Follower維護(hù)一個(gè)類(lèi)似于TCP的滑動(dòng)窗口,對(duì)應(yīng)每個(gè)Follower上維護(hù)一個(gè)接收窗口,允許窗口里面的日志不連續(xù),窗口外面是已經(jīng)連續(xù)的日志,日志一旦連續(xù)則向前滑動(dòng)窗口,窗口里面可亂序Pipeline。

并發(fā)處理

Multi-Paxos沿用Paxos的策略,一旦發(fā)現(xiàn)并發(fā)沖突則回退重試,直到成功;Raft則使用強(qiáng)Leader來(lái)避免并發(fā)沖突,F(xiàn)ollwer不與Leader競(jìng)爭(zhēng),避免了并發(fā)沖突;EPaxos則直面并發(fā)沖突問(wèn)題,將沖突依賴(lài)也做為一致性問(wèn)題對(duì)待,解決并發(fā)沖突。Paxos是沖突回退,Raft是沖突避免,EPaxos是沖突解決。Paxos和Raft的日志都是線性的,而EPaxos的日志是圖狀的,因此EPaxos的并行性更好,吞吐量也更高。

3 可用性

EPaxos任意副本均可提供服務(wù),某個(gè)副本不可用了可立即切換到其它副本,副本失效對(duì)可用性的影響微乎其微;而Multi-Paxos和Raft均依賴(lài)Leader,Leader不可用了需要重新選舉Leader,在新Leader未選舉出來(lái)之前服務(wù)不可用。顯然EPaxos的可用性比Multi-Paxos和Raft更好,但Multi-Paxos和Raft比誰(shuí)的可用性更好呢。

Raft是強(qiáng)Leader,F(xiàn)ollower必須等舊Leader的Lease到期后才能發(fā)起選舉,Multi-Paxos是弱Leader,F(xiàn)ollwer可以隨時(shí)競(jìng)選Leader,雖然會(huì)對(duì)效率造成一定影響,但在Leader失效的時(shí)候能更快的恢復(fù)服務(wù),因此Multi-Paxos比Raft可用性更好。

4 適用場(chǎng)景

EPaxos更適用于跨AZ跨地域場(chǎng)景,對(duì)可用性要求極高的場(chǎng)景,Leader容易形成瓶頸的場(chǎng)景。Multi-Paxos和Raft本身非常相似,適用場(chǎng)景也類(lèi)似,適用于內(nèi)網(wǎng)場(chǎng)景,一般的高可用場(chǎng)景,Leader不容易形成瓶頸的場(chǎng)景。

思考

最后留下幾個(gè)思考題,感興趣的同學(xué)可以思考思考,歡迎大家在評(píng)論區(qū)留言:

1)Paxos的Proposal ID需要唯一嗎,不唯一會(huì)影響正確性嗎?

2)Paxos如果不區(qū)分Max Proposal ID和Accepted Proposal ID,合并成一個(gè)Max Proposal ID,過(guò)濾Proposal ID小于等于Max Proposal ID的Prepare請(qǐng)求和Accept請(qǐng)求,會(huì)影響正確性嗎?

3)Raft的PreVote有什么作用,是否一定需要PreVote?

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2020-10-28 11:15:24

EPaxos分布式性算法

2023-11-06 09:06:54

分布式一致性數(shù)據(jù)

2024-05-27 10:42:55

2019-10-11 23:27:19

分布式一致性算法開(kāi)發(fā)

2017-09-22 12:08:01

數(shù)據(jù)庫(kù)分布式系統(tǒng)互聯(lián)網(wǎng)

2021-11-22 16:30:30

分布式一致性分布式系統(tǒng)

2019-09-05 08:43:34

微服務(wù)分布式一致性數(shù)據(jù)共享

2021-07-28 08:39:25

分布式架構(gòu)系統(tǒng)

2017-09-21 10:59:36

分布式系統(tǒng)線性一致性測(cè)試

2024-04-10 10:34:34

Cache系統(tǒng)GPU

2021-06-03 15:27:31

RaftSOFAJRaft

2022-06-07 12:08:10

Paxos算法

2024-11-28 10:56:55

2024-01-31 09:54:51

Redis分布式

2017-09-04 14:46:10

分布式事務(wù)問(wèn)題

2021-06-06 12:45:41

分布式CAPBASE

2018-03-19 09:50:50

分布式存儲(chǔ)系統(tǒng)

2024-06-04 10:58:30

2025-03-14 08:00:00

分布式系統(tǒng)服務(wù)器一致性

2021-08-13 11:50:23

AnalyticDB 分布式數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)