億級流量架構(gòu)之分布式事務(wù)思路及方法
分布式事務(wù)以及分布式鎖是分布式中難點,分布式事務(wù)一篇文章可能寫不完,我的習(xí)慣時從基本概念出發(fā),一步一步開始介紹,前面會先梳理事務(wù)中一些基本概念,對基本概念十分清楚的話可以直接看"一致性討論"以及后面的部分。予己方便總結(jié)回顧、與他交流分享。
什么是分布式事務(wù)
在日常生活中,很多事要么全部做,要么全部不做,不能只做一部分,不然就會產(chǎn)生其他復(fù)雜的問題,很多人喜歡舉轉(zhuǎn)賬的例子,對于同一個賬號,A在湖北往出轉(zhuǎn)500,B在廣東取錢500,那么A轉(zhuǎn)出去之后要將A賬號的錢數(shù)目扣除,B賬號數(shù)目增加: 事務(wù) = (A賬號扣除500,B賬號增加500)
看到?jīng)],像這樣多個步驟放在一起,就是事務(wù),要么都執(zhí)行,要么都不執(zhí)行,如果我們的數(shù)據(jù)存儲在多個數(shù)據(jù)庫中,也就是存在跨庫調(diào)用,由于網(wǎng)絡(luò)具有不安全性以及延時性,如何保證事務(wù)分布式執(zhí)行呢?如果執(zhí)行到一半斷電又該如何處理?在講解分布式事務(wù)之前先簡單回顧事務(wù)的一些特點,俗稱 ACID ,下面逐一講解:
原子性(Atomic)
在化學(xué)中,分子構(gòu)成的物質(zhì),分子是保持化學(xué)特性的最小單位,如 H2O,CO2H2O,CO2 等,由原子構(gòu)成的物質(zhì),原子保持物質(zhì)特性,像 FeFe 啥的,意思就是不可分割,再分成質(zhì)子中子啥的就不是我們認(rèn)為的物質(zhì)了,這兒的原子性也是這個道理,就是事務(wù)不可以再拆分,例如上面的事務(wù),看著可以是由兩個過程組成的事務(wù),但是你拆開就不是我們認(rèn)為該有的過程,所以,事務(wù)不可再分,具有原子性。
一致性(Consistency)
一致性也很好理解,對于上面的兩個賬戶,如果銀行想知道自己這兒被存了多少錢,那么這個事務(wù)執(zhí)行前,A賬號有500塊,B賬號沒有錢,銀行賬戶總共500塊,事務(wù)執(zhí)行后A賬號沒有錢,B賬號有500塊,也就是這個500塊是一定的,不可能出現(xiàn)A賬號有500塊,B賬號也有500塊, 那就數(shù)據(jù)不一致了,這樣的話,說明事務(wù)中某些步驟執(zhí)行出現(xiàn)了問題,產(chǎn)生中間數(shù)據(jù),那么就不一致。
在分布式中,對于一個結(jié)果,多處同時查詢,得出的結(jié)果應(yīng)該是一致的。
隔離性(Isolation)
一個事務(wù)在未完成時,另一個事務(wù)不會影響到它,也就是如果B還給C轉(zhuǎn)賬1000,記為事務(wù)2:
事務(wù)1 = (A賬號扣除500,B賬號增加500)
事務(wù)2 = (B賬號扣除1000,C賬號增加1000)
這兩個事務(wù)之間不會產(chǎn)生影響,也就是不會發(fā)生A轉(zhuǎn)出的500塊到達(dá)C賬號這種情況。
持久性(Durability)
持久化,一般是意味著將數(shù)據(jù)寫入磁盤,不會輕易改變的意思,這兒是事務(wù)提交之后,會影響到數(shù)據(jù)庫,不會丟失。這也就意味著,隨著系統(tǒng)越來越龐大,我們?yōu)榱颂岣呖捎眯?、維護性、吞吐量等等技術(shù)指標(biāo),就算改善原有架構(gòu),業(yè)務(wù)計算的問題解決后,數(shù)據(jù)庫還是會成為整個系統(tǒng)中的瓶頸。
一致性的討論
ACID本質(zhì)而言都是為了保護數(shù)據(jù)的一致性,而數(shù)據(jù)數(shù)據(jù)持久化時會觸發(fā)數(shù)據(jù)庫操作,造成效率低小,所以圍繞一致性(效率)產(chǎn)生了一些討論,分別是強一致性、弱一致性、最終一致性。
強一致性
任何一次讀都能讀到某個數(shù)據(jù)的最近一次寫的數(shù)據(jù)。系統(tǒng)中的所有進程,看到的操作順序,都和全局時鐘下的順序一致。簡言之,在任意時刻,所有節(jié)點中的數(shù)據(jù)是一樣的,這就要求數(shù)據(jù)一有改變就寫到數(shù)據(jù)庫。
弱一致性
數(shù)據(jù)更新后,不要求及時寫會數(shù)據(jù)庫以及同步到所有節(jié)點,也就是這時候數(shù)據(jù)與真實數(shù)據(jù)可能有一些出入,對于架構(gòu)而言,如果能容忍后續(xù)的訪問只能訪問到部分或者全部訪問不到,則是弱一致性。
最終一致性
不保證在任意時刻任意節(jié)點上的同一份數(shù)據(jù)都是相同的,也就是有些節(jié)點數(shù)據(jù)可能是準(zhǔn)確的,有的可能是不準(zhǔn)確的, 但是隨著時間的遷移,不同節(jié)點上的同一份數(shù)據(jù)總是在向趨同的方向變化。簡單說,就是在一段時間后,節(jié)點間的數(shù)據(jù)會最終達(dá)到一致狀態(tài)。
三種一致性中,強一致性數(shù)據(jù)更加可靠,但是由于時時刻刻要求所有數(shù)據(jù)庫保持?jǐn)?shù)據(jù)一致,所以效率低下,數(shù)據(jù)沒有統(tǒng)一完,請求就沒法得到響應(yīng),高并發(fā)場景下,體驗不太好,所以在實際使用中,根據(jù)不同的業(yè)務(wù)選擇是一致性也不同,購物時賬號付錢肯定是強一致性,但是商品庫存數(shù)據(jù)就不一定非要強一致性,至于商品下面的評論啥的,甚至可以選擇弱一致性。
分庫分表
前面講過集群的AKF拆分原則( Redis集群拆分原則之AKF ),大概意思是硬件性能是由上限的,當(dāng)硬件沒法支撐請求流量時,可以將流量分發(fā)到不同的服務(wù)器上,AKF拆分之Y軸、Z軸拆分是業(yè)務(wù)拆分與數(shù)據(jù)拆分,那也就會涉及到將數(shù)據(jù)庫中的數(shù)據(jù)拆分存儲在不同的地方,這就叫分庫分表,不同類型數(shù)據(jù)存儲在不同數(shù)據(jù)庫中做多機存儲和負(fù)載,這樣一來,傳統(tǒng)的事務(wù)機制ACID便無法正常運行。
分庫分表內(nèi)容是數(shù)據(jù)切分(Sharding),以及切分后對數(shù)據(jù)的定位、整合。具體來說, 數(shù)據(jù)切分就是將數(shù)據(jù)分散存儲到多個數(shù)據(jù)庫中,使得單一數(shù)據(jù)庫中的數(shù)據(jù)量變小,通過擴充主機的數(shù)量緩解單一數(shù)據(jù)庫性能問題,從而達(dá)到提升數(shù)據(jù)庫操作性能的目的。
數(shù)據(jù)切分根據(jù)其切分類型,可以分為兩種方式:垂直(縱向)切分和水平(橫向)切分。
垂直拆分
垂直切分常見有垂直分庫和垂直分表兩種,兩種含義類似。
垂直分庫就是根據(jù)業(yè)務(wù)耦合性,將關(guān)聯(lián)度低的不同表存儲在不同的數(shù)據(jù)庫。做法與大系統(tǒng)拆分為多個小系統(tǒng)類似,按業(yè)務(wù)分類進行獨立劃分。與"微服務(wù)治理"的做法相似,每個微服務(wù)使用單獨的一個數(shù)據(jù)庫。如圖:

垂直分表類似,例如將一張表包含一個人所有信息,例如姓名、身份證、性別、身高、體重、省、市、區(qū)、村、專業(yè)、G點等等,那么可以拆分成三個表:
第一個表只包含基本信息(姓名、身份證、性別、身高、體重);
第二個表包含籍貫信息(省、市、區(qū)、村);
第三個表包含學(xué)習(xí)信息(專業(yè)、G點)。
垂直拆分優(yōu)缺點
垂直切分的優(yōu)點:
- 解決業(yè)務(wù)系統(tǒng)層面的耦合,業(yè)務(wù)清晰
- 與微服務(wù)的治理類似,也能對不同業(yè)務(wù)的數(shù)據(jù)進行分級管理、維護、監(jiān)控、擴展等
- 高并發(fā)場景下,垂直切分一定程度的提升IO、數(shù)據(jù)庫連接數(shù)、單機硬件資源的瓶頸
垂直切分的缺點:
- 部分表無法join,只能通過接口聚合方式解決,提升了開發(fā)的復(fù)雜度
- 分布式事務(wù)處理復(fù)雜
- 依然存在單表數(shù)據(jù)量過大的問題(需要水平切分)
水平拆分
上面對數(shù)據(jù)庫垂直拆分之后,如果某個庫還是好大,比如存儲的數(shù)據(jù)極其龐大,那么可以再對數(shù)據(jù)庫進行水平的拆分:

上面的水平拆分時按照ID區(qū)間來切分。例如:將userId為1~10000的記錄分到第一個庫,10001~20000的分到第二個庫,以此類推。某種意義上,某些系統(tǒng)中使用的"冷熱數(shù)據(jù)分離",將一些使用較少的歷史數(shù)據(jù)遷移到其他庫中,業(yè)務(wù)功能上只提供熱點數(shù)據(jù)的查詢,也是類似的實踐。
除了上面按照用戶ID區(qū)間拆分,也可以做Hash運算拆分,這兒就不詳細(xì)展開了。
水平拆分優(yōu)缺點
水平拆分優(yōu)點在于:
- 單表大小可控
- 天然便于水平擴展,后期如果想對整個分片集群擴容時,只需要添加節(jié)點即可,無需對其他分片的數(shù)據(jù)進行遷移
- 使用分片字段進行范圍查找時,連續(xù)分片可快速定位分片進行快速查詢,有效避免跨分片查詢的問題。
水平拆分缺點:
- 熱點數(shù)據(jù)成為性能瓶頸。連續(xù)分片可能存在數(shù)據(jù)熱點,例如按時間字段分片,有些分片存儲最近時間段內(nèi)的數(shù)據(jù),可能會被頻繁的讀寫,而有些分片存儲的歷史數(shù)據(jù),則很少被查詢
分庫分表帶來的問題
分庫分表能有效的緩解單機和單庫帶來的性能瓶頸和壓力,突破網(wǎng)絡(luò)IO、硬件資源、連接數(shù)的瓶頸,同時也帶來了一些問題,前面說過,事務(wù)包含一組子操作,這些造作要么全部執(zhí)行,要么全部不執(zhí)行,但是分庫之后,一個事務(wù)可能涉及多個數(shù)據(jù)庫或者多個表擴庫執(zhí)行,而網(wǎng)絡(luò)具有不穩(wěn)定性,也就是事務(wù)執(zhí)行難度加大,分表分庫后事務(wù)為了與傳統(tǒng)事務(wù)做出區(qū)別,叫做分布式事務(wù)(跨分片事務(wù))。
跨分片事務(wù)也是分布式事務(wù),沒有簡單的方案,一般可使用"XA協(xié)議"和"兩階段提交"處理。
分布式事務(wù)能最大限度保證了數(shù)據(jù)庫操作的原子性。但在提交事務(wù)時需要協(xié)調(diào)多個節(jié)點,推后了提交事務(wù)的時間點,延長了事務(wù)的執(zhí)行時間。導(dǎo)致事務(wù)在訪問共享資源時發(fā)生沖突或死鎖的概率增高。隨著數(shù)據(jù)庫節(jié)點的增多,這種趨勢會越來越嚴(yán)重,從而成為系統(tǒng)在數(shù)據(jù)庫層面上水平擴展的枷鎖。
最終一致性
對于那些性能要求很高,但對一致性要求不高的系統(tǒng),往往不苛求系統(tǒng)的實時一致性,只要在允許的時間段內(nèi)達(dá)到最終一致性即可,可采用事務(wù)補償?shù)姆绞?。與事務(wù)在執(zhí)行中發(fā)生錯誤后立即回滾的方式不同,事務(wù)補償是一種事后檢查補救的措施,一些常見的實現(xiàn)方法有:對數(shù)據(jù)進行對賬檢查,基于日志進行對比,定期同標(biāo)準(zhǔn)數(shù)據(jù)來源進行同步等等。事務(wù)補償還要結(jié)合業(yè)務(wù)系統(tǒng)來考慮。
分布式事務(wù)解決思路
講這個之前需要先簡單回顧CAP原則和Base理論,因為分布式事務(wù)不同于 ACID 的剛性事務(wù),在分布式場景下基于 BASE 理論,提出了柔性事務(wù)的概念。要想通過柔性事務(wù)來達(dá)到最終的一致性,就需要依賴于一些特性,這些特性在具體的方案中不一定都要滿足,因為不同的方案要求不一樣;但是都不滿足的話,是不可能做柔性事務(wù)的。
CAP原則
CAP一般人可能聽了不下一百遍了,很多人都說CAP是"三選二"的關(guān)系,讓人誤以為有AC這種情況,但是實際CAP是二選一的關(guān)系,這個在2012年已經(jīng)有一篇論文進行解釋: CAP Twelve Years Later: How the "Rules" Have Changed
相當(dāng)于是對之前三選二說法進行修正,CAP中P(分區(qū)容錯性)是必須具備的,在滿足P的前提下,很難同時滿足A(可用性)和C(一致性),但是在之后,又有一篇文章: Harvest, yield, and scalable tolerant systems ,這篇論文是基于上面那篇“CAP 12年后”的論文寫的,它主要提出了 Harvest 和 Yield 概念,并把上面那篇論文中所討論的東西講得更為仔細(xì)了一些。簡單來說就是滿足P之后,C和A在放寬約束后可以得到兼顧,并不是非此即彼的關(guān)系,說遠(yuǎn)了。
為什么P是必須的?
為什么CAP原則中分區(qū)容錯性是必須的呢,首先要理解什么是分區(qū)容錯性,分區(qū),這兒說的是網(wǎng)絡(luò),網(wǎng)絡(luò)集群設(shè)計到很多的服務(wù)器,某一瞬間網(wǎng)絡(luò)不穩(wěn)定,那么相當(dāng)于將網(wǎng)絡(luò)分成了不同的區(qū),假設(shè)分成了兩個區(qū),這時候如果有一筆交易:
對分區(qū)一發(fā)出消息:A給B轉(zhuǎn)賬100元,對分區(qū)二發(fā)出消息:A給B轉(zhuǎn)賬200元
那么對于兩個分區(qū)而言,有兩種情況:
a)無可用性,即這兩筆交易至少會有一筆交易不會被接受;
b)無一致性,一半看到的是 A給B轉(zhuǎn)賬100元而另一半則看到 A給B轉(zhuǎn)賬200元。
所以,分區(qū)容忍性必須要滿足,解決策略是一個數(shù)據(jù)項復(fù)制到多個節(jié)點上,那么出現(xiàn)分區(qū)之后,這一數(shù)據(jù)項就可能分布到各個區(qū)里。容忍性就提高了。
Base理論
在很多時候,我們并不需要強一致性的系統(tǒng),所以后來,人們爭論關(guān)于數(shù)據(jù)一致性和可用性時,主要是集中在強一致性的 ACID 或最終一致性的 BASE中, BASE是對CAP中一致性和可用性權(quán)衡的結(jié)果,其來源于對大規(guī)?;ヂ?lián)網(wǎng)分布式系統(tǒng)實踐的總結(jié),是基于CAP定律逐步演化而來。其核心思想是即使無法做到強一致性,但每個應(yīng)用都可以根據(jù)自身業(yè)務(wù)特點,才用適當(dāng)?shù)姆绞絹硎瓜到y(tǒng)打到最終一致性。
BASE理論是Basically Available(基本可用),Soft State(軟狀態(tài))和Eventually Consistent(最終一致性)三個短語的縮寫。
基本可用
假設(shè)系統(tǒng),出現(xiàn)了不可預(yù)知的故障,但還是能用,相比較正常的系統(tǒng)而言:
- 響應(yīng)時間上的損失 :正常情況下的搜索引擎0.5秒即返回給用戶結(jié)果,而基本可用的搜索引擎可以在2秒作用返回結(jié)果。
- 功能上的損失 :在一個電商網(wǎng)站上,正常情況下,用戶可以順利完成每一筆訂單。但是到了大促期間,為了保護購物系統(tǒng)的穩(wěn)定性,部分消費者可能會被引導(dǎo)到一個降級頁面。
這就叫基本可用
軟狀態(tài)
相對于原子性而言,要求多個節(jié)點的數(shù)據(jù)副本都是一致的,這是一種“硬狀態(tài)”。軟狀態(tài)指的是: 允許系統(tǒng)中的數(shù)據(jù)存在中間狀態(tài),并認(rèn)為該狀態(tài)不影響系統(tǒng)的整體可用性,即允許系統(tǒng)在多個不同節(jié)點的數(shù)據(jù)副本存在數(shù)據(jù)延時。
最終一致性
上面說軟狀態(tài),然后不可能一直是軟狀態(tài),必須有個時間期限。 在期限過后,應(yīng)當(dāng)保證所有副本保持?jǐn)?shù)據(jù)一致性,從而達(dá)到數(shù)據(jù)的最終一致性。 這個時間期限取決于網(wǎng)絡(luò)延時、系統(tǒng)負(fù)載、數(shù)據(jù)復(fù)制方案設(shè)計等等因素。
Base其核心思想是:
既然無法做到強一致性(Strong consistency),但每個應(yīng)用都可以根據(jù)自身的業(yè)務(wù)特點,采用適當(dāng)?shù)姆绞絹硎瓜到y(tǒng)達(dá)到最終一致性(Eventual consistency)。有了Base理論就可以開始講述分布式事務(wù)的處理思路了。
二階段提交協(xié)議
二階段提交(2PC:Two-Phase Commit),顧名思義,該協(xié)議將一個分布式的事務(wù)過程拆分成兩個階段: 投票 和 事務(wù)提交 。為了讓整個數(shù)據(jù)庫集群能夠正常的運行,該協(xié)議指定了一個 協(xié)調(diào)者 單點,用于協(xié)調(diào)整個數(shù)據(jù)庫集群各節(jié)點的運行。為了簡化描述,我們將數(shù)據(jù)庫集群中的各個節(jié)點稱為 參與者 ,三階段提交協(xié)議中同樣包含協(xié)調(diào)者和參與者這兩個角色定義,后面再說。
第一階段:投票
該階段的主要目的在于打探數(shù)據(jù)庫集群中的各個參與者是否能夠正常的執(zhí)行事務(wù),具體步驟如下:
- 協(xié)調(diào)者向所有的參與者發(fā)送事務(wù)執(zhí)行請求,并等待參與者反饋事務(wù)執(zhí)行結(jié)果;
- 事務(wù)參與者收到請求之后,執(zhí)行事務(wù)但不提交,并記錄事務(wù)日志;
- 參與者將自己事務(wù)執(zhí)行情況反饋給協(xié)調(diào)者,同時阻塞等待協(xié)調(diào)者的后續(xù)指令。
第二階段:事務(wù)提交
在經(jīng)過第一階段協(xié)調(diào)者的詢盤之后,各個參與者會回復(fù)自己事務(wù)的執(zhí)行情況,這時候存在 3 種可能性:
- 所有的參與者都回復(fù)能夠正常執(zhí)行事務(wù)。
- 一個或多個參與者回復(fù)事務(wù)執(zhí)行失敗。
- 協(xié)調(diào)者等待超時。
對于第 1 種情況,協(xié)調(diào)者將向所有的參與者發(fā)出提交事務(wù)的通知,具體步驟如下:
- 協(xié)調(diào)者向各個參與者發(fā)送 commit 通知,請求提交事務(wù);
- 參與者收到事務(wù)提交通知之后執(zhí)行 commit 操作,然后釋放占有的資源;
- 參與者向協(xié)調(diào)者返回事務(wù) commit 結(jié)果信息。

對于第 2 和第 3 種情況,協(xié)調(diào)者均認(rèn)為參與者無法成功執(zhí)行事務(wù),為了整個集群數(shù)據(jù)的一致性,所以要向各個參與者發(fā)送事務(wù)回滾通知,具體步驟如下:
- 協(xié)調(diào)者向各個參與者發(fā)送事務(wù) rollback 通知,請求回滾事務(wù);
- 參與者收到事務(wù)回滾通知之后執(zhí)行 rollback 操作,然后釋放占有的資源;
- 參與者向協(xié)調(diào)者返回事務(wù) rollback 結(jié)果信息。

兩階段提交協(xié)議解決的是分布式數(shù)據(jù)庫數(shù)據(jù)強一致性問題,實際應(yīng)用中更多的是用來解決事務(wù)操作的原子性,下圖描繪了協(xié)調(diào)者與參與者的狀態(tài)轉(zhuǎn)換。

站在協(xié)調(diào)者的角度,在發(fā)起投票之后就進入了 WAIT 等待狀態(tài),等待所有參與者回復(fù)各自事務(wù)執(zhí)行狀態(tài),并在收到所有參與者的回復(fù)后決策下一步是發(fā)送 commit提交 或 rollback回滾信息。
站在參與者的角度,當(dāng)回復(fù)完協(xié)調(diào)者的投票請求之后便進入 READY 狀態(tài)(能夠正常執(zhí)行事務(wù)),接下去就是等待協(xié)調(diào)者最終的決策通知,一旦收到通知便可依據(jù)決策執(zhí)行 commit 或 rollback 操作。
兩階段提交協(xié)議原理簡單、易于實現(xiàn),但是缺點也是顯而易見的,包含如下:
- 單點問題
協(xié)調(diào)者在整個兩階段提交過程中扮演著舉足輕重的作用,一旦協(xié)調(diào)者所在服務(wù)器宕機,就會影響整個數(shù)據(jù)庫集群的正常運行。比如在第二階段中,如果協(xié)調(diào)者因為故障不能正常發(fā)送事務(wù)提交或回滾通知,那么參與者們將一直處于阻塞狀態(tài),整個數(shù)據(jù)庫集群將無法提供服務(wù)。
- 同步阻塞
兩階段提交執(zhí)行過程中,所有的參與者都需要聽從協(xié)調(diào)者的統(tǒng)一調(diào)度,期間處于阻塞狀態(tài)而不能從事其他操作,這樣效率極其低下。
- 數(shù)據(jù)不一致性
兩階段提交協(xié)議雖然是分布式數(shù)據(jù)強一致性所設(shè)計,但仍然存在數(shù)據(jù)不一致性的可能性。比如在第二階段中,假設(shè)協(xié)調(diào)者發(fā)出了事務(wù) commit 通知,但是因為網(wǎng)絡(luò)問題該通知僅被一部分參與者所收到并執(zhí)行了commit 操作,其余的參與者則因為沒有收到通知一直處于阻塞狀態(tài),這時候就產(chǎn)生了數(shù)據(jù)的不一致性。
針對上述問題可以引入 超時機制 和 互詢機制在很大程度上予以解決。
超時機制
對于協(xié)調(diào)者來說如果在指定時間內(nèi)沒有收到所有參與者的應(yīng)答,則可以自動退出 WAIT 狀態(tài),并向所有參與者發(fā)送 rollback 通知。對于參與者來說如果位于 READY 狀態(tài),但是在指定時間內(nèi)沒有收到協(xié)調(diào)者的第二階段通知,則不能武斷地執(zhí)行 rollback 操作,因為協(xié)調(diào)者可能發(fā)送的是 commit 通知,這個時候執(zhí)行 rollback 就會導(dǎo)致數(shù)據(jù)不一致。
互詢機制
此時,我們可以介入互詢機制,讓參與者 A 去詢問其他參與者 B 的執(zhí)行情況。如果 B 執(zhí)行了 rollback 或 commit 操作,則 A 可以大膽的與 B 執(zhí)行相同的操作;如果 B 此時還沒有到達(dá) READY 狀態(tài),則可以推斷出協(xié)調(diào)者發(fā)出的肯定是 rollback 通知;如果 B 同樣位于 READY 狀態(tài),則 A 可以繼續(xù)詢問另外的參與者。只有當(dāng)所有的參與者都位于 READY 狀態(tài)時,此時兩階段提交協(xié)議無法處理,將陷入長時間的阻塞狀態(tài)。
三階段提交協(xié)議
三階段提交協(xié)議(3PC:Three-Phase Commit), 針對兩階段提交存在的問題,三階段提交協(xié)議通過引入一個 預(yù)詢盤 階段,以及超時策略來減少整個集群的阻塞時間,提升系統(tǒng)性能。三階段提交的三個階段分別為:預(yù)詢盤(can_commit)、預(yù)提交(pre_commit),以及事務(wù)提交(do_commit)。

第一階段:預(yù)詢盤
該階段協(xié)調(diào)者會去詢問各個參與者是否能夠正常執(zhí)行事務(wù),參與者根據(jù)自身情況回復(fù)一個預(yù)估值,相對于真正的執(zhí)行事務(wù),這個過程是輕量的,具體步驟如下:
- 協(xié)調(diào)者向各個參與者發(fā)送事務(wù)詢問通知,詢問是否可以執(zhí)行事務(wù)操作,并等待回復(fù);
- 各個參與者依據(jù)自身狀況回復(fù)一個預(yù)估值,如果預(yù)估自己能夠正常執(zhí)行事務(wù)就返回確定信息,并進入預(yù)備狀態(tài),否則返回否定信息。
第二階段:預(yù)提交
本階段協(xié)調(diào)者會根據(jù)第一階段的詢盤結(jié)果采取相應(yīng)操作,詢盤結(jié)果主要有 3 種:
- 所有的參與者都返回確定信息。
- 一個或多個參與者返回否定信息。
- 協(xié)調(diào)者等待超時。
針對第 1 種情況,協(xié)調(diào)者會向所有參與者發(fā)送事務(wù)執(zhí)行請求,具體步驟如下:
- 協(xié)調(diào)者向所有的事務(wù)參與者發(fā)送事務(wù)執(zhí)行通知;
- 參與者收到通知后執(zhí)行事務(wù)但不提交;
- 參與者將事務(wù)執(zhí)行情況返回給客戶端。
在上述步驟中,如果參與者等待超時,則會中斷事務(wù)。針對第 2 和第 3 種情況,協(xié)調(diào)者認(rèn)為事務(wù)無法正常執(zhí)行,于是向各個參與者發(fā)出 abort 通知,請求退出預(yù)備狀態(tài),具體步驟如下:
- 協(xié)調(diào)者向所有事務(wù)參與者發(fā)送 abort 通知;
- 參與者收到通知后中斷事務(wù)。

第三階段:事務(wù)提交
如果第二階段事務(wù)未中斷,那么本階段協(xié)調(diào)者將會依據(jù)事務(wù)執(zhí)行返回的結(jié)果來決定提交或回滾事務(wù),分為 3 種情況:
- 所有的參與者都能正常執(zhí)行事務(wù)。
- 一個或多個參與者執(zhí)行事務(wù)失敗。
- 協(xié)調(diào)者等待超時。
針對第 1 種情況,協(xié)調(diào)者向各個參與者發(fā)起事務(wù)提交請求,具體步驟如下:
- 協(xié)調(diào)者向所有參與者發(fā)送事務(wù) commit 通知;
- 所有參與者在收到通知之后執(zhí)行 commit 操作,并釋放占有的資源;
- 參與者向協(xié)調(diào)者反饋事務(wù)提交結(jié)果。

針對第 2 和第 3 種情況,協(xié)調(diào)者認(rèn)為事務(wù)無法成功執(zhí)行,于是向各個參與者發(fā)送事務(wù)回滾請求,具體步驟如下:
- 協(xié)調(diào)者向所有參與者發(fā)送事務(wù) rollback 通知;
- 所有參與者在收到通知之后執(zhí)行 rollback 操作,并釋放占有的資源;
- 參與者向協(xié)調(diào)者反饋事務(wù)回滾結(jié)果。

在本階段如果因為協(xié)調(diào)者或網(wǎng)絡(luò)問題,導(dǎo)致參與者遲遲不能收到來自協(xié)調(diào)者的 commit 或 rollback 請求,那么參與者將不會如兩階段提交中那樣陷入阻塞,而是等待超時后繼續(xù) commit,相對于兩階段提交雖然降低了同步阻塞,但仍然無法完全避免數(shù)據(jù)的不一致。兩階段提交協(xié)議中所存在的長時間阻塞狀態(tài)發(fā)生的幾率還是非常低的,所以雖然三階段提交協(xié)議相對于兩階段提交協(xié)議對于數(shù)據(jù)強一致性更有保障,但是因為效率問題,兩階段提交協(xié)議在實際系統(tǒng)中反而更加受寵。
TCC模式
TCC是Try、Confirm 和 Cancel三個單詞首字母縮寫,它們分別的職責(zé)是:
Try:負(fù)責(zé)預(yù)留資源(比如新建一條狀態(tài)=PENDING的訂單);
做業(yè)務(wù)檢查,簡單來說就是不能預(yù)留已經(jīng)被占用的資源;
隔離預(yù)留資源。
Confirm:負(fù)責(zé)落地所預(yù)留的資源
真正的執(zhí)行業(yè)務(wù)使用try階段預(yù)留的資源,冪等。
Cancel: 負(fù)責(zé)撤銷所預(yù)留的資源
需要用戶根據(jù)自己的業(yè)務(wù)場景實現(xiàn) Try、Confirm 和 Cancel 三個操作;事務(wù)發(fā)起方在一階段執(zhí)行 Try 方式,在二階段提交執(zhí)行 Confirm 方法,二階段回滾執(zhí)行 Cancel 方法。
關(guān)于預(yù)留資源要多說兩句,資源都是有限的,因此預(yù)留資源都是有時效的,如果當(dāng)預(yù)留資源遲遲得不到Confirm——我們將這種情況稱為timeout——參與方會自行將其Cancel。也就是說參與方對于資源具有自我管理能力,這樣可以避免因發(fā)起方的問題導(dǎo)致資源被長期占用。
TCC增加了業(yè)務(wù)檢查和撤銷事務(wù)的功能。同時,TCC將2PC數(shù)據(jù)庫層面的動作提升到了服務(wù)層面,不同的是TCC的所有動作都是一個本地事務(wù),每個本地事務(wù)都在動作完成后commit到數(shù)據(jù)庫:
- Try相當(dāng)于2PC的Commit request phase,外加了業(yè)務(wù)檢查邏輯
- Confirm相當(dāng)于2PC的Commit phase的commit動作
- Cancel相當(dāng)于2PC的Commit phase的rollback動作
流程步驟:
- 發(fā)起方 發(fā)送Try到所有 參與方
- 每個 參與方 執(zhí)行Try,預(yù)留資源
- 發(fā)起方 收到所有 參與方 的Try結(jié)果
- 發(fā)起方 發(fā)送Confirm/Cancel到所有 參與房
- 每個 參與方 執(zhí)行Confirm/Cancel
- 發(fā)起方 收到所有 參與方 的Confirm/Cancel結(jié)果
流程和兩階段提交非常類似。