自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

揭秘！阿里實時數(shù)倉分布式事務(wù)Scale Out設(shè)計

作者：阿里技術(shù) 2021-04-27 10:22:04

開發(fā) 開發(fā)工具分布式

Hybrid Transaction Analytical Processing(HTAP) 是著名信息技術(shù)咨詢與分析公司Gartner在2014年提出的一個新的數(shù)據(jù)庫系統(tǒng)定義，特指一類兼具OLTP能力(事務(wù)能力)和OLAP能力(分析能力)的數(shù)據(jù)庫系統(tǒng)。

[[396205]]

一前言

Hybrid Transaction Analytical Processing(HTAP) 是著名信息技術(shù)咨詢與分析公司Gartner在2014年提出的一個新的數(shù)據(jù)庫系統(tǒng)定義，特指一類兼具OLTP能力(事務(wù)能力)和OLAP能力(分析能力)的數(shù)據(jù)庫系統(tǒng)。在傳統(tǒng)場景中，承擔(dān)OLTP任務(wù)和OLAP任務(wù)的數(shù)據(jù)庫是兩個不同的系統(tǒng)。典型的OLTP系統(tǒng)包括MySQL、PostgreSQL、PolarDB等，典型的OLAP系統(tǒng)包括Clickhouse、AnalyticDB等。在生產(chǎn)系統(tǒng)中，業(yè)務(wù)原始數(shù)據(jù)通常存儲在OLTP系統(tǒng)中，然后通過離線導(dǎo)入、ETL、DTS等方式以一定延遲同步到OLAP系統(tǒng)中，再進行后續(xù)的數(shù)據(jù)分析工作。

HTAP系統(tǒng)的一個直觀的優(yōu)點是可以在一個系統(tǒng)中完成OLTP和OLAP任務(wù)，節(jié)約用戶的系統(tǒng)使用成本。而且，HTAP系統(tǒng)具備完整的ACID能力，讓開發(fā)者擁有更多的數(shù)據(jù)寫入方式，不管是實時插入、離線導(dǎo)入、數(shù)據(jù)單條更新，都可以輕松應(yīng)對。另外，一個完備的HTAP產(chǎn)品，同樣是一個優(yōu)秀的ETL工具，開發(fā)者可以利用HTAP系統(tǒng)處理常見的數(shù)據(jù)加工需求。HTAP系統(tǒng)能夠大大節(jié)約用戶的使用成本和開發(fā)成本，并影響上層業(yè)務(wù)系統(tǒng)的形態(tài)。目前，存儲計算分離、云原生技術(shù)和HTAP等技術(shù)，被業(yè)界公認為是數(shù)據(jù)庫系統(tǒng)目前的重要演進方向。

AnalyticDB PostgreSQL版是阿里云的一款實時數(shù)倉產(chǎn)品(以下簡稱ADB PG)。ADB PG采用MPP水平擴展架構(gòu)，支持標(biāo)準(zhǔn)SQL 2003，兼容PostgreSQL/Greenplum，高度兼容 Oracle 語法生態(tài)，也是一款HTAP產(chǎn)品。ADB PG已經(jīng)通過了中國信息通信研究院組織的分布式分析型數(shù)據(jù)庫和分布式事務(wù)數(shù)據(jù)庫功能和性能認證，是國內(nèi)唯一一家同時通過這兩項認證的數(shù)據(jù)庫產(chǎn)品。ADB PG早期版本主打OLAP場景、具備OLTP能力。隨著HTAP的流行，ADB PG自6.0版本開始對OLTP性能在多個方面進行了大幅度優(yōu)化，其中很重要的一個項目就是Multi-Master項目，通過Scale Out打破了原有架構(gòu)的僅支持單個Master節(jié)點帶來的性能瓶頸問題，讓OLTP事務(wù)性能具備Scale out能力，更好地滿足用戶的實時數(shù)倉和HTAP需求。

Multi-Master項目在2019年啟動后，經(jīng)歷了一寫多讀和多寫多讀2個演進階段，極大的提升了ADB PG系統(tǒng)高并發(fā)能力、實時寫入/更新/查詢的能力，在阿里內(nèi)部支撐了如數(shù)據(jù)銀行等多個核心業(yè)務(wù)，也經(jīng)過了阿里2020年雙11、雙12等大促的考驗。目前，產(chǎn)品的穩(wěn)定性和性能都已經(jīng)得到了廣泛驗證。在本文的如下部分，我們首先介紹ADB PG原有的Single-Master架構(gòu)導(dǎo)致的性能瓶頸及其原因，并介紹Multi-Master的設(shè)計思路。然后我們會詳細介紹Multi-Master架構(gòu)的詳細設(shè)計。之后我們會介紹我們在Multi-Master項目中所解決的幾個關(guān)鍵技術(shù)問題和核心解決方案。最后，我們會對Multi-Master架構(gòu)的性能表現(xiàn)進行測試。

二 Single-Master架構(gòu) vs. Multi-Master架構(gòu)

在數(shù)倉系統(tǒng)設(shè)計中，通常把系統(tǒng)中的節(jié)點分為Master節(jié)點和Segment節(jié)點(計算節(jié)點)，Master節(jié)點和計算節(jié)點承擔(dān)不同類型的任務(wù)。以ADB PG為例，Master節(jié)點主要負責(zé)接收用戶的請求、查詢優(yōu)化、任務(wù)分發(fā)、元信息管理和事務(wù)管理等任務(wù)。Segment節(jié)點負責(zé)計算任務(wù)和存儲管理任務(wù)。對于查詢請求，Master節(jié)點需要對用戶提交的SQL進行解析和優(yōu)化，然后將優(yōu)化后的執(zhí)行計劃分發(fā)到計算節(jié)點。計算節(jié)點需要對本地存儲的數(shù)據(jù)進行讀取，然后再完成計算和數(shù)據(jù)shuffle等任務(wù)，最后計算節(jié)點把計算結(jié)果返回到Master節(jié)點進行匯總。對于建表、寫入等請求，Master節(jié)點需要對元信息、事務(wù)等進行管理，并協(xié)調(diào)計算節(jié)點之間的工作。

如上圖所示，ADB PG是由Greenplum演化而來，早期的ADB PG版本和Greenplum一樣，是一種單Master架構(gòu)。也就是說，一個數(shù)據(jù)庫實例只有一個Main Master在工作，配置一個或者多個Standby Master節(jié)點作為高可用備份，只有當(dāng)Main Master節(jié)點宕機，才會切換到Standby Master進行工作。隨著業(yè)務(wù)的發(fā)展，尤其是實時數(shù)倉和HTAP場景需求的增加， Single Master的系統(tǒng)瓶頸問題也逐漸顯現(xiàn)。對于查詢鏈路，有些查詢的最后一個階段需要在Master節(jié)點上進行最終的數(shù)據(jù)處理，消耗一定的CPU/內(nèi)存資源。對于寫入場景，大量的實時插入/更新/刪除的需要高性能保證。而且Single Master架構(gòu)如何處理超大并發(fā)連接數(shù)也是個問題。以上問題可以通過提高Master節(jié)點的配置(Scale up)來緩解，但是無法從根本上解決。

ADB PG在2019年啟動了Multi-Master項目，目標(biāo)是通過節(jié)點擴展(Scale out)的方式來解決Master層的資源瓶頸問題，更好地滿足實時數(shù)倉及HTAP等業(yè)務(wù)場景的需求。上圖是Multi-master架構(gòu)的示意圖，通過增加多個Secondary Master節(jié)點來實現(xiàn)性能的Scale out，同時保留原有的Standby Master來保證高可用能力。為了保障ADB PG的事務(wù)能力，Multi-master項目需要克服一些其他不支持事務(wù)的實時數(shù)倉不會遇到的困難。一方面，ADB PG需要對分布式事務(wù)能力進行擴展，支持多個Master的場景。一方面，對于全局死鎖處理、DDL支持以及分布式表鎖支持方面，ADB PG需要進行算法的創(chuàng)新和修改。最后，ADB PG需要對更新之后的新架構(gòu)的集群容錯能力和高可用能力進行設(shè)計。在本文的余下部分，我們將對上述幾個議題進行介紹。

三 Multi-Master 架構(gòu)設(shè)計

相對于原Single-Master架構(gòu)，Multi-Master架構(gòu)在Main Master/Standby Master的基礎(chǔ)之上新增實現(xiàn)了Secondary Master的角色，Secondary Master(s)支持承接和Main Master一樣的DDL，DML等請求，同時用戶可以按需擴展來提升系統(tǒng)整體能力。下面是各個Master角色及對應(yīng)主要能力的簡單介紹。

Main Master：承接用戶業(yè)務(wù)請求，并把任務(wù)分發(fā)到各個計算節(jié)點進行分布式處理。除此之外，Main Master還承擔(dān)了GTM，F(xiàn)TS和全局元信息服務(wù)的角色，這些組件與Multi-Master的實現(xiàn)密切相關(guān)。

GTM：全局事務(wù)管理(Global Transaction Manager)，維護了全局的事務(wù)id及快照信息，是實現(xiàn)分布式事務(wù)的核心組件。
FTS：容錯服務(wù)(Fault-Tolerance Service), 檢測計算節(jié)點及輔協(xié)調(diào)節(jié)點的健康狀態(tài)，并在計算節(jié)點發(fā)生故障時進行計算節(jié)點的Primary與Mirror角色的切換。
Catalog：以系統(tǒng)表Catalog等信息為代表的全局元信息存儲。
Standby Master：和Main Master組成典型的主備關(guān)系，在原Main Master故障的時候可以接替成為新的Main Master。
Secondary Master：可以視為"弱化的Main Master"，和Main Master一樣可以承接業(yè)務(wù)請求并將任務(wù)分發(fā)到各個計算節(jié)點進行處理。Secondary Master會通過GTM Proxy與Main Master上的GTM以及計算節(jié)點交互來實現(xiàn)分布式事務(wù)。

需要注意的是，Main Master與Secondary Master通過上層的SLB來做基于權(quán)重的負載均衡管理。如果是在Main Master和Secondary Master相同的規(guī)格配置下，Main Master會通過權(quán)重設(shè)置來承擔(dān)相對少的業(yè)務(wù)請求負載，從而為GTM，F(xiàn)TS等預(yù)留足夠的處理能力。

四 Multi-Master關(guān)鍵技術(shù)

本章將對Multi-Master的一些關(guān)鍵技術(shù)點進行詳細的介紹，主要包括分布式事務(wù)處理、全局死鎖處理、DDL支持、分布式表鎖支持、集群容錯和高可用能力。

1 分布式事務(wù)管理

ADB PG的分布式事務(wù)實現(xiàn)

ADB PG的分布式事務(wù)是使用二階段提交(2PC)協(xié)議來實現(xiàn)的，同時使用了分布式快照來保證Master和不同Segment間的數(shù)據(jù)一致性，具體實現(xiàn)實現(xiàn)要點如下。

分布式事務(wù)由Main Master發(fā)起，并通過2PC協(xié)議提交到Segments。2PC是分布式系統(tǒng)的經(jīng)典協(xié)議，將整體事務(wù)的提交過程拆分成了Prepare和Commit/Abort兩個階段，如上面的簡單示意圖所示，只有參與事務(wù)的所有Segments都成功提交整體事務(wù)才會成功提交。如果在第一階段有存在Prepare失敗的Segment，則整體事務(wù)會Abort掉;如果在第二階段有Commit失敗的Segment，而且Master已經(jīng)成功記錄了PREPARED日志，則會發(fā)起重試來Retry失敗的Commits。需要說明的是，如果一個事務(wù)僅僅牽涉到1個Segment，系統(tǒng)會優(yōu)化為按照1PC的方式來提交事務(wù)從而提升性能，具體來說就是將上圖中Master參與協(xié)調(diào)的Prepare和Commit兩個階段合二為一，最終由唯一參與的Segment來保證事務(wù)執(zhí)行的原子性。

Main Master上的GTM全局事務(wù)管理組件會維護全局的分布式事務(wù)狀態(tài)，每一個事務(wù)都會產(chǎn)生一個新的分布式事務(wù)id、設(shè)置時間戳及相應(yīng)的狀態(tài)信息，在獲取快照時，創(chuàng)建分布式快照并保存在當(dāng)前快照中。如下是分布式快照記錄的核心信息：

執(zhí)行查詢時，Main Master將分布式事務(wù)和快照等信息序列化，通過libpq協(xié)議發(fā)送給Segment上來執(zhí)行。Segment反序列化后，獲得對應(yīng)分布式事務(wù)和快照信息，并以此為依據(jù)來判定查詢到的元組的可見性。所有參與該查詢的Segments都使用同一份分布式事務(wù)和快照信息判斷元組的可見性，因而保證了整個集群數(shù)據(jù)的一致性。另外，和 PostgreSQL 的提交日志clog類似，ADB PG會保存全局事務(wù)的提交日志，以判斷某個事務(wù)是否已經(jīng)提交。這些信息保存在共享內(nèi)存中并持久化存儲在distributedlog目錄下。另外，ADB PG實現(xiàn)了本地事務(wù)-分布式事務(wù)提交緩存來幫助快速查到本地事務(wù)id(xid)和分布式全局事務(wù)id(gxid)的映射關(guān)系。下面讓我們通過一個例子來具體理解一下：

如上圖所示，Txn A在插入一條數(shù)據(jù)后，Txn B對該數(shù)據(jù)進行了更新。基于PostgreSQL的MVCC機制，當(dāng)前Heap表中會存在兩條對應(yīng)的記錄，Txn B更新完數(shù)據(jù)后會將原來tuple對應(yīng)的xmax改為自身的本地xid值(由0改為4)。此后，Txn C和Txn D兩個查詢會結(jié)合自己的分布式快照信息來做可見性判斷，具體規(guī)則是：

如果 gxid < distribedSnapshot->xmin，則元組可見
如果 gxid > distribedSnapshot->xmax，則元組不可見
如果 distribedSnapshot->inProgressXidArray 包含 gxid，則元組不可見
否則元組可見。如果不能根據(jù)分布式快照判斷可見性，或者不需要根據(jù)分布式快照判斷可見性，則使用本地快照信息判斷，這個邏輯和PostgreSQL的判斷可見性邏輯一樣。

基于上述規(guī)則，Txn C查到兩條tuple記錄后，通過xid和gxid映射關(guān)系找到兩條記錄對應(yīng)的gxid值(分別為100, 105)，規(guī)則c會限定Txn B的更新對Txn C不可見，所以Txn C查詢到的結(jié)果是'foo';而Txn D基于規(guī)則則對Txn B更新后的tuple可見，所以查詢到的是'bar'。

Multi-Master的分布式事務(wù)實現(xiàn)

Multi-Master的分布式事務(wù)本質(zhì)是在原有分布式事務(wù)基礎(chǔ)之上進行了增強。如上圖所示，Postmaster是守護進程，Main Master的Backend業(yè)務(wù)處理進程和GTM Server之間通過共享內(nèi)存通信，但Secondary Master是無法直接通過共享內(nèi)存與Main Master上的GTM Server通信的，為此，我們在Secondary Master和Main Master之間新增了一條通道并實現(xiàn)了一套GTM交互協(xié)議。另外，為了減少Secondary Master和Main Master之間的連接并提升網(wǎng)絡(luò)通信效率，我們新增實現(xiàn)了GTM Proxy來代理同一個Secondary Master上多個Backend進程的GTM請求。下面，本文將從GTM交互協(xié)議、GTM Proxy和分布事務(wù)恢復(fù)三個方面來系統(tǒng)的闡述一下Multi-Master分布式事務(wù)實現(xiàn)的技術(shù)細節(jié)。

(1)GTM交互協(xié)議

GTM交互協(xié)議是Secondary Master和Main Master之間事務(wù)交互的核心協(xié)議，具體協(xié)議的消息和說明如下表所示：

協(xié)議核心消息	說明
GET_GXID	分配gxid
SNAPSHOT_GET	取分布式快照
TXN_BEGIN	創(chuàng)建新事務(wù)
TXN_BEGIN_GETGXID	創(chuàng)建新事務(wù)并分配gxid
TXN_PREPARE	給定的事務(wù)完成2pc的prepare階段
TXN_COMMIT	提交給定的事務(wù)
TXN_ROLLBACK	回滾給定的事務(wù)
TXN_GET_STATUS	取屬于指定master的所有事務(wù)狀態(tài)信息
GET_GTM_READY	檢查GTM server是否可服務(wù)正常事務(wù)請求
SET_GTM_READY	設(shè)置GTM server可服務(wù)正常事務(wù)請求
TXN_COMMIT_RECOVERY	master恢復(fù)階段提交給定的事務(wù)
TXN_ROLLBACK_RECOVERY	master恢復(fù)階段回滾給定的事務(wù)
CLEANUP_MASTER_TRANS	恢復(fù)完時清除master的剩余事務(wù)

可以看到，消息的核心還是在交換GXID，SNAPSHOT等信息，同時做BEGIN/PREPARE/COMMIT/ABORT等事務(wù)操作，此處就不再做一一說明。值得特別指出的是，跨節(jié)點的消息交互成本是很高的，考慮到OLAP用戶的特點和需求，我們配合協(xié)議提供了不同的一致性選項，從而讓用戶可以在性能和一致性上進行權(quán)衡和選擇：

會話一致：同一個會話滿足可預(yù)期的一致性要求，包括單調(diào)讀，單調(diào)寫，讀自己所寫，讀后寫的一致性。
強一致：線性一致性，一旦操作完成，所有會話可見。也基于不同的一致性模式進行了定制和精簡。

如上表所示，如果用戶需要更高的性能而對于一致性可以做出一定妥協(xié)，則可以選擇會話一致模式，相對強一致，會話一致對協(xié)議交互進行了大幅度精簡，僅僅保留了 GET_GXID和 GET_GXID_MULTI ：

協(xié)議核心消息	說明
GET_GXID	分配gxid
GET_GXID_MULTI	批量分配gxid

其中， GET_GXID_MULTI本質(zhì)就是 GET_GXID的批量操作。在會話一致模式下，Secondary Master只需要從Main Master獲取全局的GXID信息，然后結(jié)合本地快照并配合重試及GDD全局死鎖檢測(后面會講到)來獨立處理事務(wù)，從而大幅度簡化與Master之間的消息交互提升性能。當(dāng)然，這里的代價就是在一致性上做出的讓步，事實上，會話一致可以滿足絕大部分OLAP/HTAP客戶的訴求。

(2)GTM Proxy的實現(xiàn)

在Multi-Master的實現(xiàn)中，GTM Proxy是作為Postmaster的子進程來管理的，這樣做的好處是：1) 無需新增新的角色，配套管控更簡單;2) GTM Proxy和Backend之間是天然認證和互信的;3) GTM Proxy可以通過共享內(nèi)存和Backend進程通信，這樣相比Tcp Loopback更高效，既可以減少內(nèi)存拷貝，也無Network Stack開銷。

每個GTM Proxy進程會和GTM server建立一個網(wǎng)絡(luò)連接，并會服務(wù)多個本地的backend進程，將它們的GTM請求轉(zhuǎn)發(fā)給GTM server。GTM Proxy還針對性的做一些請求優(yōu)化處理，如：

Backends間共享Snapshot，從而減少Snapshot請求數(shù)
合并和批處理Backends的并發(fā)GTM請求
批量獲取gxid(會話一致)

GTM Proxy是減少Secondary Master和Main Master之間連接并提升網(wǎng)絡(luò)通信效率的關(guān)鍵。事實上，在實現(xiàn)中，如果用戶開啟了強一致模式，我們在Main Master上會默認開啟GTM Proxy來代理Main Master上多個Backend進程與GTM Server之間的請求，從而進一步降低GTM Server的壓力。

(3)分布式事務(wù)的恢復(fù)

在很多情況下系統(tǒng)都需要做分布式事務(wù)的恢復(fù)處理，比如系統(tǒng)/Master重啟，Main Master/Standby Master切換等，當(dāng)不考慮Multi-Master，分布式事務(wù)的恢復(fù)可以簡單劃分為如下3大步驟：

Main Master回放xlog，找出所有已經(jīng)Prepared但是尚未Committed的事務(wù);
命令所有Segments提交所有需要Committed的事務(wù);
收集所有Segments上未Committed而且不在“Main Master”需要提交的事務(wù)列表中的事務(wù)，Abort掉這些事務(wù)。

上面的流程如果進一步考慮Multi-Master，那么一些新的問題就引入了進來，核心需要解決的有：1)Secondary Master發(fā)起的事務(wù)的恢復(fù);2) Segments和Secondary Master上殘留Prepared階段的事務(wù)在Secondary Master或者Master重啟等情況下的恢復(fù)/清理等等。為此，針對Multi-Master，我們對二階段事務(wù)的提交和分布式事務(wù)的恢復(fù)流程都做了增強，如下主要講一下二階段事務(wù)提交的增強和Secondary Master被刪除及第一次啟動時對應(yīng)的清理流程：

此外，Main Master/Secondary Master重啟的流程也進行了增強，這里面和原Main Master重啟恢復(fù)的主要差別是需要區(qū)分出屬于自己發(fā)起的分布式事務(wù)，具體的區(qū)分是通過增強GXID來實現(xiàn)的。我們在原本GXID的基本信息之上添加了masterid信息，這樣{GXID}-MasterID結(jié)合起來，就可以基于GXID來區(qū)分出具體的Master了。

2 全局死鎖檢測

ADB PG 4.3版本是通過對表加寫鎖來避免執(zhí)行UPDATE和DELETE時出現(xiàn)全局死鎖。這個方法雖然避免了全局死鎖，但是并發(fā)更新的性能很差。ADB PG從6.0開始引入了全局死鎖檢測。該檢測進程收集并分析集群中的鎖等待信息，如果發(fā)現(xiàn)了死鎖則殺死造成死鎖的進程來解除死鎖，這樣極大地提高了高并發(fā)情況下簡單查詢、插入、刪除和更新操作的性能。ADB PG 6實現(xiàn)全局死鎖檢測的要點如下：

全局死鎖檢測服務(wù)進程(GDD)運行在Main Master上
GDD會周期性獲取所有segment上的分布式事務(wù)的gxid及其等待關(guān)系
GDD構(gòu)造全局的事務(wù)等待關(guān)系圖，檢測是否成環(huán)，如果成環(huán)，則回滾環(huán)中一個事務(wù)，破解死鎖

ADB PG Multi-Master的全局死鎖檢測整體也是ADB PG 6.0版本的實現(xiàn)來增強的，如下圖所示：

ADB PG Multi-Master的GDD也運行在Main Master之上，主要新增了兩個Master-to-Master的RPC調(diào)用來采集由Secondary Master發(fā)起的分布式事務(wù)gxid列表以及通知Secondary Master去破解負責(zé)分布式事務(wù)的死鎖。

Get_gxids: 從每個secondary master獲取gxid列表，以判斷導(dǎo)致死鎖的事務(wù)各屬于哪些master
Cancel_deadlock_txn: 如果導(dǎo)致死鎖的事務(wù)屬于某個secondary master，則請求該master回滾掉該事務(wù)

3 DDL支持

在ADB PG的原生實現(xiàn)中，Main Master對DDL的支持和與Segments上Catalog的修改同步是通過2PC的方式實現(xiàn)的，ADBPG Multi-Master擴展了這一實現(xiàn)來支持對Secondary Master上Catalog的同步。

此外, Secondary Master也支持處理DDL，簡單說來，我們在Secondary Master內(nèi)部實現(xiàn)了一個簡單的代理，Secondary Master如果收到DDL請求，會將請求轉(zhuǎn)發(fā)給Main Master來處理。具體如下圖所示：

DDL的實現(xiàn)非常復(fù)雜，真實的落地其實要比上面復(fù)雜很多，也牽涉到很多細節(jié)，比如VACCUM/CLUSTER/ANALYZE等相對特殊的DDL處理，但整體的實現(xiàn)方案都基本遵從上面的原則。

4 分布式表鎖

眾所周知，在數(shù)據(jù)庫的實現(xiàn)里，為支持對表數(shù)據(jù)的并發(fā)訪問，一般都會通過鎖來實現(xiàn)。ADB PG的鎖模型和PostgreSQL是兼容的，具體如下表所示：

Multi-Master對ADB PG的表鎖協(xié)議進行了增強和適配，總結(jié)起來，我們定義了一套新的分布式表鎖協(xié)議來規(guī)范Main Master及Secondary Master上加鎖的順序和規(guī)則：

任意Master上的進程請求1-3級鎖

本地請求該表鎖
在所有Segments上請求該表鎖
事務(wù)結(jié)束時所有節(jié)點釋放鎖

Main Mater上的進程請求4-8級鎖

本地請求該表鎖
在所有Secondary master上請求該表鎖
在所有Segments上請求該表鎖
事務(wù)結(jié)束時所有節(jié)點釋放鎖

Secondary Master上的進程請求4-8級鎖

在Main Master上請求該表鎖
本地請求該表鎖
在所有其他Secondary Master上請求該表鎖
在所有Segments上請求該表鎖
事務(wù)結(jié)束時所有節(jié)點釋放鎖

基于上述規(guī)則，我們可以實現(xiàn)任何的表鎖請求會最終在某個Master或者Segment得到裁決，從而保證了對ADB PG的原表鎖協(xié)議的兼容。

5 集群容錯與高可用

ADB PG是通過復(fù)制和監(jiān)控來實現(xiàn)容錯和高可用的，主要包括：1)Standby Master和Mirror Segment分別為Main Master和Primary Segment提供副本(通過PG流復(fù)制實現(xiàn));2)FTS在后臺負責(zé)監(jiān)控與主備切換。如上圖中的流程：

Main Master到Standby Master的流復(fù)制;
Primary Segment到Mirror segment的流復(fù)制;
Main Master的FTS Probe進程發(fā)包探活Primary Segment;
Main Master的FTS Probe進程發(fā)包探活Secondary Master;
Main Master重啟后，其FTS Probe進程向GTM Server通報所有Master;
Secondary Master的FTS Probe發(fā)包探活Main Master，獲取最新集群配置和狀態(tài)信息并存在本地;
Secondary Master的FTS Probe無法連接Main Master后嘗試探活Standby master，若成功則更新其為新的Main Master;否則繼續(xù)探活原Main Master。

簡單說來，ADBPG Multi-Master在原ADB PG的容錯和高可用基礎(chǔ)之上進行了增強，讓系統(tǒng)能夠進一步對Secondary Master進行兼容。另外，Secondary Master如果故障，則會進一步由管控系統(tǒng)看護并做實時修復(fù)。

五 Multi-master 擴展性能評測

ADB PG單Master實例在高并發(fā)點查、導(dǎo)入等偏OLTP的場景往往會存在單Master瓶頸，而Multi-Master的引入很好的解決了問題。為了驗證Multi-Master在OLTP負載下橫向擴展的能力，本章節(jié)對ADB PG Multi-Master在默認的會話一致模式下的TPC-B/C兩種典型負載進行了性能測試。

1 TPC-C性能測試

TPC-C是事務(wù)處理性能委員會(TPC)旗下一的一個主流性能測試Benchmark集合，主要是測試數(shù)據(jù)庫系統(tǒng)的事務(wù)能力。TPC-C測試過程中，會實現(xiàn)多種事務(wù)處理并發(fā)執(zhí)行、在線與離線事務(wù)混合執(zhí)行等方式，能夠比較全面地考察數(shù)據(jù)庫系統(tǒng)的事務(wù)能力。我們采用的測試環(huán)境是基于阿里云ECS的ADB PG實例，具體參數(shù)如下：

Master(Main Master/Secondary Master)：8c64g
節(jié)點規(guī)格(segment)：4C32G
節(jié)點數(shù)量(segment): 32
存儲類型：ESSD云盤
節(jié)點存儲容量(segment): 1000GB

可以看到，在只有1個Master時，當(dāng)并發(fā)數(shù)到達64時，TPC-C的性能基本達到峰值，無法再隨著并發(fā)數(shù)增加而增加，但是當(dāng)有4個Masters時，隨著并發(fā)數(shù)的增加TPC-C的性能依舊可以非常好的線性擴展。

2 TPC-B性能測試

TPC-B是TPC旗下另一個性能測試Benchmark集合，主要用于衡量一個系統(tǒng)每秒能夠處理的并發(fā)事務(wù)數(shù)。我們采用的測試環(huán)境是基于阿里云ECS的ADB PG實例，具體參數(shù)如下：

Master(Main Master/Secondary Master)：8c64g
節(jié)點規(guī)格(segment)：4C32G
節(jié)點數(shù)量(segment): 32
存儲類型：ESSD云盤
節(jié)點存儲容量(segment): 1000GB

可以看到，和TPC-C類似，在只有1個Master時，當(dāng)并發(fā)數(shù)到達64時，TPC-B的性能基本達到峰值，無法再隨著并發(fā)數(shù)增加而增加，但是當(dāng)有4個Masters時，隨著并發(fā)數(shù)的增加TPC-B的性能依舊可以非常好的線性擴展。

六總結(jié)

ADB PG Multi-Master通過水平擴展Master節(jié)點很好的突破了原架構(gòu)單Master的限制，配合計算節(jié)點的彈性，系統(tǒng)整體能力尤其是連接數(shù)及讀寫性能得到進一步提升，可以更好的滿足實時數(shù)倉及HTAP等業(yè)務(wù)場景的需求。

責(zé)任編輯：武曉燕來源： 51CTO專欄

數(shù)倉分布式事務(wù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營