墨天輪關(guān)系型分布式數(shù)據(jù)庫(kù)榜單解讀
原創(chuàng)近期受墨天輪社區(qū)邀約,就墨天輪社區(qū)榜單上國(guó)產(chǎn)分布式關(guān)系型數(shù)據(jù)庫(kù)發(fā)展加以分析。從近年發(fā)展來看,分布式產(chǎn)品已漸漸成為主要數(shù)據(jù)庫(kù)架構(gòu),受到更多用戶的關(guān)注。本文分析數(shù)據(jù)源,來自墨天輪最新一期的榜單數(shù)據(jù)。
1、分布式關(guān)系型數(shù)據(jù)庫(kù)概述
作為數(shù)據(jù)庫(kù)演進(jìn)方向之一,分布式能力受到更多用戶的關(guān)注。從技術(shù)架構(gòu)演進(jìn)來看,數(shù)據(jù)庫(kù)正走過了從單機(jī)式、集中式到分布式的發(fā)展過程,目前是多種架構(gòu)并存的階段。分布式架構(gòu)以其更好的存儲(chǔ)與計(jì)算擴(kuò)展能力,受到更多的關(guān)注。在墨天輪社區(qū)上,收集了國(guó)內(nèi)160多家關(guān)系型數(shù)據(jù)庫(kù)廠商產(chǎn)品。針對(duì)這些產(chǎn)品做個(gè)架構(gòu)分類不難發(fā)現(xiàn),從數(shù)量上來看,分布式與集中式架構(gòu)不分伯仲,甚至分布式還稍有占優(yōu)(如左下圖)。如果考慮到流行度因素,按架構(gòu)分類統(tǒng)計(jì)相應(yīng)數(shù)據(jù)庫(kù)的流行度分?jǐn)?shù)可以發(fā)現(xiàn),分布式架構(gòu)優(yōu)勢(shì)更為明顯(如右下圖),這也說明了分布式數(shù)據(jù)庫(kù)產(chǎn)品受到更多流行關(guān)注。
從上述分析來看,分布式產(chǎn)品正更多地受到關(guān)注,并已開始在用戶場(chǎng)景落地。究其原因,可簡(jiǎn)單歸納為幾點(diǎn):
場(chǎng)景驅(qū)動(dòng)
隨著企業(yè)數(shù)字化轉(zhuǎn)型深化,更多的數(shù)據(jù)被挖掘,更多的場(chǎng)景被發(fā)現(xiàn)。上述變化對(duì)數(shù)據(jù)的重要載體-數(shù)據(jù)庫(kù)來說,提出了更大存儲(chǔ)規(guī)模與更強(qiáng)計(jì)算要求。分布式數(shù)據(jù)庫(kù)的技術(shù)特點(diǎn)正可以滿足上述要求。此外,隨著數(shù)據(jù)價(jià)值被企業(yè)更加關(guān)注,對(duì)數(shù)據(jù)可用性、數(shù)據(jù)一致性要求更高,分布式數(shù)據(jù)庫(kù)也有其可發(fā)揮空間。
業(yè)務(wù)驅(qū)動(dòng)
隨著業(yè)務(wù)互聯(lián)網(wǎng)化,很多企業(yè)都面臨著敏態(tài)業(yè)務(wù)快速發(fā)展問題。這對(duì)于數(shù)據(jù)庫(kù)提出了更高彈性要求,如何快速滿足多變的業(yè)務(wù)訴求。分布式數(shù)據(jù)庫(kù)通常采用的存算分離架構(gòu),可提供存儲(chǔ)與計(jì)算資源的彈性伸縮能力,非常契合這一訴求。
技術(shù)趨勢(shì)
分布式技術(shù)發(fā)展多年,在與數(shù)據(jù)庫(kù)結(jié)合方面一直存在若干難點(diǎn),但隨著Google的三篇論文及工程化產(chǎn)品出現(xiàn),為分布式數(shù)據(jù)庫(kù)的落地奠定了理論基礎(chǔ)。很多分布式數(shù)據(jù)庫(kù)產(chǎn)品正是踩著巨人的肩膀,快速發(fā)展起來。
硬件發(fā)展
分布式架構(gòu)因其組件拆分,天然對(duì)網(wǎng)絡(luò)有著更高的要求。過去受限于網(wǎng)絡(luò)技術(shù)本身,很難達(dá)到很好的效果。但隨著高帶寬、低延時(shí)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)突破,為分布式架構(gòu)提供了良好的基礎(chǔ)。此外,如高速存儲(chǔ)、多核CPU等技術(shù)也助力了分布式技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域的快速成熟。
政策引導(dǎo)
近年來,國(guó)家也非常重視基礎(chǔ)軟件的發(fā)展,包括針對(duì)數(shù)據(jù)庫(kù)產(chǎn)品。相關(guān)部門曾多次出臺(tái)政策,明確指出要加快分布式數(shù)據(jù)庫(kù)產(chǎn)品的研發(fā)和應(yīng)用推廣。很多行業(yè)也明確提出的時(shí)間表,加速這一過程。
2、分布式關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品點(diǎn)評(píng)
近年來分布式數(shù)據(jù)庫(kù)產(chǎn)品發(fā)展迅速,并且在多類場(chǎng)景中廣泛使用。在墨天輪榜單中,共收錄有85款關(guān)系型分布式數(shù)據(jù)庫(kù)。如下圖是按使用場(chǎng)景進(jìn)行分類統(tǒng)計(jì),因部分產(chǎn)品支持多種場(chǎng)景,故進(jìn)行重復(fù)統(tǒng)計(jì)。無論是OLTP、OLAP還是新興的 HTAP 場(chǎng)景都有分布式架構(gòu)產(chǎn)品。特別是OLAP、HTAP等領(lǐng)域,因其承載數(shù)據(jù)規(guī)模及算力更大,分布式產(chǎn)品更有優(yōu)勢(shì)。
從部署方式上來看,分布式架構(gòu)產(chǎn)品多支持本地部署,同時(shí)也有部分產(chǎn)品支持云原生部署。從整體來看,仍然是以本地部署方式為主,云原生的部署方式占少數(shù),但相對(duì)而言分布式更容易利用云原生提供的計(jì)算與存儲(chǔ)能力,因此未來將更多地支持云原生部署。
從墨天輪榜單上,按照屬性進(jìn)行篩選,選擇分布式架構(gòu)的關(guān)系型數(shù)據(jù)庫(kù)廠商共85家。從分布式數(shù)據(jù)庫(kù)廠家分類來看,大體可分為幾類。一是以 OceanBase、PolarDB、TDSQL 為代表的來自互聯(lián)網(wǎng)大廠的產(chǎn)品;二是以 GaussDB、GoldenDB 為代表的傳統(tǒng)大廠產(chǎn)品;三是以TiDB 為代表的新興數(shù)據(jù)庫(kù)廠商產(chǎn)品;四是以 GBase、AntDB為代表的傳統(tǒng)廠商產(chǎn)品。上述幾類廠商產(chǎn)品因其發(fā)展路線、階段不同,各產(chǎn)品差異也較大。
下面就作為主流的一些關(guān)系型分布式數(shù)據(jù)庫(kù)產(chǎn)品加以點(diǎn)評(píng)。
OceanBase
OceanBase 近年發(fā)展迅速,目前占據(jù)榜單首位。在22年底的4.0版本中,其率先提出了“單機(jī)分布式一體化”理念,降低分布式數(shù)據(jù)庫(kù)使用門檻,讓用戶可根據(jù)業(yè)務(wù)發(fā)展平滑過渡。在23年上半年最新的4.1版本,則將“面向開發(fā)者”定位凸顯,強(qiáng)化其在易用性、兼容性、高性能等方面能力。目前OceanBase在金融、政企、互聯(lián)網(wǎng)等諸多行業(yè)得到廣泛使用。特別是其良好的兼容能力,受到很多傳統(tǒng)企業(yè)關(guān)注,將其作為信創(chuàng)改造的首選方案。
TiDB
TiDB作為一款知名的開源分布式數(shù)據(jù)庫(kù)產(chǎn)品,長(zhǎng)期占據(jù)榜單前三名。在23年4月份,其正式發(fā)布了7.0版本。這一版本聚焦于幫助用戶通過可靠性能和簡(jiǎn)化數(shù)據(jù)庫(kù)操作來快速響應(yīng)業(yè)務(wù)需求,從而滿足客戶的高期望值,并提升開發(fā)人員和 IT 運(yùn)維人員的生產(chǎn)力。重點(diǎn)特性包括多租戶下的資源管控增強(qiáng)、TiFlash數(shù)據(jù)落盤穩(wěn)定分析負(fù)載、自動(dòng)執(zhí)行計(jì)劃緩存、TiFlash支持存算分離等。在產(chǎn)品運(yùn)營(yíng)上一方面通過與合作伙伴共建加快國(guó)內(nèi)落地步伐,一方面持續(xù)擴(kuò)大海外運(yùn)營(yíng)工作。
GaussDB
GaussDB,是華為自研的企業(yè)級(jí)原生分布式關(guān)系型數(shù)據(jù)庫(kù),其重要是面向金融政企核心交易和企業(yè)生產(chǎn)系統(tǒng)等復(fù)雜場(chǎng)景。近年在傳統(tǒng)領(lǐng)域建樹頗多,特別是在信創(chuàng)改造領(lǐng)域,取得不少成果。從產(chǎn)品發(fā)展角度來看,GaussDB與榜單上另一款單機(jī)開源產(chǎn)品-openGauss,有著千絲萬縷的關(guān)聯(lián)。目前Gauss系列已形成了商用數(shù)據(jù)庫(kù)、開源數(shù)據(jù)庫(kù)、基于開源數(shù)據(jù)庫(kù)的第三方商用數(shù)據(jù)庫(kù)的復(fù)合生態(tài)模式。當(dāng)然從品牌建設(shè)角度,個(gè)人建議還需進(jìn)一步增強(qiáng),形成品牌合力。
PolarDB
PolarDB,是國(guó)內(nèi)最早打出云原生數(shù)據(jù)庫(kù)理念,并且完成工程化實(shí)踐的代表產(chǎn)品。從早期的存算分離架構(gòu)開始支持云基礎(chǔ)環(huán)境;到近期的Serverless架構(gòu),多層解耦拆分,提供更為精細(xì)粒度的資源管理能力。走過了云原生的1.0、2.0到如今的3.0,也成為最具代表性的云原生數(shù)據(jù)庫(kù)產(chǎn)品。其與云原生環(huán)境的緊密結(jié)合,提供了極致的分布式能力。其產(chǎn)品已在云平臺(tái)及私有化環(huán)境大量使用。
TDSQL
TDSQL,作為來自互聯(lián)網(wǎng)應(yīng)用的又一產(chǎn)品,早期支持騰訊社交、游戲等場(chǎng)景;后期商業(yè)化后大量支持如金融等關(guān)鍵領(lǐng)域客戶系統(tǒng)。特別是近期,其剛剛通過TPC-C基準(zhǔn)測(cè)試,并創(chuàng)造了新的世界紀(jì)錄,在業(yè)內(nèi)引發(fā)廣泛關(guān)注。
GBase
GBase,作為老牌數(shù)據(jù)庫(kù)廠商,很早就在分布式領(lǐng)域布局。無論是其面向 OLAP 領(lǐng)域的GBase 8a產(chǎn)品,還是面向交易及多模領(lǐng)域的 GBase 8c\8s產(chǎn)品,都將分布式能力作為其核心能力之一。經(jīng)過多年積累,已在全球數(shù)百家客戶中使用。
AnalyticDB
AnalyticDB,是阿里云的一款 OLAP 產(chǎn)品,也是阿里云的自研兩大核心產(chǎn)品之一。其特點(diǎn)是支持超大規(guī)模、極致性能,可滿足在萬億數(shù)據(jù)規(guī)模下的秒級(jí)數(shù)據(jù)分析能力,在很多涉及國(guó)計(jì)民生領(lǐng)域被廣泛使用。其良好的兼容性,也為用戶降低使用門檻。近期其與 PolarDB 聯(lián)合,形成頗具競(jìng)爭(zhēng)力的 HTAP 解決方案。
AntDB
AntDB,是亞信集團(tuán)的一款分布式、面向 TP 和 AP 多場(chǎng)景產(chǎn)品。早期在電信領(lǐng)域得到廣泛實(shí)踐,現(xiàn)已走向全行業(yè)。近期其上升勢(shì)頭很猛,也得到了很多關(guān)注。
GoldenDB
GoldenDB,作為來自中興研發(fā)的一款分布式數(shù)據(jù)庫(kù),長(zhǎng)期以來一直比較低調(diào)。其實(shí)在金融、運(yùn)營(yíng)商等很多關(guān)鍵領(lǐng)域,已經(jīng)得到非常廣泛的使用。近期其推出的7.0版本,在 HTAP、自動(dòng)化工具及云原生方向有重大進(jìn)展,已成為一支不可忽視的力量。
除了上述產(chǎn)品外,還有些產(chǎn)品近年來進(jìn)步很快,我們也盤點(diǎn)下:
Doris
Doris,作為 OLAP 領(lǐng)域近年來一款現(xiàn)象級(jí)開源產(chǎn)品,得到廣泛關(guān)注,其在墨天輪榜單上的排名半年便提升了42個(gè)位次。開源活躍度很高,版本迭代迅速。其已孵化了多款商業(yè)產(chǎn)品,并都取得不俗的商業(yè)進(jìn)展,間接證明其產(chǎn)品能力突出。其生態(tài)用戶廣泛,覆蓋很多頭部互聯(lián)網(wǎng)公司。
PieCloudDB
PieCloudDB,其墨天輪流行度排名相較2022年11月提升了139名,核心團(tuán)隊(duì)來自于著名的MPP數(shù)據(jù)庫(kù)GreenPlum。其創(chuàng)造性地提出了全新eMPP分布式技術(shù),實(shí)現(xiàn)云上彈性大規(guī)模并行計(jì)算。充分利用云基礎(chǔ)實(shí)施,解決大規(guī)模數(shù)據(jù)分析的資源問題。近期其又發(fā)布基于eMPP分布式技術(shù)的存算分離軟硬件一體機(jī),完全支持國(guó)產(chǎn)化信創(chuàng)環(huán)境,標(biāo)志其啟動(dòng)全面啟動(dòng)國(guó)產(chǎn)軟硬件一體機(jī)商業(yè)化。
MatrixOne
MatrixOne,定義為一款面向未來的超融合異構(gòu)云原生數(shù)據(jù)庫(kù),其主打融合異構(gòu)架構(gòu)。一方面通過一份存儲(chǔ)和一套計(jì)算引擎支持多種工作負(fù)載,一方面以統(tǒng)一技術(shù)架構(gòu),支持公有云、自建數(shù)據(jù)中心、邊緣節(jié)點(diǎn)部署使用,應(yīng)用乃至數(shù)據(jù)可以云上云下無縫遷移。
YaoBase
YaoBase,是一款自研云原生NewSQL分布式數(shù)據(jù)庫(kù),其在墨天輪榜單上排名113位,相較半年前的172位進(jìn)步明顯。其提出的增量聚集系統(tǒng)架構(gòu),在實(shí)現(xiàn)高并發(fā)事務(wù)處理的同時(shí),兼顧復(fù)雜事務(wù)處理能力的可擴(kuò)展性,彌補(bǔ)了現(xiàn)有NewSQL類系統(tǒng)處理復(fù)雜事務(wù)的短板。
CASICloud DBCP
CASICloud DBCP(航天天域數(shù)據(jù)庫(kù)管理系統(tǒng)),由北京航天紫光科技自主研發(fā),是一款是采用無共享架構(gòu)的分布式交易型通用數(shù)據(jù)庫(kù)系統(tǒng)。之前在航天領(lǐng)域已經(jīng)有非常多的實(shí)踐,可作為國(guó)產(chǎn)數(shù)據(jù)庫(kù)信創(chuàng)替換的選型之一,其性能較國(guó)產(chǎn)傳統(tǒng)數(shù)據(jù)庫(kù)有著明顯優(yōu)勢(shì)。
3、分布式技術(shù)發(fā)展趨勢(shì)及觀察
從分布式技術(shù)發(fā)展來看,有一些明確的變化趨勢(shì)。
云與分布式加速融合
云,作為一種新的資源供給方式,在過去十幾年得到了快速發(fā)展。其天然具備的海量資源快速供給,與分布式架構(gòu)對(duì)資源的需求不謀而合??梢哉f兩者的強(qiáng)強(qiáng)結(jié)合,可以更大發(fā)揮出分布式架構(gòu)的威力。我們可以看到,一方面云廠商的云數(shù)據(jù)庫(kù)產(chǎn)品大都采用分布式架構(gòu);一方面非常多的分布式數(shù)據(jù)庫(kù)產(chǎn)品也開始云及云原生化。
分布式多場(chǎng)景適配
無論是傳統(tǒng)的 OLTP 和 OLAP 業(yè)務(wù),還是新興的 HTAP 業(yè)務(wù)。只要是對(duì)規(guī)模、算力、一致性有著更好的要求,分布式架構(gòu)都可以在一定程度上解決。當(dāng)然從使用場(chǎng)景來看,不同架構(gòu)占比還有所差異。從觀察來看,對(duì)于 OLAP、HTAP 場(chǎng)景,因其承載數(shù)據(jù)規(guī)模及算力要求更大,分布式產(chǎn)品更有優(yōu)勢(shì)。
單機(jī)分布式一體化
如果說分布式產(chǎn)品還有什么缺陷,較高使用門檻是其中最為主要的。分布式架構(gòu)天然帶來的復(fù)雜性、高成本,對(duì)客戶造成很大的困擾。單機(jī)分布式一體化,正是為了解決這一問題。一方面通過這一架構(gòu)優(yōu)化可極大降低分布式數(shù)據(jù)庫(kù)的門檻,另一方面也可將擴(kuò)展需求掌握在客戶手中。真正做到“豐儉由人”,將分布式數(shù)據(jù)庫(kù)做到了普惠大眾。
分布式生態(tài)化加速
分布式產(chǎn)品作為一種新架構(gòu)產(chǎn)品,如何讓用戶快速接受?如何減低潛在的使用風(fēng)險(xiǎn)?這些都對(duì)分布式數(shù)據(jù)庫(kù)提出了更高要求。構(gòu)建完整、友好、活躍的生態(tài)圈,將有助于解決上述問題。一方面分布式架構(gòu)的復(fù)雜性、易用性,可通過生態(tài)工具加速在企業(yè)落地,降低使用門檻和風(fēng)險(xiǎn);一方面良好的兼容性,充分享受已有生態(tài)紅利有成為很多分布式產(chǎn)品的發(fā)展策略之一。
4、選擇分布式關(guān)系型數(shù)據(jù)庫(kù)難點(diǎn)
雖然說分布式數(shù)據(jù)庫(kù)代表著數(shù)據(jù)庫(kù)重要的發(fā)展方向之一,且已經(jīng)取得了不俗的表現(xiàn)。但在用戶選擇上,仍然存在著諸多痛點(diǎn),這也妨礙了分布式數(shù)據(jù)庫(kù)的盡快普及。這其中比較重要的有以下幾點(diǎn):
穩(wěn)定性、可靠性待驗(yàn)證
分布式數(shù)據(jù)庫(kù)作為一種復(fù)雜架構(gòu),其組件眾多且與基礎(chǔ)環(huán)境存在較多依賴。其單點(diǎn)可用性往往不高,其產(chǎn)品正是希望其具備的分布式能力,通過整體的可用性解決單點(diǎn)問題,但這一過程還需要大量工程化實(shí)踐積累過程。因?yàn)橐坏?shù)據(jù)庫(kù)出現(xiàn)災(zāi)難性情況,也就意味著承載應(yīng)用和業(yè)務(wù)中斷。
運(yùn)維復(fù)雜度大幅提高
作為一類新架構(gòu)產(chǎn)品,其運(yùn)維復(fù)雜度自身就比較高。且很多傳統(tǒng)運(yùn)維經(jīng)驗(yàn)在新架構(gòu)下將失去意義,需要結(jié)合新產(chǎn)品去積累完善運(yùn)維體系。同時(shí)伴隨著產(chǎn)品的成熟度發(fā)展同樣需要一個(gè)過程等因素,也加大了運(yùn)維難度。
分布式改造成本高
分布式數(shù)據(jù)庫(kù)不僅對(duì)運(yùn)維側(cè),同時(shí)對(duì)架構(gòu)、研發(fā)側(cè)也帶來新的問題。分布式架構(gòu)與集中式架構(gòu)不同,兩者在很多方面并不兼容,需要從多方位進(jìn)行改造。同時(shí)由于行業(yè)內(nèi),尚無形成統(tǒng)一分布式數(shù)據(jù)庫(kù)設(shè)計(jì)開發(fā)標(biāo)準(zhǔn),應(yīng)用開發(fā)不得不針對(duì)不同數(shù)據(jù)庫(kù)采用不同的策略,也加大的改造成本。
專業(yè)人才匱乏
好的技術(shù),還需要懂的人才能發(fā)揮最大作用。分布式數(shù)據(jù)庫(kù)作為相對(duì)較新的一類產(chǎn)品,還沒有形成較為完備的人才體系。無論是面向架構(gòu)、開發(fā)、運(yùn)維方面,都面臨人才的短缺,且短時(shí)間內(nèi)還無法快速補(bǔ)充。這需要有個(gè)長(zhǎng)期的培育過程。
展望未來:更快更高更強(qiáng)
分布式關(guān)系型數(shù)據(jù)庫(kù)作為一種新架構(gòu)基礎(chǔ)軟件,滿足人們對(duì)數(shù)據(jù)在更大規(guī)模、更強(qiáng)算力、更高可用性上的要求。通過近些年時(shí)間,其技術(shù)已展示出蓬勃的生命力,并已開始落地開花。核心的分布式理念,已成為未來數(shù)據(jù)庫(kù)的發(fā)展的重點(diǎn)方向之一,相信在未來其將取得更大的成功,成為企業(yè)數(shù)字化轉(zhuǎn)型的利器。
作者介紹
韓鋒,51CTO社區(qū)編輯,CCIA(中國(guó)計(jì)算機(jī)協(xié)會(huì))常務(wù)理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創(chuàng)始人或?qū)<覉F(tuán)成員。有著豐富的一線數(shù)據(jù)庫(kù)架構(gòu)、軟件研發(fā)、產(chǎn)品設(shè)計(jì)、團(tuán)隊(duì)管理經(jīng)驗(yàn)。曾擔(dān)任多家公司首席DBA、數(shù)據(jù)庫(kù)架構(gòu)師等職。在云、電商、金融、互聯(lián)網(wǎng)等行業(yè)均有涉獵,精通多種關(guān)系型數(shù)據(jù)庫(kù),對(duì)NoSQL及大數(shù)據(jù)相關(guān)技術(shù)也有涉足,實(shí)踐經(jīng)驗(yàn)豐富。曾著有數(shù)據(jù)庫(kù)相關(guān)著作《SQL優(yōu)化最佳實(shí)踐》、《數(shù)據(jù)庫(kù)高效優(yōu)化》。