Apache Doris剛“畢業(yè)”:為什么應(yīng)關(guān)注這種SQL數(shù)據(jù)倉庫?
譯文?譯者 | 布加迪
審校 | 孫淑娟
Doris是一種基于SQL的大規(guī)模并行處理(MPP)開源分析數(shù)據(jù)倉庫,正在Apache Incubator(Apache孵化器)進(jìn)行開發(fā)?,F(xiàn)在,Doris躋身頂級項(xiàng)目行列,據(jù)Apache 軟件基金會(ASF)聲稱,這意味著“它已證明了能夠進(jìn)行適當(dāng)?shù)淖灾巍薄?/p>
該數(shù)據(jù)倉庫最近迎來了版本1.0,這是它在該孵化器進(jìn)行開發(fā)的第八個(gè)版本(還有六個(gè)Connector版本)。它旨在支持聯(lián)機(jī)分析處理(OLAP)工作負(fù)載,通常用于數(shù)據(jù)科學(xué)場景。
Doris原名Palo,誕生于中國互聯(lián)網(wǎng)搜索巨頭百度,是其廣告業(yè)務(wù)的數(shù)據(jù)倉庫系統(tǒng),2017 年開源,2018年進(jìn)入Apache 孵化器。
Doris植根于Apache Impala和Google Mesa
據(jù)Apache軟件基金會聲稱,Doris基于Google Mesa和Apache Impala集成,Apache Impala是2012年開發(fā)的開源MPP SQL查詢引擎,基于Google F1的基礎(chǔ)。
Mesa在2014年左右被設(shè)計(jì)成一種高度可擴(kuò)展的分析數(shù)據(jù)倉庫系統(tǒng),用于存儲與谷歌互聯(lián)網(wǎng)廣告業(yè)務(wù)相關(guān)的關(guān)鍵測量數(shù)據(jù)。
據(jù)百度和Apache孵化器的開發(fā)人員聲稱,Doris提供了簡單的設(shè)計(jì)架構(gòu),同時(shí)提供了很高的可用性、可靠性、容錯(cuò)性和可擴(kuò)展性。
“易于(開發(fā)、部署和使用),以及單一系統(tǒng)滿足眾多數(shù)據(jù)服務(wù)的需求,這是Doris的兩大特點(diǎn)”,Apache軟件基金會在一份聲明中表示,補(bǔ)充道該數(shù)據(jù)倉庫支持多維報(bào)告、用戶畫像、即席查詢和實(shí)時(shí)儀表板。
Doris的其他一些功能包括列存儲、并行執(zhí)行、矢量化技術(shù)、查詢優(yōu)化、ANSI SQL,以及通過面向Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark、 Elasticsearch及其他系統(tǒng)的連接件與大數(shù)據(jù)生態(tài)系統(tǒng)集成。
開源數(shù)據(jù)庫的使用量預(yù)計(jì)將增長
企業(yè)級開源數(shù)據(jù)庫的使用率預(yù)計(jì)會增長。咨詢公司Gartner在《2019年開源DBMS市場狀況》報(bào)告中預(yù)測,到2022年底,超過70%的新的內(nèi)部應(yīng)用程序?qū)⒃陂_源數(shù)據(jù)庫管理系統(tǒng)(OSDBMS)或基于OSDBMS的數(shù)據(jù)庫平臺即服務(wù)(dbPaaS)上開發(fā)。
此外,隨著數(shù)據(jù)激增和企業(yè)越來越需要實(shí)時(shí)分析,一種簡單的大規(guī)模并行處理開源數(shù)據(jù)庫成為了當(dāng)下的需要。
Ventana Research研究總監(jiān)David Menninger說:“隨著數(shù)據(jù)量不斷增長,MPP數(shù)據(jù)庫成為了能夠以足夠快的速度或足夠低的成本處理數(shù)據(jù)以滿足組織需求的唯一實(shí)際方法。”
云架構(gòu)激發(fā)了組織對MPP數(shù)據(jù)庫的興趣
Menninger表示,推動MPP數(shù)據(jù)庫發(fā)展的其他趨勢是現(xiàn)在有了相對廉價(jià)的基于云的服務(wù)器實(shí)例,這些實(shí)例可以用作MPP配置的一部分,因而組織不需要采購和安裝這些系統(tǒng)使用的物理硬件。
Menninger認(rèn)為Doris大有希望,雖然有許多MPP數(shù)據(jù)庫可選,其中一些是開源的,但實(shí)際上沒有一種開源的MPP MySQL替代方案。
“MySQL本身和MariaDB已經(jīng)過擴(kuò)展,可支持更龐大的分析工作負(fù)載,但它們最初是為事務(wù)處理設(shè)計(jì)的”,Menninger說,補(bǔ)充道可以將開源PostreSQL數(shù)據(jù)庫Greenplum以及Google BigQuery、Amazon RedShift和Microsoft Synapse等超大規(guī)模服務(wù)視為Doris的競爭對手。
此外,Gartner大數(shù)據(jù)和分析前研究副總裁Sanjeev Mohan表示,還可以將ClickHouse、Apache Druid和Apache Pinot視為是競爭對手。
據(jù)Apache基金會聲稱,使用Doris可能有諸多優(yōu)勢,比如架構(gòu)簡單和更快的查詢時(shí)間。
Doris簡單的原因之一是,它不依賴多個(gè)組件來完成類管理、同步和通信之類的任務(wù)??焖俨樵儠r(shí)間可歸因于矢量化,這種方法讓程序或算法可以一次針對多個(gè)值而不是單個(gè)值進(jìn)行操作。
據(jù)Apache基金會的開發(fā)人員聲稱,該數(shù)據(jù)倉庫的另一個(gè)好處是Doris的超高并發(fā)支持,這意味著它可以同時(shí)處理來自成千上萬用戶提出的處理數(shù)據(jù)、從數(shù)據(jù)庫獲取洞察力的請求。
由于大多數(shù)組織允許其員工訪問數(shù)據(jù),以便促進(jìn)他們利用數(shù)據(jù)獲取洞察力,而不是只有高管才能享用分析工具,如今對高并發(fā)性的需求已有所增加。
原文標(biāo)題:??Apache Doris just 'graduated': Why care about this SQL data warehouse???,作者:Anirban Ghoshal?