Apache Doris剛剛 "畢業(yè)":這個SQL數(shù)據(jù)倉庫有什么不一樣?
譯文這個開源的大規(guī)模并行處理(MPP)分析數(shù)據(jù)庫將與ClickHouse、MariaDB、Apache Druid、Apache Pinot以及Google BigQuery、Amazon RedShift和Microsoft Synapse等大規(guī)模服務(wù)競爭。
Doris,原名 Palo,是一個開源的、基于SQL的大規(guī)模并行處理 (MPP) 分析數(shù)據(jù)倉庫,誕生于中國互聯(lián)網(wǎng)搜索巨頭百度,作為其廣告業(yè)務(wù)的數(shù)據(jù)倉庫系統(tǒng),2017 年開源,2018 年進(jìn)入 Apache 孵化器。
不久前,Doris獲得了頂級項(xiàng)目的地位,根據(jù)Apache軟件基金會(ASF)的說法,這意味著 "它已經(jīng)證明了它有能力進(jìn)行適當(dāng)?shù)淖灾?。
數(shù)據(jù)倉庫最近發(fā)布了 1.0 版,這 是它在孵化器中進(jìn)行開發(fā)的第八個版本(以及六個連接器版本)。它旨在支持在線分析處理 (OLAP)工作負(fù)載,通常用于數(shù)據(jù)科學(xué)場景。
Doris 植根于 Apache Impala 和 Google Mesa
根據(jù) Apache 軟件基金會的說法,Doris 是基于Google Mesa和 Apache Impala 的集成,Apache Impala 是 2012 年開發(fā)的開源 MPP SQL 查詢引擎,基于 Google F1 的基礎(chǔ)。
Mesa 在 2014 年左右被設(shè)計成一個高度可擴(kuò)展的分析數(shù)據(jù)倉庫系統(tǒng),用于存儲與谷歌互聯(lián)網(wǎng)廣告業(yè)務(wù)相關(guān)的關(guān)鍵測量數(shù)據(jù)。
據(jù)百度和 Apache 孵化器的開發(fā)人員稱,Doris 提供了簡單的設(shè)計架構(gòu),同時提供了高可用性、可靠性、容錯性和可擴(kuò)展性。
“在單一系統(tǒng)中(開發(fā)、部署和使用)的簡單性和滿足許多數(shù)據(jù)服務(wù)需求是 Doris 的主要特點(diǎn),”Apache 軟件基金會在一份聲明中表示,并補(bǔ)充說數(shù)據(jù)倉庫支持多維報告、用戶畫像、臨時查詢和實(shí)時儀表板。
Doris 的其他一些功能包括列存儲、并行執(zhí)行、矢量化技術(shù)、查詢優(yōu)化、ANSI SQL,以及通過 Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark 和 Elasticsearch 的連接器與其他大數(shù)據(jù)生態(tài)系統(tǒng)集成。
開源數(shù)據(jù)庫的使用量預(yù)計將增長
對企業(yè)級開源數(shù)據(jù)庫的接受程度一直在增長。在Gartner的《2019年開源DBMS市場狀況》報告中,該咨詢公司預(yù)測,到2022年底,超過70%的新內(nèi)部應(yīng)用將在開源數(shù)據(jù)庫管理系統(tǒng)(OSDBMS)或基于OSDBMS的數(shù)據(jù)庫平臺即服務(wù)(dbPaaS)上開發(fā)。
此外,隨著數(shù)據(jù)的激增和企業(yè)對實(shí)時分析的需求的增長,一個簡單但同時也是開源的大規(guī)模并行處理數(shù)據(jù)庫似乎成為了當(dāng)下的需要。
“隨著數(shù)據(jù)量的增長,MPP 數(shù)據(jù)庫成為能夠以足夠快或足夠便宜的方式處理數(shù)據(jù)以滿足組織需求的唯一現(xiàn)實(shí)方法,”Ventana Research 研究總監(jiān) David Menninger 說。
云架構(gòu)激發(fā)了人們對 MPP 數(shù)據(jù)庫的興趣
Menninger 說,推動 MPP 數(shù)據(jù)庫的其他趨勢是相對便宜的基于云的服務(wù)器實(shí)例的可用性,這些實(shí)例可以用作 MPP 配置的一部分,從而消除了采購和安裝這些系統(tǒng)使用的物理硬件的需要。
Menninger 為 Doris 提供了一個案例,他說雖然有許多 MPP 數(shù)據(jù)庫選項(xiàng),其中一些是開源的,但實(shí)際上并沒有開源 MPP MySQL 替代方案。
“MySQL 本身和MariaDB已被擴(kuò)展以支持更大的分析工作負(fù)載,但它們最初是為事務(wù)處理而設(shè)計的,”Menninger 說,并補(bǔ)充說開源 PostreSQL 數(shù)據(jù)庫Greenplum和 Google BigQuery、Amazon RedShift 和 Microsoft Synapse 等超大規(guī)模服務(wù)可能是被視為多麗絲的競爭對手。
此外,Gartner 前大數(shù)據(jù)和分析研究副總裁 Sanjeev Mohan 表示,ClickHouse、Apache Druid 和 Apache Pinot 也可以被視為競爭對手。
根據(jù) Apache 基金會的說法,使用 Doris 可能具有多種優(yōu)勢,例如架構(gòu)簡單和更快的查詢時間。
Doris 簡單的原因之一是它不依賴于多個組件來執(zhí)行諸如類管理、同步和通信等任務(wù)。其快速查詢時間可歸因于矢量化,該過程允許程序或算法一次對多個值集合而不是單個值進(jìn)行操作。
據(jù) Apache 基金會的開發(fā)人員稱,數(shù)據(jù)倉庫的另一個好處是 Doris 的超高并發(fā)支持,這意味著它可以同時處理來自數(shù)萬用戶的處理數(shù)據(jù)和從數(shù)據(jù)庫中獲取洞察力的請求。
對高并發(fā)性的需求已經(jīng)增加,因?yàn)榇蠖鄶?shù)組織都允許其員工訪問數(shù)據(jù),以推動數(shù)據(jù)驅(qū)動的洞察力,而只有 C 級高管才能訪問分析。
原文標(biāo)題:??Apache Doris just 'graduated': Why care about this SQL data warehouse??