“極速、統(tǒng)一、開放”,StarRocks開啟企業(yè)數(shù)據(jù)分析新局面
近日,由知名分析型數(shù)據(jù)庫公司StarRocks主辦的StarRocks Summit 2021在線召開。此次會議以“極速、統(tǒng)一、開放 ”為主題,探討了在新技術(shù)、新場景驅(qū)動之下數(shù)據(jù)分析的新機(jī)遇和新架構(gòu)。此次活動吸引了近萬名大數(shù)據(jù)、數(shù)據(jù)庫相關(guān)的工程師、媒體和分析師在線觀看和互動,還有來自互聯(lián)網(wǎng)、房地產(chǎn)、零售、物流等領(lǐng)域的客戶參與并分享觀點(diǎn)。在本次峰會上,StarRocks還發(fā)布了全新的2.0產(chǎn)品。
新一代數(shù)據(jù)架構(gòu)必然是“極速統(tǒng)一”的
近年來,數(shù)據(jù)驅(qū)動的概念不斷深入人心,企業(yè)的數(shù)據(jù)分析場景也越來越豐富,對數(shù)據(jù)分析架構(gòu)的要求也越來高。StarRocks的聯(lián)合創(chuàng)始人,COO葉謙在開場的主題演講中分享,企業(yè)新的數(shù)據(jù)分析場景催生的新需求主要包括四個方面:希望數(shù)據(jù)分析的速度變得更快、希望數(shù)據(jù)分析更加靈活、希望數(shù)據(jù)分析更實(shí)時、希望數(shù)據(jù)分析能支持更高的并發(fā)。
在這幾方面的需求里,對數(shù)據(jù)分析的速度要求是一個最根本的需求?,F(xiàn)有的同類產(chǎn)品在分析速度上仍然差強(qiáng)人意。雖然有的產(chǎn)品在單表分析上表現(xiàn)優(yōu)異的產(chǎn)品,但在其他各個分析場景中,特別是在涉及到多表關(guān)聯(lián)查詢的場景、實(shí)時大量寫入并分析場景、高并發(fā)查詢分析場景時,當(dāng)前同類產(chǎn)品的速度仍然不能滿足業(yè)務(wù)需求。
正是因?yàn)樗俣炔贿_(dá)標(biāo),企業(yè)為了滿足業(yè)務(wù)需求,只能求助于預(yù)計算和大寬表,結(jié)果就是造成了數(shù)據(jù)分析的靈活性下降。葉謙指出“很難想象這樣的數(shù)據(jù)分析靈活性如何能支持好業(yè)務(wù)的快速迭代??赡軘?shù)據(jù)報表還沒建設(shè)好,業(yè)務(wù)就已經(jīng)錯過了最佳的拓展窗口期。”
不僅如此,現(xiàn)有數(shù)據(jù)分析復(fù)雜架構(gòu)還帶來了很高的成本,包括建設(shè)成本、開發(fā)成本和維護(hù)成本。有的公司同時在維護(hù)5、6套不同的數(shù)據(jù)分析系統(tǒng),而公司的大數(shù)據(jù)團(tuán)隊可能才不到10個人。在這種情況下,公司很難深入掌握每一套數(shù)據(jù)分析系統(tǒng),導(dǎo)致了線上業(yè)務(wù)的風(fēng)險。
StarRocks一直在試圖解決現(xiàn)有復(fù)雜數(shù)據(jù)架構(gòu)的問題,他們的答案是:新一代極速統(tǒng)一的數(shù)據(jù)分析架構(gòu)。StarRocks已經(jīng)實(shí)現(xiàn)了在多種數(shù)據(jù)分析場景下都能達(dá)到極速的分析效果。StarRocks的單表查詢性能和當(dāng)前業(yè)界最好的產(chǎn)品持平,多表查詢性能大幅領(lǐng)先于當(dāng)前的同類產(chǎn)品。“正是因?yàn)檫@樣全方位的極速,我們才能在業(yè)務(wù)中應(yīng)用星型模型、雪花模型等更靈活的建模方式。”葉謙說,“在這個數(shù)據(jù)架構(gòu)中,整個OLAP分析層可以統(tǒng)一到StarRocks中。”。
?。▓D1:基于StarRocks的極速統(tǒng)一的數(shù)據(jù)架構(gòu))
追求極速,直道超車
StarRocks的聯(lián)合創(chuàng)始人,CTO趙純的主題演講深度解密了StarRocks極速背后的硬核技術(shù)。StarRocks從自主研發(fā)的全面向量化引擎出發(fā),在追求極速的路上不斷實(shí)現(xiàn)突破。逐漸從追趕者,變成了領(lǐng)跑者。
在分析型數(shù)據(jù)庫領(lǐng)域,國外著名產(chǎn)品ClickHouse一直是一個業(yè)界標(biāo)桿。這個起源于俄羅斯的產(chǎn)品,最近剛剛以20億美元的估值,融資2.5億美金。其融資速度和其分析速度一樣,震驚了業(yè)界。趙純分享,在StarRocks向量化引擎1.0階段,StarRocks的單表查詢性能已經(jīng)比肩國外著名產(chǎn)品ClickHouse,而多表查詢性能,遠(yuǎn)超ClickHouse。
而不久即將發(fā)布的StarRocks 2.0將把整個產(chǎn)品推入向量化引擎2.0階段。在這個階段里的,利用全新自主研發(fā)的基于代價模型的CBO優(yōu)化器將發(fā)揮巨大的作用。由于新優(yōu)化器的加持,StarRocks在查詢規(guī)劃方面能夠利用全局上下文,這使得有更多的優(yōu)化手段可以用來加速單表查詢。字符串全局字典就是其中一項重要優(yōu)化,它適用于線上最普遍的,針對字符串列的多維度聚合分析場景,如連鎖機(jī)構(gòu)針對地域和門店的聚合查詢,針對訂單基于品類和標(biāo)簽的聚合分析等。在這種場景下StarRocks比ClickHouse還要快一倍以上!
極速統(tǒng)一的力量
截止到當(dāng)前,StarRocks已經(jīng)在數(shù)百家公司的生產(chǎn)環(huán)境上線使用, 其中大公司超過70家。這些客戶里包含了多個不同行業(yè)的頭部客戶,包括互聯(lián)網(wǎng),金融,物流,制造,教育,航旅,游戲和房地產(chǎn)等領(lǐng)域。“更讓我們感到自豪的是,我們的每個上線客戶都在不斷擴(kuò)大StarRocks的線上集群規(guī)模。這一方面說明了客戶數(shù)據(jù)分析需求的旺盛,另一方面也說明了大家對StarRocks的認(rèn)可。” 葉謙說。
與會的10個行業(yè)頭部公司,如:騰訊微信、小米、貝殼找房、攜程、順豐科技等,分享了各自公司基于StarRocks打造新一代數(shù)據(jù)分析架構(gòu)的經(jīng)驗(yàn)。這其中不乏從ClickHouse切換到StarRocks的實(shí)踐案例。
在攜程的案例中,攜程大住宿HData之前是ClickHouse的重度用戶,雖然單表查詢性能優(yōu)異,但是不能支持高并發(fā)查詢,以及運(yùn)維的復(fù)雜性都讓攜程大住宿的工程師深受困擾。在峰會的圓桌討論環(huán)節(jié)中,攜程大住宿的史文俊還提到,曾經(jīng)出現(xiàn)過長假訪問高峰期間ClickHouse出現(xiàn)Bug,導(dǎo)致所有服務(wù)都受到影響的情況,搞得工程師每逢長假都睡不好覺。在使用了StarRocks之后,高并發(fā)查詢的問題,以及運(yùn)維復(fù)雜的問題都得到了很好得解決。后續(xù),攜程大住宿會把實(shí)時和離線的數(shù)據(jù)分析都遷移到StarRocks上來,期望最終實(shí)現(xiàn)OLAP數(shù)據(jù)分析層的統(tǒng)一。
除了攜程之外,貝殼找房、順豐科技、汽車之家等公司也用實(shí)際案例,佐證了“極速統(tǒng)一”架構(gòu)的能力。
開放的生態(tài),無限的未來
自從9月初開放源代碼以來,StarRocks的社區(qū)建設(shè)進(jìn)展迅速。目前,已經(jīng)有近10家知名企業(yè)正式加入了StarRocks的建設(shè)。當(dāng)前社區(qū)每月有229個commits,月活躍contributors數(shù)超過30人,每月產(chǎn)生300多個Pull Request。這個活躍度堪比Flink和Spark等著名的開源社區(qū)。據(jù)悉的StarRocks即將和幾個著名的頭部云廠商展開合作,共同對外提供基于StarRocks的產(chǎn)品。云廠商也會投入研發(fā)力量,加入StarRocks的社區(qū)建設(shè)。另外,StarRocks面向開發(fā)者的Hacker meetup,也將在近期啟動。此舉將一步激活社區(qū),吸引更多的開發(fā)者加入StarRocks的建設(shè)。
?。▓D2:當(dāng)前已經(jīng)加入社區(qū)的知名企業(yè))
本次StarRocks Summit 2021是StarRocks舉辦的第一屆年度峰會。它向業(yè)界展示了一個鋒利強(qiáng)悍的產(chǎn)品,一個朝氣蓬勃、快速發(fā)展的社區(qū)。相信在未來的日子里的,StarRocks一定會像它的名字那樣,一面仰望星空,一面腳踏實(shí)地,為企業(yè)的數(shù)據(jù)分析發(fā)展注入更多的驅(qū)動力。