自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="qbhpf"></sub>}

<style id="qbhpf"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

ClickHouse 挺快，esProc SPL 更快

作者：乾學(xué)院 2022-09-21 10:43:57

數(shù)據(jù)庫

CH 計(jì)算某些簡單場(chǎng)景（比如單表遍歷）確實(shí)很快，和 SPL 的性能差不多。但是，高性能計(jì)算不能只看簡單情況快不快，還要權(quán)衡各種場(chǎng)景。

開源分析數(shù)據(jù)庫 ClickHouse 以快著稱，真的如此嗎？我們通過對(duì)比測(cè)試來驗(yàn)證一下。

ClickHouse vs Oracle

先用 ClickHouse（簡稱 CH）、Oracle 數(shù)據(jù)庫（簡稱 ORA）一起在相同的軟硬件環(huán)境下做對(duì)比測(cè)試。測(cè)試基準(zhǔn)使用國際廣泛認(rèn)可的 TPC-H，針對(duì) 8 張表，完成 22 條 SQL 語句定義的計(jì)算需求（Q1 到 Q22）。測(cè)試采用單機(jī) 12 線程，數(shù)據(jù)總規(guī)模 100G。TPC-H 對(duì)應(yīng)的 SQL 都比較長，這里就不詳細(xì)列出了。

Q1 是簡單的單表遍歷計(jì)算分組匯總，對(duì)比測(cè)試結(jié)果如下：

CH 計(jì)算 Q1 的表現(xiàn)要好于 ORA，說明 CH 的列式存儲(chǔ)做得不錯(cuò)，單表遍歷速度很快。而 ORA 主要吃虧在使用了行式存儲(chǔ)，明顯要慢得多了。

但是，如果我們加大計(jì)算復(fù)雜度，CH 的表現(xiàn)怎么樣呢？繼續(xù)看 TPC-H 的 Q2、Q3、Q7，測(cè)試結(jié)果如下：

計(jì)算變得復(fù)雜之后，CH 性能出現(xiàn)了明顯的下降。Q2 涉及數(shù)據(jù)量較少，列存作用不大，CH 性能和 ORA 幾乎一樣。Q3 數(shù)據(jù)量較大，CH 占了列存的便宜后超過了 ORA。Q7 數(shù)據(jù)也較大，但是計(jì)算復(fù)雜，CH 性能還不如 ORA。

做復(fù)雜計(jì)算快不快，主要看性能優(yōu)化引擎做的好不好。CH 的列存占據(jù)了巨大的存儲(chǔ)優(yōu)勢(shì)，但竟然被 ORA 用行式存儲(chǔ)趕上，這說明 CH 的算法優(yōu)化能力遠(yuǎn)不如 ORA。

TPC-H 的 Q8 是更復(fù)雜一些的計(jì)算，子查詢中有多表連接，CH 跑了 2000 多秒還沒有出結(jié)果，應(yīng)該是卡死了，ORA 跑了 192 秒。Q9 在 Q8 的子查詢中增加了 like，CH 直接報(bào)內(nèi)存不足的錯(cuò)誤了，ORA 跑了 234 秒。其它還有些復(fù)雜運(yùn)算是 CH 跑不出來的，就沒法做個(gè)總體比較了。

CH 和 ORA 都基于 SQL 語言，但是 ORA 能優(yōu)化出來的語句，CH 卻跑不出來，更證明 CH 的優(yōu)化引擎能力比較差。

坊間傳說，CH 只擅長做單表遍歷運(yùn)算，有關(guān)聯(lián)運(yùn)算時(shí)甚至跑不過 MySQL，看來并非虛妄胡說。想用 CH 的同學(xué)要掂量一下了，這種場(chǎng)景到底能有多大的適應(yīng)面？

esProc SPL 登場(chǎng)

開源 esProc SPL 也是以高性能作為宣傳點(diǎn)，那么我們?cè)賮肀容^一下。

仍然是跑 TPC-H 來看：

Q2、Q3、Q7 這些較復(fù)雜的運(yùn)算，SPL 比 CH 和 ORA 跑的都快。CH 跑不出結(jié)果的 Q8、Q9，SPL 分別跑了 37 秒和 68 秒，也比 ORA 快。原因在于 SPL 可以采用更優(yōu)的算法，其計(jì)算復(fù)雜度低于被 ORA 優(yōu)化過的 SQL，更遠(yuǎn)低于 CH 執(zhí)行的 SQL，再加上列存，最終是用 Java 開發(fā)的 SPL 跑贏了 C++ 實(shí)現(xiàn)的 CH 和 ORA。

大概可以得到結(jié)論，esProc SPL 無論做簡單計(jì)算，還是復(fù)雜計(jì)算性能都非常好。

不過，Q1 這種簡單運(yùn)算，CH 比 SPL 還是略勝了一籌。似乎可以進(jìn)一步證明前面的結(jié)論，即 CH 特別擅長簡單遍歷運(yùn)算。

且慢，SPL 還有秘密武器。

SPL 的企業(yè)版中提供了列式游標(biāo)機(jī)制，我們?cè)賮韺?duì)比測(cè)試一下：在 8 億條數(shù)據(jù)量下，做最簡單的分組匯總計(jì)算，對(duì)比 SPL（使用列式游標(biāo)）和 CH 的性能。（采用的機(jī)器配置比前面做 TPC-H 測(cè)試時(shí)略低，因此測(cè)出的結(jié)果不同，不過這里主要看相對(duì)值。）

簡單分組匯總對(duì)應(yīng) CH 的 SQL 語句是：

SQL1：

SELECT mod(id, 100) AS Aid, max(amount) AS Amax
FROM test.t
GROUP BY mod(id, 100)

這個(gè)測(cè)試的結(jié)果是下圖這樣：

SPL 使用列式游標(biāo)機(jī)制之后，簡單遍歷分組計(jì)算的性能也和 CH 一樣了。如果在 TPC-H 的 Q1 測(cè)試中也使用列式游標(biāo)，SPL 也會(huì)達(dá)到和 CH 同樣的性能。

測(cè)試過程中發(fā)現(xiàn)，8 億條數(shù)據(jù)存成文本格式占用磁盤 15G，在 CH 中占用 5.4G，SPL 占用 8G。說明 CH 和 SPL 都采用了壓縮存儲(chǔ)，CH 的壓縮比更高些，也進(jìn)一步證明 CH 的存儲(chǔ)引擎做得確實(shí)不錯(cuò)。不過，SPL 也可以達(dá)到和 CH 同樣的性能，這說明 SPL 存儲(chǔ)引擎和算法優(yōu)化做得都比較好，高性能計(jì)算能力更加均衡。

當(dāng)前版本的 SPL 是用 Java 寫的，Java 讀數(shù)后生成用于計(jì)算的對(duì)象的速度很慢，而用 C++ 開發(fā)的 CH 則沒有這個(gè)問題。對(duì)于復(fù)雜的運(yùn)算，讀數(shù)時(shí)間占比不高，Java 生成對(duì)象慢造成的拖累還不明顯；而對(duì)于簡單的遍歷運(yùn)算，讀數(shù)時(shí)間占比很高，所以前面測(cè)試中 SPL 就會(huì)比 CH 更慢。列式游標(biāo)優(yōu)化了讀數(shù)方案，不再生成一個(gè)個(gè)小對(duì)象，使對(duì)象生成次數(shù)大幅降低，這時(shí)候就能把差距拉回來了。單純從存儲(chǔ)本身看，SPL 和 CH 相比并沒有明顯的優(yōu)劣之分。

接下來再看常規(guī) TopN 的對(duì)比測(cè)試，CH 的 SQL 是：

SQL2：

SELECT * FROM test.t ORDER BY amount DESC LIMIT 100

對(duì)比測(cè)試結(jié)果是這樣的：

單看 CH 的 SQL2，常規(guī) TopN 的計(jì)算方法是全排序后取出前 N 條數(shù)據(jù)。數(shù)據(jù)量很大時(shí)，如果真地做全排序，性能會(huì)非常差。SQL2 的測(cè)試結(jié)果說明，CH 應(yīng)該和 SPL 一樣做了優(yōu)化，沒有全排序，所以兩者性能都很快，SPL 稍快一些。

也就是說，無論簡單運(yùn)算還是復(fù)雜運(yùn)算，esProc SPL 都能更勝一籌。

進(jìn)一步的差距

差距還不止于此。

正如前面所說，CH 和 ORA 使用 SQL 語言，都是基于關(guān)系模型的，所以都面臨 SQL 優(yōu)化的問題。TPC-H 測(cè)試證明，ORA 能優(yōu)化的一些場(chǎng)景 CH 卻優(yōu)化不了，甚至跑不出結(jié)果。那么，如果面對(duì)一些 ORA 也不會(huì)優(yōu)化的計(jì)算，CH 就更不會(huì)優(yōu)化了。比如說我們將 SQL1 的簡單分組匯總，改為兩種分組匯總結(jié)果再連接，CH 的 SQL 寫出來大致是這樣：

SQL3：

SELECT *
FROM (  
  SELECT mod(id, 100) AS Aid, max(amount) AS Amax  
  FROM test.t  
 GROUP BY mod(id, 100)
  ) A  
  JOIN (  
  SELECT floor(id / 200000) AS Bid, min(amount) AS Bmin  
  FROM test.t  
 GROUP BY floor(id / 200000)
  ) B  
 ON A.Aid = B.Bid

這種情況下，對(duì)比測(cè)試的結(jié)果是 CH 的計(jì)算時(shí)間翻倍，SPL 則不變：

這是因?yàn)?SPL 不僅使用了列式游標(biāo)，還使用了遍歷復(fù)用機(jī)制，能在一次遍歷過程中計(jì)算出多種分組結(jié)果，可以減少很多硬盤訪問量。CH 使用的 SQL 無法寫出這樣的運(yùn)算，只能靠 CH 自身的優(yōu)化能力了。而 CH 算法優(yōu)化能力又很差，其優(yōu)化引擎在這個(gè)測(cè)試中沒有起作用，只能遍歷兩次，所以性能下降了一倍。

SPL 實(shí)現(xiàn)遍歷復(fù)用的代碼很簡單，大致是這樣：

A	B
1	=file("topn.ctx").open().cursor@mv(id,amount)
2	cursor A1	=A2.groups(id%100:Aid;max(amount):Amax)
3	cursor	=A3.groups(id\200000:Bid;min(amount):Bmin)
4	=A2.join@i(Aid,A3:Bid,Bid,Bmin)

再將 SQL2 常規(guī) TopN 計(jì)算，調(diào)整為分組后求組內(nèi) TopN。對(duì)應(yīng) SQL 是：

SQL4：

SELECT
 gid,
 groupArray(100)(amount) AS amount
FROM
(    
 SELECT
   mod(id, 10) AS gid,
   amount    
 FROM test.topn    
 ORDER BY
   gid ASC,
   amount DESC
) AS a
GROUP BY gid

這個(gè)分組 TopN 測(cè)試的對(duì)比結(jié)果是下面這樣的：

CH 做分組 TopN 計(jì)算比常規(guī) TopN 慢了 42 倍，說明 CH 在這種情況下很可能做了排序動(dòng)作。也就是說，情況復(fù)雜化之后，CH 的優(yōu)化引擎又不起作用了。與 SQL 不同，SPL 把 TopN 看成是一種聚合運(yùn)算，和 sum、count 這類運(yùn)算的計(jì)算邏輯是一樣的，都只需要對(duì)原數(shù)據(jù)遍歷一次。這樣，分組求組內(nèi) TopN 就和分組求和、計(jì)數(shù)一樣了，可以避免排序計(jì)算。因此，SPL 計(jì)算分組 TopN 比 CH 快了 22 倍。

而且，SPL 計(jì)算分組 TopN 的代碼也不復(fù)雜：

?	A
1	=file("topn.ctx").open().cursor@mv(id,amount)
2	=A1.groups(id%10:gid;top(10;-amount)).news(#2;gid,~.amount)

不只是跑得快

再來看看電商系統(tǒng)中常見的漏斗運(yùn)算。SPL 的代碼依然很簡潔：

	A	B
1	=["etype1","etype2","etype3"]	=file("event.ctx").open()
2	=B1.cursor(id,etime,etype;etime>=date("2021-01-10") && etime<date("2021-01-25") && A1.contain(etype) && …)
3	=A2.group(id).(~.sort(etime))	=A3.new(~.select@1(etype==A1(1)):first,~:all).select(first)
4	=B3.(A1.(t=if(#==1,t1=first.etime,if(t,all.select@1(etype==A1.~ && etime>t && etime<t1+7).etime, null))))
5	=A4.groups(;count(~(1)):STEP1,count(~(2)):STEP2,count(~(3)):STEP3)

CH 的 SQL 無法實(shí)現(xiàn)這樣的計(jì)算，我們以 ORA 為例看看三步漏斗的 SQL 寫法：

with e1 as (  
 select gid,1 as step1,min(etime) as t1  
 from T  
 where etime>= to_date('2021-01-10', 'yyyy-MM-dd') and etime<to_date('2021-01-25', 'yyyy-MM-dd')    
   and eventtype='eventtype1' and …  
 group by 1
),
with e2 as (  
 select gid,1 as step2,min(e1.t1) as t1,min(e2.etime) as t2  
 from T as e2  
 inner join e1 on e2.gid = e1.gid  
  where e2.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e2.etime<to_date('2021-01-25', 'yyyy-MM-dd')  
   and e2.etime > t1    
   and e2.etime < t1 + 7
   and eventtype='eventtype2' and …  
 group by 1
),
with e3 as (  
 select gid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3  
 from T as e3  
 inner join e2 on e3.gid = e2.gid  
  where e3.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e3.etime<to_date('2021-01-25', 'yyyy-MM-dd')  
   and e3.etime > t2    
   and e3.etime < t1 + 7
   and eventtype='eventtype3' and …  
 group by 1
)
select
 sum(step1) as step1,  
 sum(step2) as step2,  
 sum(step3) as step3
from
 e1  
 left join e2 on e1.gid = e2.gid  
 left join e3 on e2.gid = e3.gid

ORA 的 SQL 寫出來要三十多行，理解起來有相當(dāng)?shù)碾y度。而且這段代碼和漏斗的步驟數(shù)量相關(guān)，每增加一步數(shù)就要再增加一段子查詢。相比之下，SPL 就簡單得多，處理任意步驟數(shù)都是這段代碼。

這種復(fù)雜的 SQL，寫出來都很費(fèi)勁，性能優(yōu)化更無從談起。

而 CH 的 SQL 還遠(yuǎn)不如 ORA，基本上寫不出這么復(fù)雜的邏輯，只能在外部寫 C++ 代碼實(shí)現(xiàn)。也就是說，這種情況下只能利用 CH 的存儲(chǔ)引擎。雖然用 C++ 在外部計(jì)算有可能獲得很好的性能，但開發(fā)成本非常高。類似的例子還有很多，CH 都無法直接實(shí)現(xiàn)。

總結(jié)一下：CH 計(jì)算某些簡單場(chǎng)景（比如單表遍歷）確實(shí)很快，和 SPL 的性能差不多。但是，高性能計(jì)算不能只看簡單情況快不快，還要權(quán)衡各種場(chǎng)景。對(duì)于復(fù)雜運(yùn)算而言，SPL 不僅性能遠(yuǎn)超 CH，代碼編寫也簡單很多。SPL 能覆蓋高性能數(shù)據(jù)計(jì)算的全場(chǎng)景，可以說是完勝 CH。

責(zé)任編輯：龐桂玉來源：碼農(nóng)翻身

ClickHouse esProc SPL 數(shù)據(jù)庫

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營