自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不同Hadoop上的SQL數(shù)據(jù)庫引擎如何適配BI工作

大數(shù)據(jù) Hadoop
Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準,發(fā)現(xiàn)Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。根據(jù)最新的基準,三個主要的SQL-on-Hadoop引擎,Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2,都有各自獨特的優(yōu)勢和劣勢,這令他們能很好的適應(yīng)一些BI用例,而不是其他智能。

注:Impala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。

不同Hadoop上的SQL數(shù)據(jù)庫引擎如何適配BI工作?

Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準,發(fā)現(xiàn)Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。

根據(jù)***的基準,三個主要的SQL-on-Hadoop引擎,Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2,都有各自獨特的優(yōu)勢和劣勢,這令他們能很好的適應(yīng)一些BI用例,而不是其他智能。

“一個引擎是無法滿足所有需求的”,Dave Mariani,大規(guī)模AtScale的CEO和創(chuàng)始人,AtScale是一個專門在hadoop上實現(xiàn)BI的創(chuàng)新企業(yè)。“我們已經(jīng)完成了布置,對于我們的客戶而言這是多個引擎的補充。”

關(guān)于在Hadoop基礎(chǔ)上的商業(yè)智能,AtScale幫助技術(shù)評估者選擇***的SQL –on-Hadoop技術(shù),以幫助他們完成BI用例。AtScale測試團隊使用星型架構(gòu)基準(SSB)數(shù)據(jù)集,基于廣泛使用的TPC-H數(shù)據(jù)(TPC- H是事務(wù)處理性能委員會公布的一套針對數(shù)據(jù)庫決策支持能力的測試基準),將其進行修改使之更加 精確的表現(xiàn)一個面向BI的數(shù)據(jù)布局。數(shù)據(jù)集允許數(shù)據(jù)團隊測試大型表的查詢:在線訂購表含有接近6百萬行,大型客戶表含有超過十億行。

SQL-on-Hadoop引擎有不同的“甜區(qū)”工作負載

Mariani解釋AtScale根據(jù)三個關(guān)鍵要求評價SQL-on-Hadoop引擎,以及它們的適應(yīng)度是否能滿足BI工作負載。

在大數(shù)據(jù)上執(zhí)行。SQL-on-Hadoop引擎必須能夠連續(xù)不斷的分析十億百億行數(shù)據(jù),并且沒有生成錯誤,對命令的反應(yīng)時間是10s或者是100s。

在小數(shù)據(jù)上速度快。引擎需要傳遞相互表現(xiàn)到已知查詢模式,因此,

SQL-on-Hadoop引擎在處理小數(shù)據(jù)時,不超過幾秒鐘就能將結(jié)果返回。(小數(shù)據(jù)是指有著成千上百萬的命令行的數(shù)據(jù))。

對用戶來說是穩(wěn)定的。企業(yè)級BI用戶的基礎(chǔ)是由成百上千的數(shù)據(jù)工作人員組成。SQL-on-Hadoop引擎必須在高度并行分析的工作負載中運行可靠。

Mariani領(lǐng)導(dǎo)團隊為雅虎的BI創(chuàng)建了可能是世界上***的在線分層分析!他相信這三個標準是基本要求的代表,是企業(yè)在Hadoop上實現(xiàn)BI時都會遇到的。這個標準,是測試團隊和大量行業(yè)企業(yè)合作得出的,包括金融服務(wù),醫(yī)療,零售,電信等。

“我們使用了真實世界的的經(jīng)驗去形成文檔,每一個技術(shù)評估者可以將其作為是評估流程的一部分”。Josh Klahr補充,AtScale.生產(chǎn)部門副總裁。

測試團隊發(fā)現(xiàn)三個引擎都通過了測試,足夠穩(wěn)定去支持BI工作負載,但是一個引擎不能滿足所有需求。每個引擎都有自己的“甜區(qū)”,企業(yè)有可能去尋找所有引擎的混合用法,他們相信這有可能最適合他們的目標。

當Hive在逐漸思考SQL-on-Hadoop的默認值時,它將基準中引擎運行最慢的情況放置一邊,令其不能很好的配合相互查詢。

“如果你使用Hive Tez作為你的相互查詢引擎,你能做到的***是2.4秒”。Mariani 說。

但是它可能緩慢,Hive也是三個引擎中最穩(wěn)定的,在多個查詢類型中有著***的連貫性。

“Hive Tez就像烏龜。”. Mariani 說,“它總是能完成競賽,但是不是在壯觀,迅速的時尚下。但是它是最可靠的。”

Impala和Spark,從利益方面來說,在處理小數(shù)據(jù)集時,他們是***的。Impala會在大量的工作負載中覆蓋了Spark,但是 Mariani提到Spark1.6相比Spark1.5有了巨大的性能改變,他希望Spark能繼續(xù)保持這樣的發(fā)展趨勢,因為Spark已經(jīng)劃出一塊大的開源社區(qū),關(guān)注著它的發(fā)展。數(shù)據(jù)管理公司云紀元公司(Cloudera)最近計劃捐贈Impala給Apache軟件基金會,這可以為其發(fā)展增加勢頭。

現(xiàn)在,Impala是用例的王者,它需要大量的用戶

“Impala在并發(fā)上真的很棒,” Mariani 說,“如果你打算擁有一大堆用戶,讓他們?nèi)ナ褂眯〉目焖俚牟樵?,Impala相比Spark是更好的選擇。”

“如果速度不是最重要的,但是穩(wěn)定性和可靠性很重要,我會選擇使用Hive Tez作為我的數(shù)據(jù)管線引擎”,他補充道,“對于那些需要大批處理的工作負載,我會選擇Hive Tez。如果我想要我的BI用戶接入我的數(shù)據(jù)倉庫,我會使用Spark或者Impala。”

Mariani 提到,雖然團隊不能把其他引擎作為基準,如Apache Drill或者 Apache Presto,但是他們會在下次嘗試。

他說,“你永遠不知道引擎與引擎之間,誰將是可以作為賭注的更好的馬。”

責(zé)任編輯:Ophira 來源: 36大數(shù)據(jù)
相關(guān)推薦

2021-02-23 14:56:12

數(shù)據(jù)庫存儲索引

2009-03-19 09:30:59

2010-06-30 16:48:19

SQL Server數(shù)

2011-08-04 15:55:25

SQL Server數(shù)

2009-06-24 07:55:36

Hibernate不同SQL方言

2010-07-15 17:28:50

SQL Server

2009-04-30 09:28:05

SynonymOpenquerySQL Server

2022-03-25 09:04:01

Mysql數(shù)據(jù)庫

2015-04-22 13:20:21

企業(yè)網(wǎng)D1Net

2011-04-01 09:43:28

SQL Server數(shù)據(jù)庫快照

2010-11-16 11:26:20

SQL Azure數(shù)據(jù)

2011-07-27 09:33:16

MySQL數(shù)據(jù)庫INNODB數(shù)據(jù)庫引擎

2010-07-13 11:47:47

2012-05-31 15:56:23

Hadoop大數(shù)據(jù)

2017-05-25 10:23:13

數(shù)據(jù)a表b表

2010-07-05 11:20:53

2011-03-29 09:15:20

原始分區(qū)SQL Server數(shù)

2010-06-01 10:58:57

MySQL數(shù)據(jù)庫

2011-03-29 13:33:26

2021-11-26 00:02:12

OpenGauss 數(shù)據(jù)庫SQL
點贊
收藏

51CTO技術(shù)棧公眾號