自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="pav4t"><rt id="pav4t"></rt></thead>

<sub id="pav4t"><p id="pav4t"><li id="pav4t"></li></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

不同Hadoop上的SQL數(shù)據(jù)庫引擎如何適配BI工作

作者：Optimus Prime 2016-03-28 10:32:36

大數(shù)據(jù) Hadoop

Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準，發(fā)現(xiàn)Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。根據(jù)最新的基準，三個主要的SQL-on-Hadoop引擎，Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2，都有各自獨特的優(yōu)勢和劣勢，這令他們能很好的適應(yīng)一些BI用例，而不是其他智能。

注：Impala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。

Hadoop上的SQL引擎Impala是一種新型查詢系統(tǒng)基準，發(fā)現(xiàn)Spark和Hive在BI的工作負載中有自己的優(yōu)勢與弱勢。

根據(jù)***的基準，三個主要的SQL-on-Hadoop引擎，Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2，都有各自獨特的優(yōu)勢和劣勢，這令他們能很好的適應(yīng)一些BI用例，而不是其他智能。

“一個引擎是無法滿足所有需求的”，Dave Mariani，大規(guī)模AtScale的CEO和創(chuàng)始人，AtScale是一個專門在hadoop上實現(xiàn)BI的創(chuàng)新企業(yè)。“我們已經(jīng)完成了布置，對于我們的客戶而言這是多個引擎的補充。”

關(guān)于在Hadoop基礎(chǔ)上的商業(yè)智能，AtScale幫助技術(shù)評估者選擇***的SQL –on-Hadoop技術(shù)，以幫助他們完成BI用例。AtScale測試團隊使用星型架構(gòu)基準(SSB)數(shù)據(jù)集，基于廣泛使用的TPC-H數(shù)據(jù)(TPC- H是事務(wù)處理性能委員會公布的一套針對數(shù)據(jù)庫決策支持能力的測試基準)，將其進行修改使之更加精確的表現(xiàn)一個面向BI的數(shù)據(jù)布局。數(shù)據(jù)集允許數(shù)據(jù)團隊測試大型表的查詢：在線訂購表含有接近6百萬行，大型客戶表含有超過十億行。

SQL-on-Hadoop引擎有不同的“甜區(qū)”工作負載

Mariani解釋AtScale根據(jù)三個關(guān)鍵要求評價SQL-on-Hadoop引擎，以及它們的適應(yīng)度是否能滿足BI工作負載。

在大數(shù)據(jù)上執(zhí)行。SQL-on-Hadoop引擎必須能夠連續(xù)不斷的分析十億百億行數(shù)據(jù)，并且沒有生成錯誤，對命令的反應(yīng)時間是10s或者是100s。

在小數(shù)據(jù)上速度快。引擎需要傳遞相互表現(xiàn)到已知查詢模式，因此，

SQL-on-Hadoop引擎在處理小數(shù)據(jù)時，不超過幾秒鐘就能將結(jié)果返回。(小數(shù)據(jù)是指有著成千上百萬的命令行的數(shù)據(jù))。

對用戶來說是穩(wěn)定的。企業(yè)級BI用戶的基礎(chǔ)是由成百上千的數(shù)據(jù)工作人員組成。SQL-on-Hadoop引擎必須在高度并行分析的工作負載中運行可靠。

Mariani領(lǐng)導(dǎo)團隊為雅虎的BI創(chuàng)建了可能是世界上***的在線分層分析!他相信這三個標準是基本要求的代表，是企業(yè)在Hadoop上實現(xiàn)BI時都會遇到的。這個標準，是測試團隊和大量行業(yè)企業(yè)合作得出的，包括金融服務(wù)，醫(yī)療，零售，電信等。

“我們使用了真實世界的的經(jīng)驗去形成文檔，每一個技術(shù)評估者可以將其作為是評估流程的一部分”。Josh Klahr補充，AtScale.生產(chǎn)部門副總裁。

測試團隊發(fā)現(xiàn)三個引擎都通過了測試，足夠穩(wěn)定去支持BI工作負載，但是一個引擎不能滿足所有需求。每個引擎都有自己的“甜區(qū)”，企業(yè)有可能去尋找所有引擎的混合用法，他們相信這有可能最適合他們的目標。

當Hive在逐漸思考SQL-on-Hadoop的默認值時，它將基準中引擎運行最慢的情況放置一邊，令其不能很好的配合相互查詢。

“如果你使用Hive Tez作為你的相互查詢引擎，你能做到的***是2.4秒”。Mariani 說。

但是它可能緩慢，Hive也是三個引擎中最穩(wěn)定的，在多個查詢類型中有著***的連貫性。

“Hive Tez就像烏龜。”. Mariani 說，“它總是能完成競賽，但是不是在壯觀，迅速的時尚下。但是它是最可靠的。”

Impala和Spark，從利益方面來說，在處理小數(shù)據(jù)集時，他們是***的。Impala會在大量的工作負載中覆蓋了Spark，但是 Mariani提到Spark1.6相比Spark1.5有了巨大的性能改變，他希望Spark能繼續(xù)保持這樣的發(fā)展趨勢，因為Spark已經(jīng)劃出一塊大的開源社區(qū)，關(guān)注著它的發(fā)展。數(shù)據(jù)管理公司云紀元公司(Cloudera)最近計劃捐贈Impala給Apache軟件基金會，這可以為其發(fā)展增加勢頭。

現(xiàn)在，Impala是用例的王者，它需要大量的用戶

“Impala在并發(fā)上真的很棒，” Mariani 說，“如果你打算擁有一大堆用戶，讓他們?nèi)ナ褂眯〉目焖俚牟樵?，Impala相比Spark是更好的選擇。”

“如果速度不是最重要的，但是穩(wěn)定性和可靠性很重要，我會選擇使用Hive Tez作為我的數(shù)據(jù)管線引擎”，他補充道，“對于那些需要大批處理的工作負載，我會選擇Hive Tez。如果我想要我的BI用戶接入我的數(shù)據(jù)倉庫，我會使用Spark或者Impala。”

Mariani 提到，雖然團隊不能把其他引擎作為基準，如Apache Drill或者 Apache Presto,但是他們會在下次嘗試。

他說，“你永遠不知道引擎與引擎之間，誰將是可以作為賭注的更好的馬。”

責(zé)任編輯：Ophira 來源： 36大數(shù)據(jù)

Hadoop 數(shù)據(jù)庫引擎 BI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="o7xaw"></center>