自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)提速:Impala能否取代Hive

大數(shù)據(jù)
Cloudera發(fā)布Impala實(shí)時(shí)查詢引擎Impala 1.0 beta版,并聲稱這項(xiàng)革命性的技術(shù)能解決Hadoop批處理延遲問(wèn)題。

 Cloudera-Impala

近日,Cloudera發(fā)布Impala實(shí)時(shí)查詢引擎Impala 1.0 beta版,并聲稱這項(xiàng)革命性的技術(shù)能解決Hadoop批處理延遲問(wèn)題(比原來(lái)基于MapReduce的Hive SQL查詢速度提升3~30倍),開源的Impala還為Hadoop打開了通向關(guān)系型數(shù)據(jù)庫(kù)和商業(yè)智能工具的大門。

Impala是運(yùn)行于現(xiàn)有Hadoop基礎(chǔ)設(shè)施上的實(shí)時(shí)互動(dòng)SQL查詢引擎,可以讓Hdadoop DFS文件系統(tǒng)以及Apache HBase數(shù)據(jù)庫(kù)中的數(shù)據(jù)支持實(shí)時(shí)查詢。這意味著Impala為Hadoop打開了通向關(guān)系型數(shù)據(jù)庫(kù)和傳統(tǒng)商業(yè)智能工具的大門(后兩者基于SQL查詢)。

此前,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)Apache Hive能夠讓Hadoop某種程度上支持結(jié)構(gòu)化數(shù)據(jù)訪問(wèn),但是Hive采用的方法是將SQL查詢轉(zhuǎn)化成MapReduce任務(wù),這導(dǎo)致Hive的性能很差。而且,Hive只能支持不到30%的SQL分析功能,而根據(jù)Cloudera的說(shuō)法,Impala將比Hive出色得多。

“從長(zhǎng)遠(yuǎn)看,Impala將取代Hive,但目前Hive的安裝基數(shù)很大,關(guān)聯(lián)的應(yīng)用很多,所以Impala不會(huì)很快取代Hive,”Coudera首席執(zhí)行官M(fèi)ike Olson說(shuō)道:“因?yàn)橹С謱?shí)時(shí)查詢,Impala將會(huì)非常有吸引力。”

Impala實(shí)際上是兩個(gè)產(chǎn)品。核心部分是Impala實(shí)時(shí)查詢引擎,采用Apache開源授權(quán)方式,Hadoop用戶可以單獨(dú)使用這個(gè)引擎。同時(shí),Impala項(xiàng)目也將以Cloudera Enterprise RTQ(Real-Time Query)為名進(jìn)入CDH發(fā)行版??梢圆渴鸬缴a(chǎn)環(huán)境的版本將到2013年一季度就緒。Cloudera Enterprise RTQ將作為Cloudera 管理控制臺(tái)的一部分,負(fù)責(zé)管理Impala服務(wù)器。從這個(gè)管理控制臺(tái)中IT人員能夠看到查詢的運(yùn)行情況、運(yùn)行時(shí)間以及活躍用戶數(shù)等。

借鑒Dremel

Impala可謂是Cloudera的秘密武器,在正式發(fā)布之前,Impala項(xiàng)目的開發(fā)高度保密,顯然,Cloudera希望給大數(shù)據(jù)業(yè)界一個(gè)驚喜。Impala有望解決Hadoop系統(tǒng)的兩個(gè)頑疾:批處理速度慢和數(shù)據(jù)可訪問(wèn)性差(無(wú)法支持分秒級(jí)的實(shí)時(shí)互動(dòng)查詢分析)。Cloudera在官方博客中透露Impala是在Dremel的啟發(fā)下開發(fā)的。Impala不再使用緩慢的 Hive+MapReduce批處理,而是通過(guò)與商用并行關(guān)系數(shù)據(jù)庫(kù)中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或者HBase中用SELECT、JOIN和統(tǒng)計(jì)函數(shù)查詢數(shù)據(jù),從而大大降低了延遲。其架構(gòu)如下圖所示。

Impala的架構(gòu)

Impala的架構(gòu)

商業(yè)智能廠商的福音,但不會(huì)取代傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)

Impala對(duì)于商業(yè)智能廠商來(lái)說(shuō)也許是個(gè)福音。過(guò)去,商業(yè)智能廠商只能采用耗時(shí)的手動(dòng)方式將數(shù)據(jù)從Hadoop系統(tǒng)中轉(zhuǎn)移出來(lái),或者忍受Hive的延遲和功能局限。在ad hoc查詢分析模式下,Impala可以讓BI工具直接訪問(wèn)Hadoop中的數(shù)據(jù),但Olson表示,在生產(chǎn)環(huán)境,關(guān)鍵任務(wù)工作負(fù)載仍然將會(huì)由關(guān)系型數(shù)據(jù)庫(kù)處理。“一些工作負(fù)載將會(huì)借Impala進(jìn)入Hadoop系統(tǒng),但是如果需要進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的高速?gòu)?fù)雜分析,傳統(tǒng)大型數(shù)據(jù)倉(cāng)庫(kù)依然無(wú)可替代。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行的OLAP引擎有很多專用界面,支持?jǐn)?shù)據(jù)匯總與聚合。這些都不是SQL語(yǔ)言和Impala能夠處理的。(有趣的是,OLAP正受到內(nèi)存計(jì)算技術(shù)的威脅,所以人們不禁會(huì)問(wèn),有朝一日OLAP是否也會(huì)被部署到Hadoop系統(tǒng)里)。

能否取代Hive,用戶說(shuō)了算

Cloudera還沒有對(duì)Imala進(jìn)行benchmark測(cè)試,但是Olson表示Impala未必能達(dá)到關(guān)系型數(shù)據(jù)庫(kù)的性能,但可以肯定的一點(diǎn)是,速度將比Hive快3-30倍,這足以讓用戶拋棄Hive選擇Impala。Cloudera的一些客戶目前已經(jīng)開始測(cè)試Impala,其中兩家結(jié)果即將公布。其中一家公司Monsanto在全球范圍內(nèi)有大量研究科學(xué)家協(xié)作分析抗病-野草基因組,但是目前這些研究數(shù)據(jù)分散在很多數(shù)據(jù)孤島中,Monsanto希望能夠在Hadoop中整合所有數(shù)據(jù),并用Impala提供高速SQL查詢服務(wù),Monsanto目前正在開發(fā)一個(gè)覆蓋所有研究中心的協(xié)作時(shí)互動(dòng)環(huán)境。

Cloudera另外一家客戶——在線旅游預(yù)訂網(wǎng)站Expedia使用Cloudera產(chǎn)品管理者超過(guò)4PB的數(shù)據(jù),目前正在測(cè)試通過(guò)Implala了解用戶的預(yù)定內(nèi)容,誰(shuí)在預(yù)訂,哪些航班、租車公司、酒店更受歡迎(或者流失客戶)。

Expedia全球商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)總監(jiān)Jeff Prather透露:“Impala讓我們的Hadoop系統(tǒng)的延遲降低了50%,而且提供了很多前所謂有的業(yè)務(wù)分析功能。”

Olson鼓勵(lì)Hadoop社區(qū)下載Cloudera Impala beta文檔,(GitHub源碼下載地址)因?yàn)樵蕉嗳耸褂?、測(cè)試,這項(xiàng)技術(shù)產(chǎn)品化的速度就會(huì)越快。

但是目前還清楚Impala是否能夠比Hive更受歡迎,甚至取代Hive。Cloudera的競(jìng)爭(zhēng)對(duì)手們,如Hortonworks和MapR也沒有表態(tài)是否支持Impala。但是在最大的Hadoop發(fā)行商Cloudera的支持下,在如此眾多的廠商和用戶提高Hadoop的SQL查詢速度的期待下,Impala的前景還是一片光明的。

【編輯推薦】

責(zé)任編輯:彭凡 來(lái)源: IT經(jīng)理網(wǎng)
相關(guān)推薦

2016-11-07 16:06:43

大數(shù)據(jù)SparkImpala

2014-03-19 09:53:38

大數(shù)據(jù)霧霾

2009-09-09 11:02:20

取代路由器

2013-07-30 09:39:37

大數(shù)據(jù)云存儲(chǔ)

2020-09-17 14:32:18

數(shù)據(jù)倉(cāng)庫(kù)HiveImpala

2012-06-27 09:02:10

大數(shù)據(jù)云計(jì)算

2013-05-24 09:46:18

Windows 8傳統(tǒng)桌面

2022-06-26 09:29:41

PodmanDocker

2016-10-13 09:42:45

2013-02-28 10:35:59

hadoop大數(shù)據(jù)Hortonworks

2014-04-23 09:54:52

大數(shù)據(jù)國(guó)產(chǎn)數(shù)據(jù)庫(kù)

2011-12-23 17:09:57

自動(dòng)化測(cè)試

2020-08-18 19:24:17

機(jī)器人護(hù)理機(jī)器人人工智能

2013-08-20 09:29:59

大數(shù)據(jù)醫(yī)療領(lǐng)域實(shí)踐

2016-10-12 18:58:15

大數(shù)據(jù)PIGHive

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2013-04-22 09:14:42

2016-11-23 09:47:10

2017-09-13 12:59:00

大數(shù)據(jù)保險(xiǎn)行業(yè)共享單車

2014-02-21 10:10:28

物聯(lián)網(wǎng)大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)