Spark 2.0面紗半揭,相關(guān)細(xì)節(jié)引人遐想
譯文【51CTO.com快譯】Spark已經(jīng)以暴風(fēng)驟雨之勢(shì)席卷整個(gè)大數(shù)據(jù)領(lǐng)域。那么下一個(gè)內(nèi)存內(nèi)引擎選項(xiàng)會(huì)是什么?Spark背后的主要商業(yè)支持方Databricks對(duì)此給出了一點(diǎn)提示。
在上周召開的Spark東部峰會(huì)上,Databricks公司發(fā)布了一系列相關(guān)提示,旨在探討內(nèi)存內(nèi)數(shù)據(jù)處理工具Spark的未來發(fā)展方向。該公司作為Spark項(xiàng)目背后的核心商業(yè)支持方,在該項(xiàng)技術(shù)成果的演進(jìn)道路上扮演著重要角色。
Databricks的托管Spark平臺(tái)Databricks Cloud目前已經(jīng)提供訂閱服務(wù)。為了進(jìn)一步簡(jiǎn)化該云環(huán)境中的Spark上手難度,Databricks公布了一套免費(fèi)層,即這套平臺(tái)的社區(qū)版本。雖然目前此版本尚處于beta測(cè)試階段,但其通用版本預(yù)計(jì)將在今年年中與廣大用戶見面。
Databricks公司將該社區(qū)版本明確定位為付費(fèi)產(chǎn)品版本的過渡手段,并指出其將“幫助用戶以無縫化方式將自身原型設(shè)計(jì)過渡至完整Databricks平臺(tái)之上的生產(chǎn)性應(yīng)用程序。”
Databricks公司亦決心始終緊跟Spark的發(fā)展步伐。通過此次Spark峰會(huì)主題演講發(fā)布的一系列演示資料,Databricks公司CTO兼Spark創(chuàng)始人Matei Zaharia談到了即將出爐的Spark 2.0。其將包含以下三大核心轉(zhuǎn)變:利用Tungsten項(xiàng)目的下一發(fā)展階段解決Java內(nèi)存處理局限,從而加快Spark運(yùn)行速度; 將Spark改進(jìn)為一套實(shí)時(shí)數(shù)據(jù)流系統(tǒng); 將Spark當(dāng)前使用的結(jié)構(gòu)化數(shù)據(jù)API(包括Dataset與DataFrame)統(tǒng)一為單一API。
不過此次演講未被提及、但卻廣受Spark支持者關(guān)注的一項(xiàng)細(xì)節(jié)在于,Spark要如何進(jìn)一步與Apache Arrow加以結(jié)合——這一全新項(xiàng)目旨在為列式數(shù)據(jù)提供內(nèi)存內(nèi)版本,從而實(shí)現(xiàn)快速訪問成效。
這一切都可謂真正令人興奮且意義重大的改進(jìn)。特別是Tungsten項(xiàng)目所代表的方案能夠顯著加快其它由Java語言編寫而成的大數(shù)據(jù)項(xiàng)目的運(yùn)行速度。
目前,該公司宣稱其已經(jīng)擁有200家付費(fèi)客戶,并自信地表示其將專注于推動(dòng)Databricks平臺(tái)而非將精力分散至其它項(xiàng)目。
不過Databricks公司并不是惟一一家Spark參與廠商。IBM公司就專門將Spark作為自身大數(shù)據(jù)發(fā)展戰(zhàn)略中的核心組成部分,旨在立足于其Bluemix云提供“Spark即服務(wù)”方案。過去一年當(dāng)中,Spark項(xiàng)目已經(jīng)從Hadoop手中奪過了大數(shù)據(jù)***引擎的桂冠,而Databricks公司也將在新的發(fā)展階段面臨更為嚴(yán)峻的項(xiàng)目演進(jìn)競(jìng)爭(zhēng)。
原文標(biāo)題:Databricks offers a glimpse of Spark 2.0
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】