Databricks Cloud推動(dòng)Spark大數(shù)據(jù)平臺(tái)大眾化
Databricks Cloud是一款基于云計(jì)算的Spark大數(shù)據(jù)處理引擎,它實(shí)現(xiàn)了一些更新特性,旨在滿足來自數(shù)據(jù)科學(xué)家社區(qū)的功能需求。
Databricks公司在去年六月份發(fā)布的版本功能是不太完善的,該公司既有客戶都在考慮他們的應(yīng)用是否可以遷移到基于云計(jì)算的基礎(chǔ)設(shè)施。在此過程中,有許多組織都在等待他們想要的產(chǎn)品。今天,Databricks公司終于向所有期待者推出了Databricks Cloud服務(wù)。
Databricks Cloud通用版基于Apache Spark 1.4,該版本中最突出的特性是支持R語言的接口,一些Spark用戶一直在提議支持R語言,Spark開發(fā)者們?nèi)ツ晗奶炀驮S諾一定會(huì)支持。R語言是***的分析程序編程語言之一,在數(shù)據(jù)科學(xué)家群體中廣泛應(yīng)用,Spark集成對(duì)R語言的支持將實(shí)現(xiàn)可以用R語言針對(duì)巨大數(shù)據(jù)存儲(chǔ)構(gòu)建和運(yùn)行應(yīng)用。
更好的協(xié)作和更多控制
Spark1.4還包括內(nèi)建對(duì)GitHub版本工具的集成,它支持多人開發(fā)團(tuán)隊(duì)跟蹤項(xiàng)目變化,不管是做分析算法還是應(yīng)用開發(fā),都能改善團(tuán)隊(duì)協(xié)作。此外,新發(fā)布版本給IT管理員們提供了更多功能,可以基于角色分組給終端用戶分配權(quán)限,改善了訪問控制功能。Databricks公司說將在該公司產(chǎn)品中支持那些功能特性,預(yù)計(jì)下半年可以實(shí)現(xiàn)。
Databricks公司是由Spark創(chuàng)始人MateiZaharia與其他人聯(lián)合創(chuàng)建的,是Apache軟件基金會(huì)Spark開源項(xiàng)目的主要貢獻(xiàn)機(jī)構(gòu)。最開始的時(shí)候,Databricks公司在AWS云平臺(tái)上運(yùn)行產(chǎn)品版本,Databricks Cloud的主要吸引力在于它給用戶提供了訪問Sparks功能特性集的途徑,包括內(nèi)存中處理數(shù)據(jù)的能力,無需安裝產(chǎn)品本身就能用了。
BennyBlum就是這樣一位用戶。Blum是Databricks公司的客戶Sellpoints公司負(fù)責(zé)產(chǎn)品和數(shù)據(jù)科學(xué)的副總裁,這是一家電子商務(wù)優(yōu)化服務(wù)供應(yīng)商,該公司幫助有需求的公司網(wǎng)站獲得更多流量,更好地投放他們的在線廣告給潛在客戶。他說,他喜歡Spark的功能,但是又不想在內(nèi)部管理這項(xiàng)技術(shù),因?yàn)樵摷夹g(shù)相對(duì)復(fù)雜,需要投入大量的時(shí)間進(jìn)行研究。
Blum說:“我們可以建立自己的集群并運(yùn)行Spark,但是我們對(duì)Spark還是相當(dāng)陌生的,它需要大量資源才能確保集群正常工作。”
利用Spark和R語言回歸傳統(tǒng)方式
與R語言的集成是令Blum感興趣的另一個(gè)特性。Sellpoints公司在引入Databricks Cloud之前大量使用R語言做數(shù)據(jù)分析,公司大量數(shù)據(jù)科學(xué)家都喜歡這種語言。但是因?yàn)镽語言在Spark大數(shù)據(jù)引擎以前的版本中不支持,所以在今年剛開始時(shí)候Sellpoints公司考慮實(shí)施Databricks技術(shù)時(shí)放棄了考慮R語言。但是他們現(xiàn)在將尋求可以重新實(shí)施支持R語言的具體項(xiàng)目。
R語言支持可以說是Blum認(rèn)為Spark存在的主要缺陷之一。既然該平臺(tái)主要是為了處理大量數(shù)據(jù)處理而設(shè)計(jì),那么其機(jī)器學(xué)習(xí)算法庫對(duì)于較小的任務(wù)來說很難實(shí)施,因?yàn)樾∪蝿?wù)需要靈活性,這類應(yīng)用仍然需要開發(fā),在投入生產(chǎn)應(yīng)用之前也需要經(jīng)常測試和更新。R原本就是針對(duì)在單一計(jì)算機(jī)上內(nèi)存中處理任務(wù)而設(shè)計(jì)的,所以它更適合處理這類應(yīng)用開發(fā)的靈活性。Blum認(rèn)為,新的接口(支持R語言)幫助在數(shù)據(jù)科學(xué)家和其它終端用戶之間的鴻溝上架起了橋梁。
他說:“事實(shí)上,Spark本就是為處理大規(guī)模數(shù)據(jù)設(shè)計(jì)的,所以Spark中的機(jī)器學(xué)習(xí)庫也是限制在那個(gè)規(guī)模上使用才更有效的。”