Hadoop大數(shù)據(jù)分析獲本地R語(yǔ)言支持
隨著大家對(duì)大數(shù)據(jù)分析越來(lái)越感興趣,軟件供應(yīng)商Revolution Analytics改進(jìn)了其R語(yǔ)言統(tǒng)計(jì)功能旗艦產(chǎn)品,使它能夠與Hadoop數(shù)據(jù)處理平臺(tái)運(yùn)行。
這個(gè)新的Revolution R Enterprise 7(RRE 7)還能夠使R在Teradata數(shù)據(jù)庫(kù)內(nèi)運(yùn)行。
R語(yǔ)言提供了一種方法來(lái)對(duì)一組數(shù)據(jù)運(yùn)行常用統(tǒng)計(jì)測(cè)試(例如線性和非線性建模、時(shí)間序列分析、分類和聚類),通常結(jié)果是以圖形的形式出現(xiàn)。
R越來(lái)越多地用于復(fù)雜的數(shù)據(jù)分析,即那些超出標(biāo)準(zhǔn)商業(yè)智能程序包范圍的數(shù)據(jù)分析。Revolution Analytics公司預(yù)計(jì)全世界有超過(guò)200萬(wàn)人在使用R。
RRE7包含R算法庫(kù)——可以跨多個(gè)節(jié)點(diǎn)并行運(yùn)行,這與Hadoop管理大數(shù)據(jù)集的方式相同。RRE7可以被添加到Cloudera CDH3和CDH4 Hadoop發(fā)行版,以及Hortonworks數(shù)據(jù)平臺(tái)1.3。
這個(gè)新的R庫(kù)保護(hù)最常用的統(tǒng)計(jì)和預(yù)測(cè)分析算法,用于數(shù)據(jù)處理、數(shù)據(jù)采樣、描述性統(tǒng)計(jì)、統(tǒng)計(jì)測(cè)試、數(shù)據(jù)可視化、仿真、機(jī)器學(xué)習(xí)和預(yù)測(cè)模型等任務(wù)。
通過(guò)分析節(jié)點(diǎn)內(nèi)的數(shù)據(jù),而不是移動(dòng)數(shù)據(jù)到其他位置進(jìn)行分析,基于R的數(shù)據(jù)分析可以更快地進(jìn)行。它還允許對(duì)一整組數(shù)據(jù)進(jìn)行分析,而不是數(shù)據(jù)的子集或者摘要--企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)通常是采用這樣的方式。
Revolution Analytics希望將R加入到Hadoop和Teradata數(shù)據(jù)庫(kù)可以拓寬該語(yǔ)言的使用范圍。該公司還設(shè)計(jì)了一個(gè)新的工作流程界面,其中不需要知道如何部署特定的R算法。這緩解了使用Java或者其他語(yǔ)言編程R的麻煩,讓其在Hadoop平臺(tái)運(yùn)行。
除了支持這些新的平臺(tái),RRE7還采用了一些新的算法和流程。其一是建立Decision Forests的模型集,Decision Forests是用于預(yù)測(cè)未來(lái)結(jié)果的機(jī)器學(xué)習(xí)技術(shù)。新的Stepwise Regression功能還可以幫助我們自動(dòng)化選擇用于預(yù)測(cè)模型中最重要的變量。新的Decision Tree可視化可以提供圖形化的方式來(lái)描述數(shù)據(jù)集內(nèi)復(fù)雜的關(guān)系和相關(guān)性。