自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

實(shí)現(xiàn)R與Hadoop聯(lián)合作業(yè)的三種方法

作者：雪晴數(shù)據(jù)網(wǎng) 2016-06-12 09:32:43

大數(shù)據(jù) Hadoop

實(shí)現(xiàn)R與Hadoop的聯(lián)合作業(yè)，R就擁有了在分布式文件系統(tǒng)(HDFS)上處理大數(shù)據(jù)的能力。本文的目的就是闡述實(shí)現(xiàn)二者聯(lián)合作業(yè)的不同技術(shù)。但同時(shí)，這幾種方法也各有利弊。

為了滿足用R語(yǔ)言處理pb量級(jí)數(shù)據(jù)的需求，我們需要把它和Hadoop聯(lián)合起來(lái)使用。本文的目的就是闡述實(shí)現(xiàn)二者聯(lián)合作業(yè)的不同技術(shù)。

方法一：利用Streaming APIs

Hadoop支持一些 Streaming API來(lái)將R語(yǔ)言中的函數(shù)傳入，并在MapReduce模式下運(yùn)行這些函數(shù)。這些Streaming API可以將任意能在map-reduce模式下訪問(wèn)和操作標(biāo)準(zhǔn)I/O接口的R腳本傳入Hadoop中。因此，你不需要額外開(kāi)啟一些客戶端之類的東西。如下是一個(gè)例子：

方法二：使用Rhipe包

Rhipe包允許用戶在R中使用MapReduce。在使用這一方法前，要做相應(yīng)的前期準(zhǔn)備工作。R需要被安裝在Hadoop集群中的每一個(gè)數(shù)據(jù)節(jié)點(diǎn)上，此外每個(gè)節(jié)點(diǎn)還要安裝Protocol Buffers(更多資料請(qǐng)參考 http://wiki.apache.org/hadoop/ProtocolBuffers)，Rhipe也需要在每個(gè)節(jié)點(diǎn)上都可以被使用。

下面是在R中利用Rhipe應(yīng)用MapReduce框架的范例：

方法三：使用RHadoop

RHadoop是Recolution Analytics下的一個(gè)開(kāi)源庫(kù)，與Rhipe類似，它的功能也是在MapReduce模式下執(zhí)行R函數(shù)。后續(xù)列舉的都是該庫(kù)中的一些包。plyrmr 包可以在Hadoop中對(duì)大數(shù)據(jù)集進(jìn)行一些常用的數(shù)據(jù)整理操作。rmr包提供了一些讓R和Hadoop聯(lián)合作業(yè)的函數(shù)。rdfs包提供了一些函數(shù)來(lái)連接R 和分布式文件系統(tǒng)(HDFS)。rhbase包中的函數(shù)則能連接R和HBase。

下面這個(gè)例子中，我們會(huì)演示如何使用rmr包中的一些函數(shù)來(lái)讓R與Hadoop聯(lián)合作業(yè)。

方法總結(jié)

總的說(shuō)來(lái)，上述三種方法都能很容易地實(shí)現(xiàn)R與Hadoop的聯(lián)合作業(yè)，這樣一來(lái)R就擁有了在分布式文件系統(tǒng)(HDFS)上處理大數(shù)據(jù)的能力。但同時(shí)，這三種方法也各有利弊。

關(guān)鍵結(jié)論：

1、使用Streaming APIs最為簡(jiǎn)單，它的安裝和設(shè)置都很方便。Rhipe和RHadoop都需要對(duì)R進(jìn)行一些設(shè)置，并且也需要Hadoop集群上一些包的支持。但在執(zhí)行函數(shù)方面，Streaming APIs 需要將函數(shù)依次map和reduce，而Rhipe和RHadoop允許開(kāi)發(fā)者在R函數(shù)中定義并調(diào)用MapReduce函數(shù)。

2、與Rhipe和RHadoop不同，使用Streamings APIs也不需要客戶端。

3、除此之外，我們也可以使用Apache Mahout，Apache Hive，Segue框架與其他來(lái)自Revolution Analytics的商業(yè)版R來(lái)實(shí)現(xiàn)大規(guī)模機(jī)器學(xué)習(xí)。

責(zé)任編輯：Ophira 來(lái)源： 36大數(shù)據(jù)

R語(yǔ)言 Hadoop 數(shù)據(jù)處理

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)