自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="nprcl"><strike id="nprcl"></strike></tfoot>

<style id="nprcl"></style>

<sub id="nprcl"></sub>

<style id="nprcl"></style>

<sub id="nprcl"><rt id="nprcl"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Twitter將采用Spark分析大數(shù)據(jù)

作者：Cashcow 2012-08-30 14:33:03

大數(shù)據(jù) Spark

Twitter數(shù)據(jù)科學家Edwin Chen最近在接受媒體采訪的時候透露，Twitter內(nèi)部希望嘗試一種全新的大數(shù)據(jù)系統(tǒng)——Spark。

Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng)（點此下載），目的是讓數(shù)據(jù)分析更加快速。Spark非常小巧玲瓏，由加州伯克利大學AMP實驗室的Matei為主的小團隊所開發(fā)。使用的語言是Scala，項目的core部分的代碼只有63個Scala文件，非常短小精悍。與Hadoop不同的是，Spark和Scala緊密集成，Scala像管理本地collective對象那樣管理分布式數(shù)據(jù)集。

Edwin認為：”MapReduce或hadoop任務都是批處理，所以啟動一項Hadoop任務，或等待結(jié)果返回都需要等待很長時間，這一點很難改變，因為Hadoop天生就是一個批處理系統(tǒng)，你無法在上面運行互動分析。不過Hadoop對于分析海量數(shù)據(jù)還是很有用的。”

Spark開發(fā)之初是為了兩個能被內(nèi)存計算提速的應用：互動算法（常見于機器學習中，例如Google的PR）和互動數(shù)據(jù)挖掘（Hive on Spark）。在這兩個應用中，Spark的速度是Hadoop MapReduce的30倍！這是因為運行Spark系統(tǒng)時，服務器可以把中間數(shù)據(jù)存儲在RAM內(nèi)存中，而無需經(jīng)常從頭加載。這意味著分析結(jié)果的返回速度大大加快，足以勝任互動分析工作。（見下圖）

在Spark的出生地——加州伯克利大學的AMP實驗室，研究人員用Spark分析垃圾郵件過濾、自然語言處理以及交通路況預測等任務。Spark還被用來給Conviva、Klout和Quantifind等公司的數(shù)據(jù)分析服務提速。無疑，Spark處理分布式數(shù)據(jù)集的框架不僅是有效的，而且是高效的（通過簡潔的Scala腳本）。Spark和Scala目前都還尚處于開發(fā)中。盡管如此，隨著加入更多的關鍵互聯(lián)網(wǎng)特性，它越來越從有趣的開源軟件過渡為基礎的web技術。

責任編輯：彭凡來源： IT經(jīng)理世界

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="vaz6i"></sub>

<sub id="vaz6i"><p id="vaz6i"></p></sub>

<sub id="vaz6i"></sub>

<cite id="vaz6i"></cite>