MapReduce:服務(wù)器的新朋友
在未來,當(dāng)管理員搭建服務(wù)器的時候,他很可能會給服務(wù)器集群、數(shù)據(jù)庫、中間件軟件裝上MapReduce。
加州大學(xué)圣地亞哥分校研究員Dionysios Logothetis在日前舉行的Usenix年度會議上表示,MapReduce可以在服務(wù)器上直接被用來分析日志數(shù)據(jù),無需在各個集群上單獨分析,也可以大幅縮短分析數(shù)據(jù)的時間。
MapReduce結(jié)構(gòu)
利用該方法,“數(shù)據(jù)分析可以從專業(yè)集群上轉(zhuǎn)移到日志服務(wù)器上,從而避免昂貴的數(shù)據(jù)遷移成本支出”,Logothetis表示。MapReduce首先是由谷歌公司推出來的,它越來越多地被用來分析跨服務(wù)器和節(jié)點的大規(guī)模數(shù)據(jù)。目前,它主要擔(dān)當(dāng)Hadoop數(shù)據(jù)處理平臺的一個組成部分。
雖然MapReduce大部分都使用在專業(yè)集群上,但研究人士表示分析軟件的框架版本也可以成為網(wǎng)絡(luò)服務(wù)器的一部分。當(dāng)前商業(yè)網(wǎng)頁關(guān)于用戶的詳細日志信息,可以為廣告定位、網(wǎng)站安全監(jiān)控和調(diào)試提供數(shù)據(jù)支持。
根據(jù)統(tǒng)計,為繁忙的電子商務(wù)網(wǎng)站提供服務(wù)的單個服務(wù)器,在每秒鐘時間內(nèi)能生成1MB至10MB有價值的日志數(shù)據(jù)。而在一天之內(nèi),它可以生成幾十兆兆字節(jié)有價值的數(shù)據(jù)量。平均而言,1000臺這樣的服務(wù)器在一天之內(nèi)能生成86TB容量的數(shù)據(jù)信息。比如著名的社交網(wǎng)站Facebook一天所產(chǎn)生的數(shù)據(jù)量為100TB。
通常來說,大型公司比如Facebook這樣的站點都會收集不同服務(wù)器上的數(shù)據(jù),然后載入到Hadoop集群并使用 MapReduce分析其結(jié)果。

MapReduce實例
以往“先存儲后查詢”的方法具有諸多弊端。傳輸不同服務(wù)器上的數(shù)據(jù)會耗費大量的帶寬資源,對網(wǎng)絡(luò)構(gòu)成巨大壓力。在進行數(shù)據(jù)分析之前,F(xiàn)acebook會丟棄80%的日志數(shù)據(jù)。通過使用這種新技術(shù),這些數(shù)據(jù)就無需再進行傳輸了,更不會發(fā)生數(shù)據(jù)丟失的嚴(yán)重問題。
MapReduce在未來的服務(wù)器上可能將會成為一種標(biāo)準(zhǔn)配備,它將對數(shù)據(jù)進行分析并將分析后的結(jié)果傳達給中央數(shù)據(jù)采集點。研究人士將這一方法稱之為“in-situ MapReduce (iMR)”。
iMR旨在補充而不是取代傳統(tǒng)的集群架構(gòu),它是為了完成分布式存儲系統(tǒng)中的日志數(shù)據(jù)和其他數(shù)據(jù)后續(xù)分析。作為一項程序,iMR能復(fù)制所有的MapReduce APIs,并執(zhí)行MapReduce相類似的功能、對過濾的數(shù)據(jù)進行命名并匯集分析結(jié)果 。不同之處在于,它能基于***數(shù)據(jù)的基礎(chǔ)上持續(xù)進行分析。
目前,研究員已經(jīng)創(chuàng)建了一個iMR原型,通過iMR用戶可以指定需要分析處理的數(shù)據(jù)范圍,比如過去60秒鐘收集的所有信息。此外,用戶還可以設(shè)定多久提交一次分析結(jié)果并進行傳送,比如可以指定每15秒鐘分析一次等。
Logothetis表示,網(wǎng)絡(luò)服務(wù)器可能花費絕大多數(shù)資源在他們本應(yīng)進行的工作上,被稱為給用戶提供服務(wù)。但是iMR可以利用剩下的循環(huán)處理日志數(shù)據(jù)。
據(jù)悉,研究員為此專門制定了一個計劃以建立處理速度和結(jié)果完整性之間的平衡,如果需要更快地獲得結(jié)果,那么每個服務(wù)器可以忽略掉一些很耗費時間的數(shù)據(jù),從何得到一個不那么完全,但仍是有意義的結(jié)果。而如果想得到一個全面的分析,則需要很長的時間和很大的服務(wù)器資源去完成。
當(dāng)然,一個只運行少量服務(wù)器的組織可能不會從iMR中受益。但是大的運營商,例如搜索引擎,社交網(wǎng)絡(luò)和電子商務(wù)網(wǎng)站將會體驗到iMR的價值。
原文:http://cloud.csdn.net/a/20110628/300657.html
英文原文:MapReduce Could Be the Server's Newest Friend
【編輯推薦】