自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google將放棄MapReduce 新索引系統(tǒng)將遷移至BigTable

開發(fā) 前端 大數(shù)據(jù)
據(jù)國外媒體報道,Google將在新型絡(luò)內(nèi)容索引系統(tǒng)——Caffeine中放棄使用MapReduce分布式計算平臺,而準(zhǔn)備向Google新建的分布式數(shù)據(jù)庫平臺——BigTable上進(jìn)行遷移。

據(jù)國外媒體報道,Google在新型網(wǎng)絡(luò)內(nèi)容索引系統(tǒng)——Caffeine中,將放棄以MapReduce為基礎(chǔ)架構(gòu)的分布式計算平臺。MapReduce是曾經(jīng)是Google的一項重要技術(shù),用以進(jìn)行大數(shù)據(jù)量的計算。

據(jù)Google高級主管Eisar Lipkovitz表示,在Caffeine中,Google的后端索引系統(tǒng)將從MapReduce上移除,并向Google新建的分布式數(shù)據(jù)庫平臺——BigTable上進(jìn)行遷移。他表示,谷歌將于下月在USENIX研討會上提交一項新的文件討論系統(tǒng)。

51CTO向您推薦:Bigtable探秘 Google分布式數(shù)據(jù)存儲系統(tǒng)

據(jù)了解,從去年開始,Google就已經(jīng)啟動了代號為“Colossus”的研發(fā)計劃,主要內(nèi)容圍繞新的分布式文件系統(tǒng)——Caffeine進(jìn)行研發(fā)。Caffeine將創(chuàng)建一個新的數(shù)據(jù)庫的編程模型,而這也意味著Google必須在BigTable上重建整個索引系統(tǒng)。

MapReduce完成歷史使命

必須看到的是,在Google的直接競爭對手——Yahoo、Facebook們對MapReduce飽含熱情進(jìn)行研發(fā)投入的同時,Google卻宣布放棄MapReduce,不得不佩服Google的勇氣。

實際上,早在Caffeine建立之前,Google就建立了基于MapReduce的搜索索引系統(tǒng)。從本質(zhì)上而言,這個索引是由序列的批處理操作組成的。它通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡(luò)上的每個節(jié)點進(jìn)行運算,而每個節(jié)點會周期性的把完成的工作和狀態(tài)的更新報告回主計算。

Lipkovitz首先談到了Google基于MapReduce文件索引系統(tǒng)處理方式。“我們必須面對一個非常龐大的數(shù)據(jù)系統(tǒng),在這之前,我們需要等待8個小時的計算時間我們才能夠得到計算的全結(jié)果,然后我們就會把它發(fā)布到索引系統(tǒng)中去。過去我們一直在不停地重復(fù)這個耗時耗力的工作。”

Lipkovitz進(jìn)一步解釋了Google放棄MapReduce的原因,“MapReduce僅僅是一個批處理操作方式,”Lipkovitz解釋說,“一般來說你不能啟動下一階段的命令操作,直到你完成第一項操作。”

可以看到,Google之所以放棄MapReduce,是因為它并不能為谷歌提供它所想要的索引速度,特別是隨著實時檢索時代的到來,谷歌需要的是在幾秒內(nèi)刷新索引內(nèi)容,而非8小時。實際上,在過去的幾年里,針對MapReduce的技術(shù)討論可謂是褒貶不一。

麻省理工學(xué)院的數(shù)據(jù)庫專家Mike Stonebraker認(rèn)為,MapReduce的計算方法對于實時計算來說是很不合適的,是過時的。

“MapReduce就像是游擊隊員而非正規(guī)軍”,Lipkovitz表示,“如果你想基于Mapreduces建立分布式文件處理系統(tǒng),如果你想實現(xiàn)更多的操作命令,那么必然會有錯誤發(fā)生。況且你并不能縮短處理的時間,這是Google選擇放棄Mapreduces的原因。”

Caffeine的處理原理

Caffeine的處理原理

據(jù)了解,Google從2009年8月就開始測試Caffeine。當(dāng)時,Google曾表示新索引技術(shù)將是自2006年以來的重大變革。速度和綜合性是新技術(shù)關(guān)注的目標(biāo)。Google曾表示,新系統(tǒng)需與網(wǎng)絡(luò)內(nèi)容的爆炸性增長保持同步,過去兩年中,博客、視頻和社交媒體技術(shù)都蜂擁至網(wǎng)絡(luò)。借助Caffeine,Google將加快索引次數(shù)的更新,對一小部分網(wǎng)絡(luò)進(jìn)行消化,而不是對整個網(wǎng)絡(luò)重新索引并更新索引內(nèi)容。

Google軟件工程師卡莉·格蘭姆斯(Carrie Grimes)在博客中稱:“我們將把Caffeine列為未來考慮重點,不僅使之索引更多新結(jié)果,還要將之打造為適應(yīng)網(wǎng)絡(luò)消息增長的速度更快、理解力更高的搜索引擎,為用戶提供相關(guān)度更高的搜索結(jié)果。”

關(guān)于“Colossus”計劃

“我們需要一個新的計算框架”,Lipkovitz說,這使工程師能夠在BigTable上編寫代碼,而該系統(tǒng)是基于“Colossus”建立的分布式存儲平臺——也被稱為GFS2。“原有的基于MapReduce的文件系統(tǒng),不能達(dá)到Google所需要的計算規(guī)模。”

據(jù)了解,“Colossus”是專門設(shè)計BigTable的開發(fā)計劃,基于這個原因,它并不針對傳統(tǒng)的分布式存儲平臺應(yīng)用。換句話說,它是專為建立新的Caffeine搜索索引系統(tǒng)而用的,雖然它可能會在Google的其它內(nèi)容所服務(wù),但其并未跨越整個谷歌的基礎(chǔ)設(shè)施系統(tǒng)。

在Google的實時搜索引擎Instant的發(fā)布上,谷歌著名的工程師Ben Gomes表示,Caffeine并未在Instant架構(gòu)中,但它的確有助于幫助把數(shù)據(jù)處理實現(xiàn)“分布”式搜索服務(wù)。

Lipkovitz同時指出,MapReduce并非意味著消亡,在Caffeine中,仍然有基于MapReduce的批處理應(yīng)用,以及全球尚有其它的基礎(chǔ)設(shè)施。而在Caffeine的誕生之前,索引系統(tǒng)是谷歌最大的MapReduce的應(yīng)用程序。

關(guān)于MapReduce

在Google數(shù)據(jù)中心會有大規(guī)模數(shù)據(jù)需要處理,比如被網(wǎng)絡(luò)爬蟲抓取的大量網(wǎng)頁等。由于這些數(shù)據(jù)很多都是PB級別,導(dǎo)致處理工作不得不盡可能的并行化,而Google為了解決這個問題,引入了 MapReduce這個編程模型,MapReduce是源自函數(shù)式語言,主要通過"Map(映射)"和"Reduce(化簡)"這兩個步驟來并行處理大規(guī)模的數(shù)據(jù)集。

Map會先對由很多獨立元素組成的邏輯列表中的每一個元素進(jìn)行指定的操作,且原始列表不會被更改,會創(chuàng)建多個新的列表來保存Map的處理結(jié)果。也就意味著,Map操作是高度并行的。當(dāng)Map工作完成之后,系統(tǒng)會先對新生成的多個列表進(jìn)行清理(Shuffle)和排序,之后會這些新創(chuàng)建的列表 進(jìn)行Reduce操作,也就是對一個列表中的元素根據(jù)Key值進(jìn)行適當(dāng)?shù)暮喜ⅰ?/p>

通過MapReduce這么簡單的編程模型,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來,比如自動并行化,負(fù)載均衡和機(jī) 器宕機(jī)處理等,這樣將極大地簡化程序員的開發(fā)工作。MapReduce可用于包括“分布grep,分布排序,web訪問日志分析,反向索引構(gòu)建,文檔聚 類,機(jī)器學(xué)習(xí),基于統(tǒng)計的機(jī)器翻譯,生成Google的整個搜索的索引“等大規(guī)模數(shù)據(jù)處理工作。Yahoo也推出MapReduce的開源版本 Hadoop,而且Hadoop在業(yè)界也已經(jīng)被大規(guī)模使用。

原文鏈接:http://www.theregister.co.uk/2010/09/09/google_caffeine_explained/

【編輯推薦】 

  1. 如何實現(xiàn)Cassandra與Hadoop MapReduce的整合?
  2. Hadoop簡介:HDFS和MapReduce的實現(xiàn)
  3. Hadoop MapReduce的簡單應(yīng)用Cascading詳解
  4. HadoopStudio中實現(xiàn)MapReduce應(yīng)用
責(zé)任編輯:王曉東 來源: CSDN
相關(guān)推薦

2012-05-13 14:15:49

2018-07-31 09:02:15

開發(fā)者技能Google

2021-09-23 10:30:21

Docker RegiHarborLinux

2021-12-22 10:45:56

Docker RegiHarborLinux

2016-08-31 14:16:55

LinuxLVM卷轉(zhuǎn)移

2016-03-30 11:31:30

AWS云環(huán)境

2009-04-15 09:12:10

AndroidAPIgoogle

2009-04-15 08:18:44

AndroidGoogle移動OS

2020-08-11 11:08:24

云端云計算業(yè)務(wù)遷移

2010-07-02 10:08:12

BigtableGoogle

2012-11-06 10:41:14

2009-04-07 08:35:05

AndroidGoogle移動OS

2016-11-18 12:30:28

Android谷歌操作系統(tǒng)

2011-11-09 16:15:21

AdobeFlashAdobe AIR

2017-01-18 09:34:29

數(shù)據(jù)庫云環(huán)境

2009-09-02 11:34:09

Google App

2010-07-07 09:50:52

Windows Ser

2012-10-29 09:27:16

2012-05-30 16:54:18

Google

2016-02-25 10:23:31

點贊
收藏

51CTO技術(shù)棧公眾號