自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="stex6"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Hadoop之父Doug Cutting眼中大數(shù)據(jù)技術(shù)的未來(lái)

作者：云篆 2016-02-16 14:30:00

大數(shù)據(jù) Hadoop

2016,Hadoop走過第十個(gè)年頭。Hadoop之父Doug Cutting1985年畢業(yè)于美國(guó)斯坦福大學(xué)，早期的他并不是一開始就決心投身IT行業(yè)的。他如何成為Hadoop之父？Hadoop的發(fā)展和未來(lái)期待又是如何的？

上次見到(膜拜)Hadoop之父Doug Cutting是在2年前，2014中國(guó)大數(shù)據(jù)技術(shù)大會(huì)上。今年Hadoop10歲，剛看到他的Hadoop十周年賀詞，感覺時(shí)間飛逝。

Doug Cutting成長(zhǎng)史

1985年畢業(yè)于美國(guó)斯坦福大學(xué)的Cutting并不是一開始就決心投身IT行業(yè)的。在大學(xué)時(shí)代的頭兩年，Cutting學(xué)習(xí)了諸如物理、地理等常規(guī)課程。因?yàn)閷W(xué)費(fèi)的壓力，Cutting開始意識(shí)到，自己必須學(xué)習(xí)一些更加實(shí)用、有趣的技能。這樣，一方面可以幫助自己還清貸款，另一方面，也是為自己未來(lái)的生活做打算。因?yàn)樗固垢４髮W(xué)座落在IT行業(yè)的“圣地”硅谷，所以學(xué)習(xí)軟件對(duì)年輕人來(lái)說(shuō)是再自然不過的事情了。

Cutting的***份工作是在Xerox做實(shí)習(xí)生，Xerox當(dāng)時(shí)的激光掃描儀上運(yùn)行著三個(gè)不同的操作系統(tǒng)，其中的一個(gè)操作系統(tǒng)還沒有屏幕保護(hù)程序。因此，Cutting就開始為這套系統(tǒng)開發(fā)屏幕保護(hù)程序。由于這套程序是基于系統(tǒng)底層開發(fā)的，所以其他同事可以給這個(gè)程序添加不同的主題。這份工作給了Cutting一定的滿足感，也是他最早的“平臺(tái)”級(jí)的作品。

可以說(shuō)，Xerox對(duì) Cutting后來(lái)研究搜索技術(shù)起到了決定性的影響，除了短暫的在蘇格蘭工作的經(jīng)歷外，Cutting事業(yè)的起步階段大部分都是在Xerox度過的，這段時(shí)間讓他在搜索技術(shù)的知識(shí)上有了很大提高。他花了四年的時(shí)間搞研發(fā)，這四年中，他閱讀了大量的論文，同時(shí)，自己也發(fā)表了很多論文，用Cutting自己的話說(shuō)——“我的研究生是在Xerox讀的。”

盡管Xerox讓Cutting積累了不少技術(shù)知識(shí)，但他卻認(rèn)為，自己當(dāng)時(shí)搞的這些研究只是紙上談兵，沒有人試驗(yàn)過這些理論的可實(shí)踐性。于是，他決定勇敢地邁出這一步，讓搜索技術(shù)可以為更多人所用。1997年底，Cutting開始以每周兩天的時(shí)間投入，在家里試著用Java把這個(gè)想法變成現(xiàn)實(shí)，不久之后，Lucene誕生了。作為***個(gè)提供全文文本搜索的開源函數(shù)庫(kù)，Lucene的偉大自不必多言。

之后，Cutting再接再厲，在 Lucene的基礎(chǔ)上將開源的思想繼續(xù)深化。2004年，Cutting和同為程序員出身的Mike Cafarella決定開發(fā)一款可以代替當(dāng)時(shí)的主流搜索產(chǎn)品的開源搜索引擎，這個(gè)項(xiàng)目被命名為Nutch。在此之前，Cutting所在的公司 Architext(其主要產(chǎn)品為Excite搜索引擎)因沒有頂住互聯(lián)網(wǎng)經(jīng)濟(jì)泡沫的沖擊而破產(chǎn)，那時(shí)的Cutting正處在Freelancer的生涯中，所以他希望自己的項(xiàng)目能通過一種低開銷的方式來(lái)構(gòu)建網(wǎng)頁(yè)中的大量算法。幸運(yùn)的是，Google這時(shí)正好發(fā)布了一項(xiàng)研究報(bào)告，報(bào)告中介紹了兩款 Google為支持自家的搜索引擎而開發(fā)的軟件平臺(tái)。這兩個(gè)平臺(tái)一個(gè)是GFS(Google File System)，用于存儲(chǔ)不同設(shè)備所產(chǎn)生的海量數(shù)據(jù);另一個(gè)是MapReduce，它運(yùn)行在GFS之上，負(fù)責(zé)分布式大規(guī)模數(shù)據(jù)?；谶@兩個(gè)平臺(tái)，Cutting最引人矚目的作品——Hadoop誕生了(后來(lái)大家習(xí)慣認(rèn)為Hadoop于2006年1月28日誕生的)。談到Google對(duì)他們的 “幫助”，Cutting說(shuō)：“我們開始設(shè)想用4~5臺(tái)電腦來(lái)實(shí)現(xiàn) 這個(gè)項(xiàng)目，但在實(shí)際運(yùn)行中牽涉了大量繁瑣的步驟需要靠人工來(lái)完成。Google的平臺(tái)讓這些步驟得以自動(dòng)化，為我們實(shí)現(xiàn)整體框架打下了良好的基礎(chǔ)。”

說(shuō)起Google，Cutting也是它成長(zhǎng)的見證人之一，這里有一段鮮為人知的故事。早在Cutting供職于Architext期間，有兩個(gè)年輕人曾去拜訪這家公司，并向他們兜售自己的搜索技術(shù)，但當(dāng)時(shí)他們的Demo只檢索出幾百萬(wàn)條網(wǎng)頁(yè)，Excite的工程師們覺得他們的技術(shù)太小兒科，于是就在心里鄙視一番，把他們給送走了。但故事并未到此結(jié)束，這兩個(gè)年輕人回去之后痛定思痛，決定自己創(chuàng)業(yè)。于是，他們開了一家自己的搜索公司，取名為Google。這兩個(gè)年輕人就是Larry Page和Sergey Brin。在Cutting看來(lái)，Google的成功主要取決于，反向排序之后再存儲(chǔ)的設(shè)計(jì)和對(duì)自己技術(shù)的自信。

出于對(duì)時(shí)間成本的考慮，在從Architext離職四年后，Cutting決定結(jié)束這段Freelancer的生涯，找一家靠譜的公司，進(jìn)一步完善 Hadoop的性能。他先后面試了幾家公司，其中也包括IBM，但I(xiàn)BM似乎對(duì)他的早期項(xiàng)目Lucene更感興趣，至于Hadoop則不置可否。就在此時(shí)，Cutting接受了當(dāng)時(shí)Yahoo!搜索項(xiàng)目負(fù)責(zé)人Raymie Stata的邀請(qǐng)，于2006年正式加入Yahoo!。在Yahoo!，有一支一百人的團(tuán)隊(duì)幫助他完善Hadoop項(xiàng)目，這期間開發(fā)工作進(jìn)行得卓有成效。不久之后，Yahoo!就宣布，將其旗下的搜索業(yè)務(wù)的架構(gòu)遷移到Hadoop上來(lái)。兩年后，Yahoo!便基于Hadoop啟動(dòng)了***個(gè)應(yīng)用項(xiàng)目 “webmap”——一個(gè)用來(lái)計(jì)算網(wǎng)頁(yè)間鏈接關(guān)系的算法。Cutting的時(shí)任上司(后為Hortonworks CEO)Eric Baldeschwieler曾說(shuō)：“在相同的硬件環(huán)境下，基于Hadoop的webmap的反應(yīng)速度是之前系統(tǒng)的33倍。”

談到成功，Cutting認(rèn)為他的成功主要?dú)w功于兩點(diǎn)，一是對(duì)自己工作的熱情(Cutting在大學(xué)時(shí)就開始做Infrastracture類的程序，還用 Lisp為Emacs貢獻(xiàn)過代碼，他非常喜歡自己的程序被千萬(wàn)人使用的感覺);二是目標(biāo)不要定得過大，要踏踏實(shí)實(shí)，一步一個(gè)腳印。

現(xiàn)在已經(jīng)被業(yè)內(nèi)稱為Hadoop之父的Cutting在Hadoop10年來(lái)到之時(shí)發(fā)表文章：Hadoop At 10: Doug Cutting On Making Big Data Work。InfoQ翻譯了中文(原文內(nèi)容,翻譯)。讓我們一起看看他眼中的大數(shù)據(jù)技術(shù)的未來(lái)是怎么樣的?

他眼中大數(shù)據(jù)技術(shù)的未來(lái)

(換為本人敘述模式)2016年1月28日，是Hadoop誕生十周年。此紀(jì)念日既給予了我們機(jī)會(huì)去慶祝過去10年來(lái) Apache Hadoop所取得的進(jìn)步，也讓我們反思是如何取得今天的一切成就，同時(shí)以便更好地規(guī)劃未來(lái)的發(fā)展目標(biāo)。

Hadoop是為了大數(shù)據(jù)而誕生的，其本身就象征著本世紀(jì)工業(yè)革命的焦點(diǎn)：業(yè)務(wù)的數(shù)字化轉(zhuǎn)型。十年前，數(shù)字化業(yè)務(wù)僅僅在少數(shù)幾個(gè)行業(yè)中得到了應(yīng)用，例如電子商務(wù)和媒體。從那時(shí)起，我們已經(jīng)看到數(shù)字化技術(shù)將成為幾乎所有行業(yè)必不可少的一環(huán)。每一個(gè)行業(yè)都正在致力于圍繞其信息系統(tǒng)構(gòu)建數(shù)據(jù)驅(qū)動(dòng)型運(yùn)營(yíng)模式。像Hadoop之類的大數(shù)據(jù)工具可以使各行業(yè)能夠從他們所產(chǎn)生的數(shù)據(jù)中獲得***的利益。

Hadoop本身并非是數(shù)字化轉(zhuǎn)型的根本起因，但是它是推動(dòng)這種發(fā)展趨勢(shì)的重要因素。因此，通過追溯Hadoop的發(fā)展歷史，可以更好地了解我們現(xiàn)在所處的世紀(jì)。

兩大傳統(tǒng)

在Hadoop出現(xiàn)之前，業(yè)界存在兩大軟件傳統(tǒng)，Doug Cutting稱之為“企業(yè)式(enterprise)”和“黑客式(hacker)”。在企業(yè)式傳統(tǒng)中，供應(yīng)商負(fù)責(zé)向運(yùn)行軟件的企業(yè)開發(fā)和銷售軟件，但是兩者之間的合作是非常少的。企業(yè)軟件依賴于一套關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)來(lái)解決幾乎所有的問題。用戶僅信任他們自己的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)來(lái)存儲(chǔ)和處理業(yè)務(wù)數(shù)據(jù)。如果某數(shù)據(jù)不是在該關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)中，用戶則認(rèn)為不是業(yè)務(wù)數(shù)據(jù)。

在黑客式傳統(tǒng)中，軟件主要由那些在大學(xué)、研究中心和硅谷網(wǎng)絡(luò)公司開發(fā)該軟件的相關(guān)方使用。開發(fā)人員通過編寫軟件來(lái)解決特定的問題，例如路由網(wǎng)絡(luò)流量、網(wǎng)頁(yè)生成和網(wǎng)頁(yè)服務(wù)等等。因此，Doug 選擇了后一種傳統(tǒng)，十多年來(lái)一直專門致力于搜索引擎是開發(fā)工作。Doug 說(shuō)他們很少使用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)，因?yàn)槠錄]有得到很好地?cái)U(kuò)展以搜索整個(gè)網(wǎng)絡(luò)，速度非常慢，不靈活且成本昂貴。

Hadoop的發(fā)展歷史

2000年，我加入了Apache Lucene項(xiàng)目，***次嘗試開源項(xiàng)目開發(fā)工作。該方法對(duì)他來(lái)說(shuō)是一個(gè)啟迪。不僅僅可以與開發(fā)人員緊密合作，而且變更工作單位后還可以繼續(xù)為同一款軟件投入心血。但最重要的是，這極大地增長(zhǎng)了見識(shí)：優(yōu)秀的開源項(xiàng)目是如何讓軟件變得大受歡迎的。如果軟件不會(huì)因許可限制而束縛，那么使用者就能夠以更為舒適的方式來(lái)使用該軟件，并基于該軟件開展自身的業(yè)務(wù)，而不會(huì)存在硬依賴于不透明的商業(yè)性軟件的風(fēng)險(xiǎn)。當(dāng)使用者發(fā)現(xiàn)問題時(shí)，他們就可以介入并協(xié)助解決這些問題，從而提升了開發(fā)團(tuán)隊(duì)的規(guī)模?？偠灾?，開源是軟件應(yīng)用和開發(fā)的一種促進(jìn)劑。

幾年后，大約在2004年左右，當(dāng)開發(fā)Apache Nutch項(xiàng)目時(shí)，我有了另外一個(gè)見解。當(dāng)時(shí)正試圖構(gòu)建一個(gè)可以處理數(shù)十億網(wǎng)頁(yè)的分布式系統(tǒng)。但是，不如人意的是該過程進(jìn)展相當(dāng)緩慢：很難開發(fā)和運(yùn)行這個(gè)軟件。聽說(shuō)，谷歌公司(Google)的工程師設(shè)計(jì)了一個(gè)系統(tǒng)，可以只需要幾行代碼編寫一個(gè)計(jì)算程序，該計(jì)算程序可以在數(shù)千臺(tái)機(jī)器上并行運(yùn)行，并且可以在幾分鐘時(shí)間內(nèi)就能夠可靠地處理多TB的數(shù)據(jù)。之后，谷歌公司(Google)發(fā)表了兩篇論文，描述了該計(jì)算程序是如何工作的，其中最關(guān)鍵的就是一個(gè)分布式文件系統(tǒng)(GFS)與一個(gè)執(zhí)行引擎(MapReduce)。這種方式將使Nutch變成一個(gè)更可行的系統(tǒng)。此外，這些工具可能可以被用于很多其他應(yīng)用程序中。MapReduce在大規(guī)模數(shù)據(jù)分析方面展現(xiàn)出了***的潛力，但當(dāng)時(shí)只提供給谷歌公司(Google)的工程師使用。

綜合開源特性在推廣科學(xué)技術(shù)方面的效能以及谷歌公司(Google)方法的廣泛適用性，我意識(shí)到采用開源的方式實(shí)施谷歌公司(Google)的想法將不僅能更好地應(yīng)用Nutch，而且很有可能成為一個(gè)非常成功的開源項(xiàng)目。懷著這樣的想法，Mike Cafarella和我開始在Nutch系統(tǒng)中實(shí)施這樣的分布式文件系統(tǒng)和MapReduce引擎。

截至到2005年，谷歌公司(Google)***的這種新型Nutch系統(tǒng)已經(jīng)被我們應(yīng)用于20到40個(gè)計(jì)算機(jī)集群中。但是，如果僅僅依靠幾個(gè)人利用業(yè)余時(shí)間來(lái)開發(fā)這款軟件，那么可能需要耗費(fèi)很多年的時(shí)間才能讓該足夠穩(wěn)定且可靠。此外該軟件需要在數(shù)以千計(jì)的計(jì)算機(jī)集群上進(jìn)行測(cè)試和調(diào)試，但是他們沒有足夠的計(jì)算機(jī)集群來(lái)完成這一工作。

2006年，我在雅虎公司(Yahoo!)給一些伙計(jì)們談?wù)摿擞嘘P(guān)Nutch的信息，并且得知大家對(duì)這種軟件存在巨大的需求。同時(shí)，我們也有一支熟練的工程師隊(duì)伍在進(jìn)行這項(xiàng)工作，并且部署了大量的硬件。

于是，在2006年1月，我加入到了雅虎公司(Yahoo!)。此后不久將Nutch中的分布式文件系統(tǒng)和MapReduce軟件分隔開來(lái)形成了一個(gè)新的項(xiàng)目，即“Hadoop”，這是以我的兒子的毛絨大象玩具而命名的。由于新加入了十幾名雅虎公司(Yahoo!)的工程師以及配置了數(shù)千臺(tái)電腦，取得了飛速的進(jìn)展。截止到2007年，我們構(gòu)建了一個(gè)相對(duì)穩(wěn)定的、可靠的系統(tǒng)，可以使用經(jīng)濟(jì)實(shí)惠的商用硬件處理數(shù)千兆字節(jié)(PB)的數(shù)據(jù)。

Hadoop徹底地改變了整個(gè)行業(yè)的格局。開發(fā)人員可以更快、更輕松地構(gòu)建更好的廣告方式、拼寫檢查、頁(yè)面布局等等。此外，越來(lái)越多的非雅虎公司(Yahoo!)的用戶也開始部署Hadoop，例如Facebook、Twitter和LinkedIn等公司。在Hadoop之上也很快建立了其他項(xiàng)目，例如Apache Pig、Apache Hive、Apache HBase等等。同時(shí)，學(xué)術(shù)研究人員也開始使用Hadoop。這樣就已經(jīng)達(dá)到了我們最初設(shè)想的目標(biāo)：即構(gòu)建一個(gè)能夠輕松方便、經(jīng)濟(jì)實(shí)惠地存儲(chǔ)和分析大量數(shù)據(jù)的非常流行的開源項(xiàng)目。

隨后一些風(fēng)險(xiǎn)投資商說(shuō)該軟件可能除了網(wǎng)絡(luò)和學(xué)術(shù)界之外還有更大用途。但是有人認(rèn)為銀行、保險(xiǎn)公司和鐵路公司可能永遠(yuǎn)也不會(huì)運(yùn)行這種開源的“黑客式”軟件。風(fēng)險(xiǎn)投資商依然堅(jiān)持他們的觀點(diǎn)，并在2008年籌建了Cloudera，這是業(yè)界***家明確使命為將Hadoop和相關(guān)技術(shù)引入傳統(tǒng)企業(yè)的公司。

一年以后，在2009年，我開始意識(shí)到這種可能性。如果可以讓世界500強(qiáng)企業(yè)開始采用Hadoop的話，那么很可能就會(huì)改變他們的業(yè)務(wù)模式。隨著公司逐漸采取更多的技術(shù)，從網(wǎng)站和呼叫中心到現(xiàn)金出納機(jī)和條碼掃描器，他們的手指尖將會(huì)傳遞越來(lái)越多的關(guān)于他們企業(yè)的數(shù)據(jù)。如果企業(yè)機(jī)構(gòu)能夠采集和使用更多的數(shù)據(jù)，那么將可以更好地了解和改善他們的業(yè)務(wù)。傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的技術(shù)存在以下弱點(diǎn)：在支持可變、凌亂的數(shù)據(jù)和快速實(shí)驗(yàn)方面顯得太過死板;無(wú)法輕易擴(kuò)展到支撐PB級(jí)數(shù)據(jù);并且成本非常昂貴。與此相比，即使是很小的Hadoop集群也可以允許公司提出和回答比以前更復(fù)雜的問題，并且可以不斷地學(xué)習(xí)和提高。***，我加入了Cloudera公司。

現(xiàn)況與展望

現(xiàn)在，七年后，Hadoop及其開啟的潮流已經(jīng)在主流企業(yè)中發(fā)揮了非常有價(jià)值的作用。

我們?cè)诙鄠€(gè)方面正處于大變革的時(shí)代。目前，傳統(tǒng)的企業(yè)式關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)軟件面臨著開源的大數(shù)據(jù)軟件這個(gè)競(jìng)爭(zhēng)對(duì)手。出乎意料但是非常讓人驚喜的是，黑客式和企業(yè)式軟件傳統(tǒng)之間的差異已不再明顯，并且兩者之間已經(jīng)出現(xiàn)了融合。同時(shí)，軟件的開發(fā)者和使用者之間也沒有了有嚴(yán)格的劃分。

Hadoop生態(tài)系統(tǒng)中沒有任何一個(gè)單一的軟件組件占主導(dǎo)地位。Hadoop也許是最古老和最成功的組件，但是每年都會(huì)引入新的、改進(jìn)的技術(shù)。新型的執(zhí)行引擎(例如Apache Spark)和新型的存儲(chǔ)系統(tǒng)(例如Apache Kudu(正在孵化中))表明，這種軟件生態(tài)系統(tǒng)的發(fā)展非常迅速，且不存在任何中心控制點(diǎn)。用戶也可以更快的獲得更好的軟件產(chǎn)品。

該軟件不僅更實(shí)惠，可擴(kuò)展，而且提供了更好的風(fēng)格。企業(yè)機(jī)構(gòu)不僅可以探索混亂的、多樣化的數(shù)據(jù)源，開展實(shí)驗(yàn)，而且可以迅速地開發(fā)和改進(jìn)應(yīng)用程序。我們可以綜合利用源于傳感器、社交媒體和生產(chǎn)過程的數(shù)據(jù)來(lái)進(jìn)行更深入的分析，制定明智的決策以及推出新的產(chǎn)品。包括Cloudera在內(nèi)的公司都在不斷地推動(dòng)該軟件的完善，確保其滿足各行業(yè)的需求，使之更穩(wěn)定、更可靠、更易管理、更安全，并且可以與現(xiàn)有系統(tǒng)輕松地集成在一起。

當(dāng)前，政府和行業(yè)本身也正在轉(zhuǎn)型。不僅是優(yōu)步(Uber)和特斯拉(Tesla)之類的新興公司正在使用數(shù)據(jù)來(lái)重新塑造自己的行業(yè)，卡特彼勒公司(Caterpillar)和雪佛龍公司(Chevron)等老字號(hào)品牌也正在通過數(shù)據(jù)技術(shù)極大地提升自身。我們將在本世紀(jì)獲得的絕大部分的技術(shù)進(jìn)步都將源于我們對(duì)所生成數(shù)據(jù)的深刻了解。

回首過去，10年前我們決不會(huì)猜到Hadoop將會(huì)在這般的滔天巨變中發(fā)揮如此關(guān)鍵性的作用。對(duì)于今天所取得的一切成就，感到十分自豪和驚喜。隨著數(shù)據(jù)世紀(jì)的到來(lái)，期待看到Hadoop繼續(xù)發(fā)揮它的影響。

責(zé)任編輯：Ophira 來(lái)源：云棲博客

Hadoop Doug Cutting 大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="zp1tw"></sub>}

<cite id="zp1tw"><rp id="zp1tw"><pre id="zp1tw"></pre></rp></cite>