自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop之父:普通程序員到頂級公司CTO的進(jìn)階之路

數(shù)據(jù)庫 Hadoop
做大數(shù)據(jù)開發(fā)的朋友一定用過 Hadoop 這個(gè)工具,它是一款支持?jǐn)?shù)據(jù)密集型的分布式應(yīng)用程序。那么接下來就跟雞仔一起來了解被譽(yù)為 Hadoop 之父的 Doug Cutting,他到底是何許人也?又有哪些值得我們學(xué)習(xí)的地方呢?

做大數(shù)據(jù)開發(fā)的朋友一定用過 Hadoop 這個(gè)工具,它是一款支持?jǐn)?shù)據(jù)密集型的分布式應(yīng)用程序。Hadoop 基于分布式檔案系統(tǒng)和 MapReduce 技術(shù),通過節(jié)點(diǎn)分工的模式把海量的數(shù)據(jù)處理工作分發(fā)至多臺機(jī)器上,再將每臺機(jī)器處理的結(jié)果匯總整合。雖然它的邏輯原理并不復(fù)雜(即簡單的分治思想),但其中要攻克的技術(shù)難點(diǎn)卻頗多,比如早期備受詬病的安全問題、文件存儲壓縮問題等。能開發(fā)出這樣一個(gè)工具的人,必定有他的過人之處,那么接下來就跟雞仔一起來了解被譽(yù)為 Hadoop 之父的 Doug Cutting,他到底是何許人也?又有哪些值得我們學(xué)習(xí)的地方呢? 

學(xué)計(jì)算機(jī)可以盡早還清貸款

Doug 來自加利福利亞納帕谷的農(nóng)村,1981 年他考上了斯坦福大學(xué)。雖然考上了大學(xué),但家庭并不富裕的 Doug 卻喜憂參半。只有借助貸款,他才能負(fù)擔(dān)起學(xué)費(fèi)

[[268627]] 

斯坦福大學(xué)

在斯坦福,Doug 學(xué)習(xí)了語言學(xué)和計(jì)算機(jī)相關(guān)的課程。他覺得計(jì)算機(jī)課程很有趣,更重要的是,他發(fā)現(xiàn)學(xué)習(xí)計(jì)算機(jī)可以幫他盡早還清貸款。因此,臨近畢業(yè)之際,他沒有選擇繼續(xù)求學(xué)深造,而是在施樂公司(看過《喬布斯傳》的朋友應(yīng)該對這所公司有所了解,這家公司在當(dāng)時(shí)非常有名,它的主要研究領(lǐng)域是印刷相關(guān)的技術(shù)。)找了一份薪水不錯(cuò)的工作,他的工作內(nèi)容是進(jìn)行自然語言處理和人工智能相關(guān)的研究,借此他也有幸參與了在當(dāng)時(shí)比較新潮的一個(gè)領(lǐng)域——搜索

[[268628]] 

施樂的工作環(huán)境 

見證搜索行業(yè)的崛起

在谷歌之前,有不少公司曾對搜索領(lǐng)域做過探索,而這些公司在 Google 之后都被遺忘了。施樂就是其中的一員,它可以說是搜索領(lǐng)域的先驅(qū)。當(dāng)然,他們對搜索的探索,重點(diǎn)圍繞著自己的主業(yè)開展

我們都知道,施樂一直從事打印、復(fù)印相關(guān)的業(yè)務(wù),他們當(dāng)時(shí)研究的方向是如何將紙制品電子化。而紙制品電子化面臨的主要問題,除了如何正確地識別紙制品上的文字外,還要保證如何快速檢索這些已電子化的文件資料,Doug 當(dāng)時(shí)從事的主要是后一項(xiàng)工作。這段時(shí)間的工作經(jīng)驗(yàn)積累,讓他在搜索技術(shù)的廣度和深度上都得到了極大的提升

[[268629]] 

施樂的豆袋會議室

之后不久,隨著網(wǎng)絡(luò)時(shí)代到來,以雅虎為代表的基于網(wǎng)絡(luò)搜索的公司如雨后春筍一樣涌現(xiàn)出來。Doug 見證了整個(gè)搜索行業(yè)的崛起,當(dāng)時(shí),為了便于用戶檢索互聯(lián)網(wǎng)信息,雅虎采用的方案是分類整合,就是說每當(dāng)有人新建立一個(gè)網(wǎng)站,雅虎便將它添加到雅虎的網(wǎng)站庫目錄中,然后再將網(wǎng)站分成金融、新聞、體育、娛樂等板塊

 

雅虎中國首頁

雅虎的這個(gè)方案雖然能夠幫助人們快速找到對應(yīng)需求的站點(diǎn),但無法精細(xì)地幫助用戶找到自己的個(gè)性化需求。這時(shí)候谷歌出現(xiàn)了,它采用的是基于 PageRank 的搜索算法,可以精準(zhǔn)地定位人們的檢索目標(biāo),幫助人們找到想要的結(jié)果。就憑著這點(diǎn)關(guān)鍵的技術(shù)創(chuàng)新,谷歌搜索業(yè)務(wù)迎來了發(fā)展的飛躍期

 

PageRank算法簡化圖解 

兩次練手收獲兩個(gè)開創(chuàng)性工具

Doug 雖然在施樂公司已積累了不少搜索技術(shù)的經(jīng)驗(yàn),但他探索的搜索技術(shù)都是基于離線環(huán)境的,因此數(shù)據(jù)量級不可能很大。Doug 感覺它的技術(shù)經(jīng)驗(yàn)有點(diǎn)紙上談兵。于是在 1997 年底,Doug 決定利用業(yè)余時(shí)間寫一個(gè)開源項(xiàng)目,他在家以每周兩天的時(shí)間投入開發(fā),不久之后,便誕生了***個(gè)開源文本搜索函數(shù)庫——Lucene

[[268631]] 

Lucene logo

Google 的高速發(fā)展讓 Doug 產(chǎn)生了危機(jī),他擔(dān)心日益減少的網(wǎng)絡(luò)搜索引擎可能讓信息檢索行業(yè)出現(xiàn)新的商業(yè)壟斷。Doug 于是著手與同事一起開發(fā)出了 Nutch,這是***個(gè)與 Google 進(jìn)行競爭的大型開源網(wǎng)絡(luò)搜索引擎項(xiàng)目。Nutch 雖然開發(fā)出來了,但和之前一樣,Nutch 工具依然沒有經(jīng)歷過實(shí)戰(zhàn)檢驗(yàn),Doug 接下來要做的,是在大量級的數(shù)據(jù)下,對 Nutch 進(jìn)行壓測。但大數(shù)據(jù)壓測就意味著要采購大量的設(shè)備和數(shù)據(jù)。但 Doug 當(dāng)時(shí)待業(yè)在家,并沒有足夠的財(cái)力購買這些設(shè)備和數(shù)據(jù)

 

Nutch 架構(gòu)示意圖

 

Hadoop比Webmap快33倍

就在 Doug 為測試?yán)_時(shí),Google 隨即發(fā)布了一份研究報(bào)告,報(bào)告中介紹了兩款 Google 為了支持自家產(chǎn)品而研發(fā)的軟件平臺,一個(gè)是 GFS(即 Google File System),用于存儲不同設(shè)備產(chǎn)生的海量數(shù)據(jù)。另外一個(gè)是 MapReduce,它在 GFS 上工作,用于分布式大規(guī)模數(shù)據(jù)處理。基于這兩個(gè)平臺,Doug 開發(fā)出了大名鼎鼎的 Hadoop

 

Hadoop logo

這就解決了困擾 Doug 很久的壓測問題,之前可能需要一臺超級計(jì)算機(jī)才能完成的工作,現(xiàn)在只需要將任務(wù)分布在幾臺廉價(jià)的計(jì)算機(jī)上同樣可以完成。Doug 對 Google 的開源大加贊賞「我們開始設(shè)想用 4-5 臺電腦來實(shí)現(xiàn)這個(gè)項(xiàng)目,但在實(shí)際運(yùn)行中牽涉了大量繁瑣的步驟需要靠人工來完成。Google 的平臺讓這些步驟得以自動化,為我們實(shí)現(xiàn)整體框架打下了良好的基礎(chǔ)?!?/p>

MapReduce 工作流簡化圖 

出于時(shí)間成本的考慮,Doug 決定結(jié)束自己的自由職業(yè)生涯。以此來進(jìn)一步完善他的 Hadoop 項(xiàng)目。他先找了 IBM ,但 IBM 對他早期的 Lucene 項(xiàng)目更感興趣。就在此時(shí),雅虎的負(fù)責(zé)人 Raymie Stata 熱情邀請他加入雅虎公司并馬上對搜索業(yè)務(wù)項(xiàng)目進(jìn)行優(yōu)化改造。加入雅虎后,Doug 如虎添翼,他有一支一百人的團(tuán)隊(duì)幫他完善 Hadoop 項(xiàng)目,這大大加速了 Hadoop 項(xiàng)目的發(fā)展。不久之后,雅虎就將它的搜索業(yè)務(wù)架構(gòu)遷移到 Hadoop 上來。兩年后,雅虎啟動了基于 Hadoop 的***項(xiàng)目 Webmap——一個(gè)用來計(jì)算網(wǎng)頁間鏈接關(guān)系的算法。遷移項(xiàng)目至 Hadoop 的成效立竿見影,在相同的硬件環(huán)境下,基于 Hadoop 的 Webmap 的反應(yīng)速度是之前系統(tǒng)的 33 倍 

新身份,新征程

雖然 Hapdoop 極大地提高了雅虎的搜索性能,但當(dāng)時(shí)的雅虎是熱鍋上的螞蟻。內(nèi)部管理,產(chǎn)品定位,技術(shù)服務(wù)等諸多問題無法得到解決,雅虎的局面實(shí)在是江河日下了。由于公司只關(guān)注產(chǎn)品,卻不想在技術(shù)上有過多的投入,Doug 于是跳槽到了 Cloudera

 

Cloudera logo

Cloudera 是為某些公司提供技術(shù)服務(wù)和咨詢的平臺,它的客戶多來自傳統(tǒng)行業(yè)。傳統(tǒng)行業(yè)的客戶有大量的數(shù)據(jù),但不知道如何合理地使用它們,這正好與 Doug 想在 Hadoop 平臺處理更大量的數(shù)據(jù)的想法不謀而合,在這里他有大量的客戶業(yè)務(wù)數(shù)據(jù),輔助他更好地完善 Hadoop 項(xiàng)目。值得一提的是,在 Doug 服務(wù)傳統(tǒng)企業(yè)的過程中,越來越多的互聯(lián)網(wǎng)巨頭也開始加入了 Hadoop 的隊(duì)伍(如 Facebook、eBay、LinkedIn 等),Hadoop 的團(tuán)隊(duì)無形之中被進(jìn)一步擴(kuò)大了

目前, 除了作為 Hadoop 之父外,Doug 還有另外一個(gè)身份——Cloudera ***架構(gòu)師。Cloudera 可以說是 Hadoop 生態(tài)圈最知名的公司了,它的核心產(chǎn)品是為客戶搭建基于 Hadoop 的大數(shù)據(jù)平臺,幫助企業(yè)安裝、配置、運(yùn)行 Hadoop 以便處理海量的數(shù)據(jù)

 

Cloudera 版本衍化

談到目前 Hadoop 的發(fā)展趨勢,Doug 很是意外 「我從沒有想過,Hadoop 除了搜索引擎,還能在其它方面發(fā)揮作用,它如今的受關(guān)注程度,已經(jīng)完全超過了我之前的想象?!?/p>

[[268635]] 

Doug Cutting

談及他的成功事跡,Doug 覺得主要?dú)w功于兩點(diǎn):熱情。他喜歡攻克技術(shù)難題帶來的成就感,他非常享受自己的程序被千萬人使用的感覺。另外一個(gè)就是腳踏實(shí)地。Doug 的所有成就都是他一點(diǎn)一滴積累來的,頭頂青天腳踏實(shí)地,時(shí)間會給人***的嘉獎(jiǎng)

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)庫開發(fā)
相關(guān)推薦

2018-06-05 11:24:19

華為云

2021-03-03 08:13:23

程序員分布式網(wǎng)絡(luò)

2021-03-02 08:31:18

分布式web 應(yīng)用數(shù)據(jù)存儲

2010-03-08 10:10:57

程序員

2018-06-14 09:59:48

程序員代碼大公司

2012-07-12 09:31:49

程序員

2009-02-10 15:44:09

SCJPJava認(rèn)證

2020-10-05 21:13:37

程序員技能開發(fā)者

2018-08-28 15:30:54

編程語言Python日志系統(tǒng)

2017-04-05 11:28:53

2017-08-11 16:40:21

2021-01-19 15:59:14

程序員算法

2014-08-25 10:19:12

程序員

2020-06-15 09:32:59

程序員大公司小公司

2012-03-31 11:16:35

女程序員

2015-08-26 11:29:53

程序員

2019-07-18 14:07:36

程序員Linux數(shù)據(jù)庫

2015-08-24 16:24:08

程序員開發(fā)社區(qū)頂級社區(qū)

2015-10-08 15:24:44

程序員面試貼士

2020-09-21 09:22:25

CTO程序員管理層
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號