開源軟件發(fā)展史:Hadoop的昨天與今天
你了解Hadoop分布式計(jì)算平臺(tái)的過(guò)去與現(xiàn)在嗎?Hadoop是基于Java的開源軟件架構(gòu),運(yùn)行分布的、數(shù)據(jù)密集型應(yīng)用。它能夠讓應(yīng)用安全擴(kuò)展以處理數(shù)千個(gè)節(jié)點(diǎn)以及PB級(jí)數(shù)據(jù)。日前,Apache透露Hadoop將脫離雅虎,由Hortonworks管理。下文中將提到許多Hadoop分布式系統(tǒng)以及這五年來(lái)的開源軟件的發(fā)展史。
Hadoop是一種針對(duì)大數(shù)據(jù)分析的開源分布式計(jì)算平臺(tái),是由Apache軟件基金會(huì)主席Doug Cutting在雅虎時(shí)創(chuàng)建。近日在美國(guó)圣克拉拉第五年度Hadoop峰會(huì)上發(fā)布了不少關(guān)于Hadoop的重大新聞。
首先,Cutting透露Hadoop將要正式脫離雅虎,由Hortonworks管理,Hortonworks是一個(gè)由風(fēng)投公司創(chuàng)新的新公司,是根據(jù)Seuss博士的電影“霍頓奇遇記”中的大象角色的名字命名的。
第二, Hadoop技術(shù)從一個(gè)科學(xué)項(xiàng)目到主流的商業(yè)應(yīng)用經(jīng)歷了五年的時(shí)間。Hortonworks這個(gè)名字對(duì)新公司來(lái)說(shuō)恰到好處,因?yàn)閷?duì)它與Hadoop一樣,是以一個(gè)玩具大象的名字(總裁兒子的玩具)來(lái)命名的。
Apache Hadoop是一個(gè)基于Java的開源軟件架構(gòu),運(yùn)行分布的、數(shù)據(jù)密集型應(yīng)用。它能夠讓應(yīng)用安全擴(kuò)展以處理數(shù)千個(gè)節(jié)點(diǎn)以及PB級(jí)數(shù)據(jù)。越來(lái)越多的企業(yè)發(fā)現(xiàn)他們需要分析存儲(chǔ)的數(shù)據(jù)來(lái)幫助他們做更好的業(yè)務(wù)決策。目前市場(chǎng)中有許多Hadoop分布式系統(tǒng),這將在下文中提到。另外,文中還會(huì)提到這五年來(lái)的開源軟件的發(fā)展史。
1、雅虎創(chuàng)立Hortonworks 引導(dǎo)Hadoop社區(qū)

6月29日,風(fēng)投公司投資創(chuàng)建了獨(dú)立的私人公司Hortonworks,來(lái)引導(dǎo)Hadoop社區(qū),并推廣開源產(chǎn)品。曾經(jīng)是其母公司的雅虎,現(xiàn)在是它的客戶之一。
2、Hadoop不再是科學(xué)項(xiàng)目了

雅虎將Hadoop從創(chuàng)始人Doug Cutting的科學(xué)項(xiàng)目中變成一個(gè)世界級(jí)平臺(tái),僅用了五年的時(shí)間。貢獻(xiàn)了超過(guò)70%的代碼,使其成為IT產(chǎn)業(yè)里優(yōu)秀的大數(shù)據(jù)平臺(tái)。#p#
3、Hadoop是IBM沃森的關(guān)鍵部分
Hadoop的分析和數(shù)據(jù)發(fā)現(xiàn)能力是IBM Watson計(jì)算機(jī)能夠在《危險(xiǎn)邊緣》比賽中戰(zhàn)勝另外兩位人類前冠軍的重要原因。
4、最大的部署:每天200PB的數(shù)據(jù)
在技術(shù)領(lǐng)域最大的部署環(huán)境(例如雅虎),每天Hadoop于分析超過(guò)200PB的數(shù)據(jù),讓雅虎變得更人性化,更貼近用戶和客戶。它與雅虎IT系統(tǒng)的方方面面進(jìn)行協(xié)作,包括包括搜索、廣告、用戶體驗(yàn)和欺詐發(fā)現(xiàn)。#p#
5、給力的系統(tǒng) 應(yīng)對(duì)大數(shù)據(jù)
雅虎的Hadoop系統(tǒng)包括超過(guò)4萬(wàn)2千臺(tái)的服務(wù)器,以及由4000臺(tái)設(shè)備組成的集群,每個(gè)月能夠處理超過(guò)500萬(wàn)份工作。每天都會(huì)有1400萬(wàn)份新文件進(jìn)入Hadoop系統(tǒng),這一切根本就是小菜一碟。
6、Hadoop或圍繞平臺(tái)出售服務(wù)
Hadoop軟件是作為一個(gè)開源項(xiàng)目可免費(fèi)獲得的,未來(lái)將推出一系列高級(jí)服務(wù)針對(duì)那些需要更高級(jí)別服務(wù)的企業(yè)。#p#
7、抗擊垃圾郵件立大功 個(gè)人頁(yè)面自由定制
Hadoop讓2.89億個(gè)雅虎郵箱免受垃圾郵件侵?jǐn)_。另外,Hadoop還在1300萬(wàn)個(gè)按個(gè)人使用習(xí)慣定制的web界面中扮演了關(guān)鍵的角色。
8、不僅僅是應(yīng)對(duì)網(wǎng)絡(luò)流量
Hadoop已經(jīng)演進(jìn)到不僅僅局限于應(yīng)對(duì)網(wǎng)絡(luò)流量和科學(xué)研究(圖為歐洲核子研究中心超級(jí)對(duì)撞機(jī))。現(xiàn)在它還用于搜索引擎、廣告優(yōu)化、機(jī)器學(xué)習(xí)和內(nèi)容 力改進(jìn)和內(nèi)容提供。它每天能夠向研究集群中載入10TB的數(shù)據(jù)。#p#
9、Hadoop新型公司快速成長(zhǎng)
MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer這些與Hadoop相關(guān)的新公司已經(jīng)獲得投資,為人們所熟知,為各種市場(chǎng)帶來(lái)最新技術(shù)。
10、Hadoop仍需改進(jìn)
雅虎和Hortonworks的高層已承認(rèn)Hadoop仍然需要時(shí)間去發(fā)展,以便更加容易的使用,尤其是用戶交互界面需要更加的完善,不過(guò)兩家公司的團(tuán)隊(duì)都相信他們將在數(shù)月內(nèi)解決這個(gè)問(wèn)題。
原文:http://stor-age.zdnet.com.cn/stor-age/2011/0719/2047554.shtml
【編輯推薦】