Hadoop初探
本節(jié)向大家描述一下什么是Hadoop,主要內(nèi)容有Hadoop概念介紹和Hadoop開源的實現(xiàn)等,相信看完本文的介紹,大家對Hadoop有更深刻的認識。
Hadoop是什么
Hadoop 是一個分布式系統(tǒng)基礎架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。項目主頁:http://hadoop.apache.org
Hadoop是一個用于運行應用程序在大型集群的廉價硬件設備上的框架。Hadoop為應用程序透明的提供了一組穩(wěn)定/可靠的接口和數(shù)據(jù)運動。在Hadoop中實現(xiàn)了Google的MapReduce算法,它能夠把應用程序分割成許多很小的工作單元,每個單元可以在任何集群節(jié)點上執(zhí)行或重復執(zhí)行。此外,Hadoop還提供一個分布式文件系統(tǒng)用來在各個計算節(jié)點上存儲數(shù)據(jù),并提供了對數(shù)據(jù)讀寫的高吞吐率。由于應用了map/reduce和分布式文件系統(tǒng)使得Hadoop框架具有高容錯性,它會自動處理失敗節(jié)點。已經(jīng)在具有600個節(jié)點的集群測試過Hadoop框架。
Google的數(shù)據(jù)中心使用廉價的Linux PC機組成集群,在上面運行各種應用。即使是分布式開發(fā)的新手也可以迅速使用Google的基礎設施。核心組件是3個:
1、GFS(Google File System)。一個分布式文件系統(tǒng),隱藏下層負載均衡,冗余復制等細節(jié),對上層程序提供一個統(tǒng)一的文件系統(tǒng)API接口。Google根據(jù)自己的需求對它進行了特別優(yōu)化,包括:超大文件的訪問,讀操作比例遠超過寫操作,PC機極易發(fā)生故障造成節(jié)點失效等。GFS把文件分成64MB的塊,分布在集群的機器上,使用Linux的文件系統(tǒng)存放。同時每塊文件至少有3份以上的冗余。中心是一個Master節(jié)點,根據(jù)文件索引,找尋文件塊。詳見Google的工程師發(fā)布的GFS論文。
2、MapReduce。Google發(fā)現(xiàn)大多數(shù)分布式運算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value對,Reduce把Key/Value合成最終輸出Output。這兩個函數(shù)由程序員提供給系統(tǒng),下層設施把Map和Reduce操作分布在集群上運行,并把結(jié)果存儲在GFS上。
3、BigTable。一個大型的分布式數(shù)據(jù)庫,這個數(shù)據(jù)庫不是關(guān)系式的數(shù)據(jù)庫。像它的名字一樣,就是一個巨大的表格,用來存儲結(jié)構(gòu)化的數(shù)據(jù)。
開源實現(xiàn)
這個分布式框架很有創(chuàng)造性,而且有極大的擴展性,使得Google在系統(tǒng)吞吐量上有很大的競爭力。因此Apache基金會用Java實現(xiàn)了一個開源版本,支持Fedora等Linux平臺。目前Hadoop受到Y(jié)ahoo的支持,有Yahoo員工長期工作在項目上,而且Yahoo內(nèi)部也準備使用Hadoop代替原來的基于FreeBSD的系統(tǒng)。
Hadoop實現(xiàn)了HDFS文件系統(tǒng)和MapRecue。目前版本是0.16。還不成熟,但是已經(jīng)可以在2000個節(jié)點上運行。用戶只要繼承MapReduceBase,提供分別實現(xiàn)Map和Reduce的兩個類,并注冊Job即可自動分布式運行。
HDFS把節(jié)點分成兩類:NameNode和DataNode。NameNode是***的,程序與之通信,然后從DataNode上存取文件。這些操作是透明的,與普通的文件系統(tǒng)API沒有區(qū)別。
MapReduce則是JobTracker節(jié)點為主,分配工作以及負責和用戶程序通信。
目前這個項目還在進行中,還沒有到達1.0版本,和Google系統(tǒng)的差距也非常大,但是進步非常快,值得關(guān)注。另外,這是云計算(Cloud Computing)的初級階段的實現(xiàn),是通向未來的橋梁。
【編輯推薦】
- 學習筆記 Hadoop是什么?
- 如何進行Hadoop安裝部署?
- Hadoop集群與Hadoop性能優(yōu)化
- Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
- Yahoo公布Hadoop的源代碼