術(shù)語匯編 Hadoop簡介
本節(jié)向大家描述一下Hadoop簡介,主要包括Hadoop概念和Hadoop子系統(tǒng)功能等內(nèi)容,希望通過本節(jié)的介紹大家對Hadoop有新的認(rèn)識,讓我們一起來學(xué)習(xí)Hadoop吧。
Hadoop簡介
Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲。
簡單地說來,Hadoop是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。
Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性(fault-tolerent)的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。
Hadoop是一個分布式計(jì)算基礎(chǔ)設(shè)施,它包含一系列相關(guān)的子項(xiàng)目,這些項(xiàng)目都隸屬于Apache軟件基金會(ASF)。ASF為這些開源社區(qū)項(xiàng)目提供支持。Hadoop里***的是MapReduce和分布式文件系統(tǒng)(HDFS),其他的子系統(tǒng)提供了一些附加功能,或者在core上增加了一些高級的抽象。下面Hadoop簡介向你介紹一下Hadoop子系統(tǒng)的一些附加功能。
Core
分布式系統(tǒng)和通用IO組件和接口(序列化,Java遠(yuǎn)程過程調(diào)用等等)。
Avro
支持跨語言過程調(diào)用,持久數(shù)據(jù)存儲的數(shù)據(jù)序列化系統(tǒng)。
MapReduce
構(gòu)建在廉價(jià)的PC機(jī)器上的分布式數(shù)據(jù)處理模型和運(yùn)行環(huán)境。
HDFS
Hadoop簡介中的HDFS構(gòu)建在廉價(jià)的PC機(jī)器上的分布式文件系統(tǒng)。
Pig
處理海量數(shù)據(jù)集的數(shù)據(jù)流語言和運(yùn)行環(huán)境。pig運(yùn)行在HDFS和MapReduce之上。
HBase
分布式,面向列的數(shù)據(jù)庫。HBase使用HDFS作為底層存儲,同時使用MapReduce支持批處理模式的計(jì)算和隨機(jī)查詢。
ZooKeeper
提供分布式、高效的協(xié)作服務(wù)。ZooKeeper提供分布式鎖這樣的原子操作,可以用來構(gòu)建分布式應(yīng)用。
Hive
分布式數(shù)據(jù)倉庫,Hive使用HDFS存儲數(shù)據(jù),提供類似SQL的語言(轉(zhuǎn)換為MapReduce任務(wù))查詢數(shù)據(jù)。
Chukwa
分布式數(shù)據(jù)采集和分析系統(tǒng)。使用HDFS存儲數(shù)據(jù),使用Mapreduce輸出分析報(bào)告。本節(jié)關(guān)于Hadoop簡介講解完畢。
【編輯推薦】