Hadoop架構(gòu)二三事兒
Hadoop是IT行業(yè)一個(gè)新的熱點(diǎn),是云計(jì)算的一個(gè)具體實(shí)現(xiàn)、Hadoop本身具有很高的技術(shù)含量,是IT工程師學(xué)習(xí)的首選!下面我們來(lái)詳細(xì)講講什么是Hadoop。
完整hadoop講解視頻教程下載地址:
1、http://kuai.xunlei.com/d/CLCBYHQKJQNT
2、http://kuai.xunlei.com/d/CSMFERCHAGEE
Hadoop是什么:
Hadoop = The Hadoop projects
Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie
Hadoop要解決的兩個(gè)問(wèn)題:
1、海量數(shù)據(jù)的存儲(chǔ) -- HDFS
2、海量數(shù)據(jù)的分析 -- MapReduce
Hadoop發(fā)展的歷史:
始于2002年的apache項(xiàng)目Nutch
2003年Google發(fā)表了關(guān)于GFS的論文
2004年Nutch的開(kāi)發(fā)者開(kāi)發(fā)了NDFS
2004年Google發(fā)表了關(guān)于MapReduce的論文
2005年MapR被引入了NDFS
2006年改名為Hadoop,NDFS的創(chuàng)始人加入Yahoo,Yahoo成立了一個(gè)專(zhuān)門(mén)的小組發(fā)展Hadoop
HDFS設(shè)計(jì)目標(biāo):
1、Very large files
2、Streaming data access
write-once, read-many-times
3、Commodity hardware
HDFS架構(gòu):
在Hadoop中,一個(gè)文件被劃分成大小固定的多個(gè)文件塊,分布的存儲(chǔ)在集群中的節(jié)點(diǎn)中
Block:一個(gè)文件分塊,默認(rèn)64M
NameNode:保存整個(gè)文件系統(tǒng)的目錄信息,文件信息以及文件相應(yīng)的分塊信息。
DataNode:用于存儲(chǔ)Blocks
HDFS的HA策略:NameNode一旦宕機(jī),整個(gè)文件系統(tǒng)將無(wú)法工作。
如果NameNode中的數(shù)據(jù)丟失,整個(gè)文件系統(tǒng)也就丟失了。
2.x開(kāi)始,HDFS支持NameNode的active-standy模式。