Hadoop配置注意事項(xiàng)及命令使用經(jīng)驗(yàn)總結(jié)
本節(jié)和大家一起學(xué)習(xí)一下Hadoop配置過程中應(yīng)該注意的一些問題,同時(shí)和大家分享一下使用Hadoop命令過程中的一些感受,歡迎大家一起來學(xué)習(xí),以便在以后的學(xué)習(xí)過程中避免犯錯(cuò)誤,希望通過本節(jié)的介紹大家對Hadoop配置和Hadoop命令有更加深刻的認(rèn)識。
Hadoop配置注意事項(xiàng):
Master和Slave上的幾個(gè)conf配置文件不需要全部同步,如果確定都是通過Master去啟動和關(guān)閉,那么Slave機(jī)器上的配置不需要去維護(hù)。但如果希望在任意一臺機(jī)器都可以啟動和關(guān)閉Hadoop,那么就需要全部保持一致了。
Master和Slave機(jī)器上的/etc/hosts中必須把集群中機(jī)器都配置上去,就算在各個(gè)配置文件中使用的是IP。這個(gè)吃過不少苦頭,原來以為如果配成IP就不需要去配置Host,結(jié)果發(fā)現(xiàn)在執(zhí)行Reduce的時(shí)候總是卡住,在拷貝的時(shí)候就無法繼續(xù)下去,不斷重試。另外如果集群中如果有兩臺機(jī)器的機(jī)器名如果重復(fù)也會出現(xiàn)問題。
如果在新增了節(jié)點(diǎn)或者刪除節(jié)點(diǎn)的時(shí)候出現(xiàn)了問題,首先就去刪除Slave的hadoop.tmp.dir,然后重新啟動試試看,如果還是不行那就干脆把Master的hadoop.tmp.dir刪除(意味著dfs上的數(shù)據(jù)也會丟失),如果刪除了Master的hadoop.tmp.dir,那么就需要重新namenode–format。Map任務(wù)個(gè)數(shù)以及Reduce任務(wù)個(gè)數(shù)配置。前面分布式文件系統(tǒng)設(shè)計(jì)提到一個(gè)文件被放入到分布式文件系統(tǒng)中,會被分割成多個(gè)block放置到每一個(gè)的DataNode上,默認(rèn)dfs.block.size應(yīng)該是64M,也就是說
如果你放置到HDFS上的數(shù)據(jù)小于64,那么將只有一個(gè)Block,此時(shí)會被放置到某一個(gè)DataNode中,這個(gè)可以通過使用命令:hadoopdfsadmin–report就可以看到各個(gè)節(jié)點(diǎn)存儲的情況。也可以直接去某一個(gè)DataNode查看目錄:hadoop.tmp.dir/dfs/data/current就可以看到那些block了。Block的數(shù)量將會直接影響到Map的個(gè)數(shù)。當(dāng)然可以通過配置來設(shè)定Map和Reduce的任務(wù)個(gè)數(shù)。Map的個(gè)數(shù)通常默認(rèn)和HDFS需要處理的blocks相同。也可以通過Hadoop配置Map的數(shù)量或者配置minimumsplitsize來設(shè)定,實(shí)際的個(gè)數(shù)為:max(min(block_size,data/#maps),min_split_size)。Reduce可以通過這個(gè)公式計(jì)算:0.95*num_nodes*mapred.tasktracker.tasks.maximum。
總的來說出了問題或者啟動的時(shí)候最好去看看日志,這樣心里有底。
Hadoop中的命令(Command)總結(jié):
這部分內(nèi)容其實(shí)可以通過命令的Help以及介紹了解,我主要側(cè)重于介紹一下我用的比較多的幾個(gè)命令。Hadoopdfs這個(gè)命令后面加參數(shù)就是對于HDFS的操作,和Linux操作系統(tǒng)的命令很類似,例如:
Hadoopdfs–ls就是查看/usr/root目錄下的內(nèi)容,默認(rèn)如果不填路徑這就是當(dāng)前用戶路徑;
Hadoopdfs–rmrxxx就是刪除目錄,還有很多命令看看就很容易上手;
Hadoopdfsadmin–report這個(gè)命令可以全局的查看DataNode的情況;
Hadoopjob后面增加參數(shù)是對于當(dāng)前運(yùn)行的Job的操作,例如list,kill等;
Hadoopbalancer就是前面提到的均衡磁盤負(fù)載的命令。
其他就不詳細(xì)介紹了。本節(jié)關(guān)于Hadoop配置及命令方面的內(nèi)容介紹完畢。
【編輯推薦】
- Hadoop配置指導(dǎo)手冊
- Hadoop配置和啟動Hadoop方法詳解
- 專家講解 Hadoop:HBASE松散數(shù)據(jù)存儲設(shè)計(jì)
- 兩種模式運(yùn)行Hadoop分布式并行程序
- Hadoop概念及其用法專家講解