Hadoop0.20.0部署與測試中的單機和偽分布模式操作方法簡介
本節(jié)向大家介紹一下Hadoop0.20.0部署與測試方面的內(nèi)容,本節(jié)主要包括單機模式和偽分布模式操縱方法介紹等內(nèi)容,希望通過本節(jié)的介紹大家能夠掌握Hadoop0.20.0部署與測試方法。下面是具體介紹。
1.單機模式Local(Standalone)Mode
默認情況下,Hadoop被配置成以非分Java布式模式運行的一個獨立進程。這對調(diào)試非常有幫助。
經(jīng)過上述配置,就可以運行單機模式了。具體操作請查看手冊
2.偽分布式模式的操作方法
Hadoop0.20.0部署中Hadoop可以在單節(jié)點上以所謂的偽分布式模式運行,此時每一個Hadoop守護進程都作為一個獨立的Java進程運行。
0.20版本較之前版本比配置文件有較大改動,由原來全部配置在hadoop-site.xml改為分別配置在以下三個文件中:
conf/core-site.xml,conf/hdfs-site.xml,conf/mapred-site.xml
具體配置查看手冊
以conf/core-site.xml為例:
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
如果出現(xiàn)連接錯誤,可以嘗試將了localhost替換為本機IP或127.0.0.1
Hadoop0.20.0部署中免密碼ssh設(shè)置
現(xiàn)在確認能否不輸入口令就用ssh登錄localhost:
$sshlocalhost
如果不輸入口令就無法用ssh登陸localhost,執(zhí)行下面的命令:
$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys
執(zhí)行
格式化一個新的分布式文件系統(tǒng):
$bin/hadoopnamenode-format
啟動Hadoop守護進程:
$bin/start-all.sh
Hadoop守護進程的日志寫入到${HADOOP_LOG_DIR}目錄(默認是${HADOOP_HOME}/logs).
瀏覽NameNode和JobTracker的網(wǎng)絡(luò)接口,它們的地址默認為:
*NameNode-http://localhost:50070/
*JobTracker-http://localhost:50030/
到這步為止,必須要先訪問上面的NameNode網(wǎng)絡(luò)接口,當(dāng)頁面能正常顯示HDFS的狀態(tài)時,才能正常進行下面的步驟。
1.點擊Browsethefilesystem,***次進入可能會返回一個404錯誤頁面。
2.返回上一頁,刷新頁面,這時候應(yīng)該會出現(xiàn)下圖所示畫面,這就表明DFS已經(jīng)正常工作(即DFSUsed等數(shù)值不再顯示為0)。
3.如果不行就反復(fù)操作1,2步驟,直至成功。
將輸入文件拷貝到分布式文件系統(tǒng):$bin/hadoopfs-putconfinput
運行發(fā)行版提供的示例程序:$bin/hadoopjarhadoop-*-examples.jargrepinputoutput'dfs[a-z.]+'
查看輸出文件:
將輸出文件從分布式文件系統(tǒng)拷貝到本地文件系統(tǒng)查看:
$bin/hadoopfs-getoutputoutput
$catoutput/*
$bin/hadoopfs-getoutputoutput
$catoutput/*
或者
在分布式文件系統(tǒng)上查看輸出文件:
- $bin/hadoopfs-catoutput/*
- $bin/hadoopfs-catoutput/*
- 3dfs.class
- 2dfs.period
- 1dfs.file
- 1dfs.replication
- 1dfs.servers
- 1dfsadmin
- 1dfsmetrics.log
- 3 dfs.class
- 2 dfs.period
- 1 dfs.file
- 1 dfs.replication
- 1 dfs.servers
- 1 dfsadmin
- 1 dfsmetrics.log
完成全部操作后,停止守護進程:$bin/stop-all.sh
Hadoop0.20.0部署與測試中的命令(Command)總結(jié)
這部分內(nèi)容其實可以通過命令的Help以及介紹了解,我主要側(cè)重于介紹一下我用的比較多的幾個命令。Hadoopdfs這個命令后面加參數(shù)就是對于HDFS的操作,和Linux操作系統(tǒng)的命令很類似,例如:
Hadoopdfs–ls就是查看/usr/root目錄下的內(nèi)容,默認如果不填路徑這就是當(dāng)前用戶路徑;
Hadoopdfs–rmrxxx就是刪除目錄,如果多次執(zhí)行,則每次執(zhí)行前可以用此命令刪除已存在的文件夾內(nèi)容;
Hadoopdfsadmin–report這個命令可以全局的查看DataNode的情況;
Hadoopjob后面增加參數(shù)是對于當(dāng)前運行的Job的操作,例如list,kill等;
Hadoopbalancer就是前面提到的均衡磁盤負載的命令。本節(jié)關(guān)于Hadoop0.20.0部署與測試相關(guān)內(nèi)容介紹到這里。
【編輯推薦】