自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="1er93"></style>

<cite id="1er93"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

nutch+hadoop配置步驟及問題解決方法深入剖析

作者：zhangyi080320 2010-06-07 14:55:32

開發(fā) 架構(gòu) Hadoop

Hadoop相信大家有所了解了，這里向大家介紹一下nutch+hadoop配置使用問題，主要包括nutch+hadoop配置以及配置過程匯總遇到的問題，相信通過本文的介紹大家對nutch+hadoop配置有一定的認識。

本節(jié)向大家介紹nutch+hadoop配置方面的內(nèi)容，主要有nutch+hadoop配置的步驟和配置時出現(xiàn)的問題及解決辦法，歡迎大家一起來學習，相信通過本節(jié)的介紹你會越到不少有關(guān)Hadoop的知識。

nutch+hadoop配置使用

配置nutch+hadoop

1，下載nutch。如果不需要特別開發(fā)hadoop，則不需要下載hadoop。因為nutch里面帶了hadoopcore包以及相關(guān)配置

2，建立目錄（根據(jù)自己喜好）
/nutch
/search(nutchinstallationgoeshere)nutch安裝到這里，也就是解壓到這里
/filesystemhadoop的文件系統(tǒng)存放點
/local/crawl后放置索引用來search用的
/home(nutchuser'shomedirectory)如果你用系統(tǒng)用戶，這個基本沒用
/tomcat啟動nutch.war用來search索引的app

3，conf/hadoop-env.sh一定要配置JAVA_HOME,否則系統(tǒng)起不來

4，配置master和slave的ssh，否則每次都要輸入passwd
ssh-keygen-trsa
然后回車即可
cpid_rsa.pubauthorized_keys
（copy到其它的slave上）scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys

5，將bin和conf下所有的.sh、nuch、hadoop文件dos2unix
dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop

配置hadoop-size.xml

6，記住要把master文件從nutch/hadoopcopy到這個nutch中，應該是bug。也就是說啟動需要這個文件，文件內(nèi)容為默認的localhost即可（如果是分布式，可能需要配置）

7，nutch+hadoop配置過程中需要格式化namenode
bin/hadoopnamenode-format #p#

8，啟動：bin/start-all.sh

9，配置crawl（以配置一個網(wǎng)址lucene.apache.org為例）

cd/nutch/search  
mkdirurls  
viurls/urllist.txthttp://lucene.apache.org  
cd/nutch/search  
bin/hadoopdfs-puturlsurls  
cd/nutch/search  
viconf/crawl-urlfilter.txt  
changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/  
toread:+^http://([a-z0-9]*\.)*apache.org/

10，啟動crawl
bin/nutchcrawlurls-dircrawled-depth3

11，查詢
bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)將index的東西copy到以上配置的local中，因為search不能用dfs中搜索(從文檔看是這樣)

12，啟動nutch.war，測試
vinutch-site.xmlnutch.war中classes下
starttomcat

注意點：
1，masters文件nutch原來沒有，需要copy到conf下
2，crawl的log4j配置默認有問題，需要增加：
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3，nutch1.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已經(jīng)存在。

nutch+hadoop配置使用時的問題：
1，運行hadoop程序時，中途我把它終止了，然后再向hdfs加文件或刪除文件時，出現(xiàn)Namenodeisinsafemode錯誤：
rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
解決的命令：
bin/hadoopdfsadmin-safemodeleave#關(guān)閉safemode
索引命令：
bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/

segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
eg：
index：
bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
merge：
bin/nutchmergecrawled/index_newcrawled/indexes_new
去重dedup：
bin/nutchdedupcrawled/index_new。本節(jié)關(guān)于nutch+hadoop配置使用介紹到這里。

【編輯推薦】

Hadoop配置注意事項及命令使用經(jīng)驗總結(jié)
Hadoop配置和啟動Hadoop方法詳解
Hadoop文件系統(tǒng)如何快速安裝？
Hadoop配置指導手冊
Hadoop完全分布模式安裝實現(xiàn)詳解

責任編輯：佚名來源： csdn.net

nutch+hadoop配置

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<ruby id="8m0lr"></ruby>

<cite id="8m0lr"></cite>