自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="dnwdu"><rt id="dnwdu"></rt></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

使用nutch檢索的歷程

作者：lovepoem 2011-04-26 10:16:44

開(kāi)發(fā) 后端

最近開(kāi)始做一個(gè)項(xiàng)目的搜索引擎，技術(shù)選型為爬蟲(chóng)nutch。開(kāi)始以為除了cms系統(tǒng)發(fā)布的靜態(tài)頁(yè)面以外，還有數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)需要索引(其實(shí)這些用頁(yè)面是用jsp展示的，在系統(tǒng)中已經(jīng)有了)。

最近開(kāi)始做一個(gè)項(xiàng)目的搜索引擎，技術(shù)選型為爬蟲(chóng)nutch。開(kāi)始以為除了cms系統(tǒng)發(fā)布的靜態(tài)頁(yè)面以外，還有數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)需要索引(其實(shí)這些用頁(yè)面是用jsp展示的，在系統(tǒng)中已經(jīng)有了)。所以用爬蟲(chóng)爬完網(wǎng)站后，就想著再把結(jié)構(gòu)化的數(shù)據(jù)通lucene的api寫(xiě)進(jìn)nutch的索引中，最后通過(guò)多次嘗試發(fā)現(xiàn)很難實(shí)現(xiàn)。雖然能將lucene建立的索引追加進(jìn)到nutch的索引中，可是卻很難讀出來(lái)(有一款luke軟件可以，可是想要趕緊完成項(xiàng)目，這個(gè)luke的源碼沒(méi)有時(shí)間來(lái)讀)。

lucene是一個(gè)平面化的存儲(chǔ)，一個(gè)索引就相當(dāng)于數(shù)據(jù)庫(kù)的一張表。而nutch的存儲(chǔ)結(jié)構(gòu)是hdfs存儲(chǔ)系統(tǒng)，hadoop的分布式系統(tǒng)，索引里面寫(xiě)入了很多hadoop的數(shù)據(jù)，而且其中10個(gè)字段title/url/segment/host/site/content/anchor/boost/digest/tstamp業(yè)也不像原生的lucene索引的存放方式。多次嘗試發(fā)現(xiàn)用lucene基礎(chǔ)api讀取nutch的索引很難實(shí)現(xiàn)。

最近才發(fā)現(xiàn)原來(lái)nutch的搜索應(yīng)用中的一個(gè)的一個(gè)配置文件regex-urlfilter.txt ，里面默認(rèn)在后臺(tái)只爬取靜態(tài)頁(yè)面。所以導(dǎo)致我開(kāi)始的想法。

知道這個(gè)以后好辦了，修改后臺(tái)和前臺(tái)應(yīng)用的配置文件，消除對(duì)php/jsp/xxAction.do等動(dòng)態(tài)url的過(guò)濾：

方法如下：修改conf下面的2個(gè)文件regex-urlfilter.txt，crawl-urlfilter.txt

將

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

從而允許動(dòng)態(tài)傳參數(shù)的?=&等url的爬取。

換了個(gè)思路，省了不少事兒。nutch繼續(xù)研究使用中

【相關(guān)文章】

在Hibernate中處理批量更新和批量刪除

利用HSQLDB進(jìn)行Hibernate單元測(cè)試

使用Hibernate編寫(xiě)通用數(shù)據(jù)庫(kù)操作代碼

責(zé)任編輯：金賀來(lái)源： ITEYE博客

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="y0a3g"><p id="y0a3g"><li id="y0a3g"></li></p></sub>

<p id="y0a3g"><li id="y0a3g"><sup id="y0a3g"></sup></li></p>

<p id="y0a3g"><li id="y0a3g"></li></p>

<cite id="y0a3g"><track id="y0a3g"></track></cite>