自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用nutch檢索的歷程

開(kāi)發(fā) 后端
最近開(kāi)始做一個(gè)項(xiàng)目的搜索引擎,技術(shù)選型為爬蟲(chóng)nutch。開(kāi)始以為除了cms系統(tǒng)發(fā)布的靜態(tài)頁(yè)面以外,還有數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)需要索引(其實(shí)這些用頁(yè)面是用jsp展示的,在系統(tǒng)中已經(jīng)有了)。

最近開(kāi)始做一個(gè)項(xiàng)目的搜索引擎,技術(shù)選型為爬蟲(chóng)nutch。開(kāi)始以為除了cms系統(tǒng)發(fā)布的靜態(tài)頁(yè)面以外,還有數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)需要索引(其實(shí)這些用頁(yè)面是用jsp展示的,在系統(tǒng)中已經(jīng)有了)。所以用爬蟲(chóng)爬完網(wǎng)站后,就想著再把結(jié)構(gòu)化的數(shù)據(jù)通lucene的api寫(xiě)進(jìn)nutch的索引中,最后通過(guò)多次嘗試發(fā)現(xiàn)很難實(shí)現(xiàn)。雖然能將lucene建立的索引追加進(jìn)到nutch的索引中,可是卻很難讀出來(lái)(有一款luke軟件可以,可是想要趕緊完成項(xiàng)目,這個(gè)luke的源碼沒(méi)有時(shí)間來(lái)讀)。

lucene是一個(gè)平面化的存儲(chǔ),一個(gè)索引就相當(dāng)于數(shù)據(jù)庫(kù)的一張表。而nutch的存儲(chǔ)結(jié)構(gòu)是hdfs存儲(chǔ)系統(tǒng),hadoop的分布式系統(tǒng),索引里面寫(xiě)入了很多hadoop的數(shù)據(jù),而且其中10個(gè)字段title/url/segment/host/site/content/anchor/boost/digest/tstamp業(yè)也不像原生的lucene索引的存放方式。多次嘗試發(fā)現(xiàn)用lucene基礎(chǔ)api讀取nutch的索引很難實(shí)現(xiàn)。

最近才發(fā)現(xiàn)原來(lái)nutch的搜索應(yīng)用中的一個(gè)的一個(gè)配置文件regex-urlfilter.txt ,里面默認(rèn)在后臺(tái)只爬取靜態(tài)頁(yè)面。所以導(dǎo)致我開(kāi)始的想法。

知道這個(gè)以后好辦了,修改后臺(tái)和前臺(tái)應(yīng)用的配置文件,消除對(duì)php/jsp/xxAction.do等動(dòng)態(tài)url的過(guò)濾:

方法如下:修改conf下面的2個(gè)文件regex-urlfilter.txt,crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

從而允許動(dòng)態(tài)傳參數(shù)的?=&等url的爬取。

換了個(gè)思路,省了不少事兒。nutch繼續(xù)研究使用中

【相關(guān)文章】

責(zé)任編輯:金賀 來(lái)源: ITEYE博客
相關(guān)推薦

2014-11-19 14:48:58

Nutch爬蟲(chóng)Lucene

2010-06-07 15:07:24

nutch+hadoo

2009-02-06 17:18:47

LionbridgFalconStor飛康

2009-09-21 17:06:26

CakePHP模型檢索數(shù)據(jù)

2010-07-16 15:42:32

SQL Server

2010-05-04 12:18:43

Oracle Text

2010-07-09 10:36:22

SQL Server

2012-03-14 11:38:16

ibmdw

2023-08-25 13:32:00

JavaScript虛擬DOM

2017-05-27 21:07:24

NFV網(wǎng)絡(luò)功能虛擬化數(shù)據(jù)中心

2014-10-31 09:48:36

Go語(yǔ)言

2023-08-02 08:02:30

Redis數(shù)據(jù)原生方法

2019-01-21 14:45:41

進(jìn)程crash源碼

2022-12-10 15:25:51

進(jìn)化歷程Vue

2009-01-05 10:06:24

草根站長(zhǎng)網(wǎng)站心路歷程

2010-11-01 06:38:03

Windows Ser

2013-09-11 14:00:16

Windows 8.1

2016-11-14 10:00:29

hadooplinux大數(shù)據(jù)

2013-04-24 10:24:03

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)