Nutch為什么不同:Nutch簡介
Nutch 是一個開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
盡管Web搜索是漫游Internet的基本要求, 但是現(xiàn)有web搜索引擎的數(shù)目卻在下降。并且這很有可能進(jìn)一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業(yè)利益。這顯然 不利于廣大Internet用戶。
Nutch為我們提供了這樣一個不同的選擇。相對于那些商用的搜索引擎, Nutch作為開放源代碼搜索引擎將會更加透明,從而更值得大家信賴。 現(xiàn)在所有主要的搜索引擎都采用私有的排序算法, 而不會解釋為什么一個網(wǎng)頁會排在一個特定的位置。除此之外, 有的搜索引擎依照網(wǎng)站所付的 費(fèi)用, 而不是根據(jù)它們本身的價(jià)值進(jìn)行排序。與它們不同,Nucth沒有什么需要隱瞞。也沒有 動機(jī)去扭曲搜索的結(jié)果, Nutch將盡自己***的努力為用戶提供***的搜索結(jié)果。
Nutch目前***的版本為version v2.2.1。
Nutch 致力于讓每個人能很容易, 同時花費(fèi)很少就可以配置世界***的Web搜索引擎. 為了完成這一宏偉的目標(biāo), Nutch必須能夠做到:
- 每個月取幾十億網(wǎng)頁
- 為這些網(wǎng)頁維護(hù)一個索引
- 對索引文件進(jìn)行每秒上千次的搜索
- 提供高質(zhì)量的搜索結(jié)果
組成
爬蟲crawler和查詢searcher。Crawler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁并為這些網(wǎng)頁建立索引。Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來產(chǎn)生查找結(jié)果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。
Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺上,例如將Crawler和Searcher分別放在兩個主機(jī)上,這樣可以提升性能。
爬蟲
Crawler的重點(diǎn)在兩個方面,Crawler的工作流程和涉及的數(shù)據(jù)文件的格式和含義。數(shù)據(jù)文件主要包括三類,分別是web database,一系列的segment加上index,三者的物理文件分別存儲在爬行結(jié)果目錄下的db目錄下webdb子文件夾內(nèi),segments文件夾和index文件夾。那么三者分別存儲的信息是什么呢?
一次爬行會產(chǎn)生很多個segment,每個segment內(nèi)存儲的是爬蟲Crawler在單獨(dú)一次抓取循環(huán)中抓到的網(wǎng)頁以及這些網(wǎng)頁的索引。Crawler爬行時會根據(jù)WebDB中的link關(guān)系按照一定的爬行策略生成每次抓取循環(huán)所需的fetchlist,然后Fetcher通過fetchlist中的URLs抓取這些網(wǎng)頁并索引,然后將其存入segment。Segment是有時限的,當(dāng)這些網(wǎng)頁被Crawler重新抓取后,先前抓取產(chǎn)生的segment就作廢了。在存儲中。Segment文件夾是以產(chǎn)生時間命名的,方便我們刪除作廢的segments以節(jié)省存儲空間。
Index是Crawler抓取的所有網(wǎng)頁的索引,它是通過對所有單個segment中的索引進(jìn)行合并處理所得的。Nutch利用Lucene技術(shù)進(jìn)行索引,所以Lucene中對索引進(jìn)行操作的接口對Nutch中的index同樣有效。但是需要注意的是,Lucene中的segment和Nutch中的不同,Lucene中的segment是索引index的一部分,但是Nutch中的segment只是WebDB中各個部分網(wǎng)頁的內(nèi)容和索引,***通過其生成的index跟這些segment已經(jīng)毫無關(guān)系了。
Web database,也叫WebDB,其中存儲的是爬蟲所抓取網(wǎng)頁之間的鏈接結(jié)構(gòu)信息,它只在爬蟲Crawler工作中使用而和Searcher的工作沒有任何關(guān)系。WebDB內(nèi)存儲了兩種實(shí)體的信息:page和link。Page實(shí)體通過描述網(wǎng)絡(luò)上一個網(wǎng)頁的特征信息來表征一個實(shí)際的網(wǎng)頁,因?yàn)榫W(wǎng)頁有很多個需要描述,WebDB中通過網(wǎng)頁的URL和網(wǎng)頁內(nèi)容的MD5兩種索引方法對這些網(wǎng)頁實(shí)體進(jìn)行了索引。Page實(shí)體描述的網(wǎng)頁特征主要包括網(wǎng)頁內(nèi)的link數(shù)目,抓取此網(wǎng)頁的時間等相關(guān)抓取信息,對此網(wǎng)頁的重要度評分等。同樣的,Link實(shí)體描述的是兩個page實(shí)體之間的鏈接關(guān)系。WebDB構(gòu)成了一個所抓取網(wǎng)頁的鏈接結(jié)構(gòu)圖,這個圖中Page實(shí)體是圖的結(jié)點(diǎn),而Link實(shí)體則代表圖的邊。
在創(chuàng)建一個WebDB之后(步驟1), “產(chǎn)生/抓取/更新”循環(huán)(步驟3-6)根據(jù)一些種子URLs開始啟動。當(dāng)這個循環(huán)徹底結(jié)束,Crawler根據(jù)抓取中生成的segments創(chuàng)建索引(步驟7-10)。在進(jìn)行重復(fù)URLs清除(步驟9)之前,每個segment的索引都是獨(dú)立的(步驟8)。最終,各個獨(dú)立的segment索引被合并為一個最終的索引index(步驟10)。
其中有一個細(xì)節(jié)問題,Dedup操作主要用于清除segment索引中的重復(fù)URLs,但是我們知道,在WebDB中是不允許重復(fù)的URL存在的,那么為什么這里還要進(jìn)行清除呢?原因在于抓取的更新。比方說一個月之前你抓取過這些網(wǎng)頁,一個月后為了更新進(jìn)行了重新抓取,那么舊的segment在沒有刪除之前仍然起作用,這個時候就需要在新舊segment之間進(jìn)行除重。
Nutch和Lucene
Nutch是基于Lucene的。Lucene為Nutch提供了文本索引和搜索的API。
一個常見的問題是:我應(yīng)該使用Lucene還是Nutch?
最簡單的回答是:如果你不需要抓取數(shù)據(jù)的話,應(yīng)該使用Lucene。
常見的應(yīng)用場合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個搜索頁面。在這種情況下,***的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用Lucene API 建立索引。
在你沒有本地?cái)?shù)據(jù)源,或者數(shù)據(jù)源非常分散的情況下,應(yīng)該使用Nutch。
在分析了Crawler工作中設(shè)計(jì)的文件之后,接下來我們研究Crawler的抓取流程以及這些文件在抓取中扮演的角色。Crawler的工作原理:首先Crawler根據(jù)WebDB生成一個待抓取網(wǎng)頁的URL集合叫做Fetchlist,接著下載線程Fetcher根據(jù)Fetchlist將網(wǎng)頁抓取回來,如果下載線程有很多個,那么就生成很多個Fetchlist,也就是一個Fetcher對應(yīng)一個Fetchlist。然后Crawler用抓取回來的網(wǎng)頁更新WebDB,根據(jù)更新后的WebDB生成新的Fetchlist,里面是未抓取的或者新發(fā)現(xiàn)的URLs,然后下一輪抓取循環(huán)重新開始。這個循環(huán)過程可以叫做“產(chǎn)生/抓取/更新”循環(huán)。
指向同一個主機(jī)上Web資源的URLs通常被分配到同一個Fetchlist中,這可防止過多的Fetchers對一個主機(jī)同時進(jìn)行抓取造成主機(jī)負(fù)擔(dān)過重。另外Nutch遵守Robots Exclusion Protocol,網(wǎng)站可以通過自定義Robots.txt控制Crawler的抓取。
在Nutch中,Crawler操作的實(shí)現(xiàn)是通過一系列子操作的實(shí)現(xiàn)來完成的。這些子操作Nutch都提供了子命令行可以單獨(dú)進(jìn)行調(diào)用。下面就是這些子操作的功能描述以及命令行,命令行在括號中。
1. 創(chuàng)建一個新的WebDb (admin db -create).
2. 將抓取起始URLs寫入WebDB中 (inject).
3. 根據(jù)WebDB生成fetchlist并寫入相應(yīng)的segment(generate).
4. 根據(jù)fetchlist中的URL抓取網(wǎng)頁 (fetch).
5. 根據(jù)抓取網(wǎng)頁更新WebDb (updatedb).
6. 循環(huán)進(jìn)行3-5步直至預(yù)先設(shè)定的抓取深度。
7. 根據(jù)WebDB得到的網(wǎng)頁評分和links更新segments (updatesegs).
8. 對所抓取的網(wǎng)頁進(jìn)行索引(index).
9. 在索引中丟棄有重復(fù)內(nèi)容的網(wǎng)頁和重復(fù)的URLs (dedup).
10. 將segments中的索引進(jìn)行合并生成用于檢索的最終index(merge).
原文出自:http://blog.csdn.net/u012965373/article/details/41113441