幾種開源網(wǎng)絡(luò)爬蟲的簡單比較
爬蟲里面做的***的肯定是google ,不過google公布的蜘蛛是很早的一個版本,下面是幾種開源的網(wǎng)絡(luò)爬蟲的簡單對比表:
還有其他的一些比如Ubicrawler、FAST Crawler、天網(wǎng)蜘蛛等等沒有添加進來。
之后主要研究下larbin爬蟲,如果有可能會給它添加一個刪除功能,因為其排重部分用的是bloom filter算法,這個算法的有點很明顯,對大規(guī)模數(shù)據(jù)的處理很快,性能很好,而且內(nèi)存占用很小,但是什么事都沒有盡善盡美的,該算法的直接缺點就是不能刪除,還會出現(xiàn)誤判情況。關(guān)于bloom filter有很多相關(guān)論文,網(wǎng)上也有些高質(zhì)量的文章,暫時不做累述,之后如果自己有不一樣的看法,再寫關(guān)于該算法的文章。
刪除功能的算法暫時還不太確定,需要進一步了解,現(xiàn)在了解的counting bloom filter不錯,帶來的代價是內(nèi)存占用高一點,園友們有什么建議和想法歡迎提出來哈!
原文鏈接:http://www.cnblogs.com/shapherd/archive/2011/03/16/crawler_cmp.html
【編輯推薦】