幾種常見的基于Lucene的開源搜索解決方案對比
一、直接使用 Lucene ( http://lucene.apache.org )
說明:Lucene 是一個 JAVA 搜索類庫,它本身并不是一個完整的解決方案,需要額外的開發(fā)工作。
優(yōu)點:成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續(xù)快速的進(jìn)步。龐大而活躍的開發(fā)社區(qū),大量的開發(fā)人員。它只是一個類庫,有足夠的定制和優(yōu)化空間:經(jīng)過簡單定制,就可以滿足絕大部分常見的需求;經(jīng)過優(yōu)化,可以支持 10億+ 量級的搜索。
缺點:需要額外的開發(fā)工作。所有的擴(kuò)展,分布式,可靠性等都需要自己實現(xiàn);非實時,從建索引到可以搜索中間有一個時間延遲,而當(dāng)前的“近實時”(Lucene Near Real Time search)搜索方案的可擴(kuò)展性有待進(jìn)一步完善。
二、Solr ( http://lucene.apache.org/solr/ )
說明:基于 Lucene 的企業(yè)級搜索的開箱即用的解決方案。
優(yōu)點:比較成熟的解決方案,也有很多的成功案例。Lucene 子項目,實現(xiàn)了大部分常見的搜索功能需求,包括 facet 搜索(搜索結(jié)果分類過濾)等。
缺點:可定制性比 Lucene 要差,一些不常見的需求,定制的難度比直接在 Lucene 上做要大的多。性能上,由于 Solr 的建索引和搜索是同一個進(jìn)程,耦合度比較高,對于性能調(diào)優(yōu)有一定的影響。
三、Katta ( http://katta.sourceforge.net/ )
說明:基于 Lucene 的,支持分布式,可擴(kuò)展,具有容錯功能,準(zhǔn)實時的搜索方案。
優(yōu)點:開箱即用,可以與 Hadoop 配合實現(xiàn)分布式。具備擴(kuò)展和容錯機(jī)制。
缺點:只是搜索方案,建索引部分還是需要自己實現(xiàn)。在搜索功能上,只實現(xiàn)了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復(fù)雜的查詢需求,定制的難度會比較大。
四、Hadoop contrib/index (http://svn.apache.org/repos/asf/hadoop/mapreduce/trunk/src/contrib/index/README )
說明:Map/Reduce 模式的,分布式建索引方案,可以跟 Katta 配合使用。
優(yōu)點:分布式建索引,具備可擴(kuò)展性。
缺點:只是建索引方案,不包括搜索實現(xiàn)。工作在批處理模式,對實時搜索的支持不佳。
五、LinkedIn 的開源方案 ( http://sna-projects.com/ )
說明:基于 Lucene 的一系列解決方案,包括 準(zhǔn)實時搜索 zoie ,facet 搜索實現(xiàn) bobo,機(jī)器學(xué)習(xí)算法 decomposer ,摘要存儲庫 krati ,數(shù)據(jù)庫模式包裝 sensei 等等。
優(yōu)點:經(jīng)過驗證的解決方案,支持分布式,可擴(kuò)展,豐富的功能實現(xiàn)。
缺點:與 linkedin 公司的聯(lián)系太緊密,可定制性比較差。
六、ElasticSearch ( http://www.elasticsearch.com/ )
說明:基于 Lucene 的,分布式,云端,提供 rest 接口的搜索解決方案。
優(yōu)點:開箱即用,分布式,rest 接口,支持云端調(diào)用。
缺點:一個新的項目,沒有經(jīng)過很多的驗證。(只有一個人在開發(fā)?)分片的數(shù)目不能動態(tài)調(diào)整,只能在初始化索引的時候指定(跟 HBase 不一樣的地方)。
七、Lucandra ( https://github.com/tjake/Lucandra )
說明:基于 Lucene,索引存在 cassandra 數(shù)據(jù)庫中。
優(yōu)點:參考 cassandra 的優(yōu)點。
缺點:參考 cassandra 的缺點。另外,這只是一個 demo,沒有經(jīng)過大量驗證。
八、HBasene ( https://github.com/akkumar/hbasene )
說明:基于 Lucene,索引存在 HBase 數(shù)據(jù)庫中。
優(yōu)點:參考 HBase 的優(yōu)點。
缺點:參考 HBase 的缺點。另外,在實現(xiàn)中,lucene terms 是存成行,但每個 term 對應(yīng)的 posting lists 是以列的方式存儲的。隨著單個 term 的 posting lists 的增大,查詢時的速度受到的影響會非常大。
原文鏈接:http://www.cnblogs.com/ibook360/archive/2011/12/05/2277054.html
【編輯推薦】
- 在Java中使用NIO進(jìn)行網(wǎng)絡(luò)編程
- Java漏洞影響國內(nèi)千萬電腦 360升級防護(hù)
- 從思路開始 Java如何實現(xiàn)條件編譯
- Java七步創(chuàng)建以JDBC連接數(shù)據(jù)庫的程序
- 面試Java前必須了解的10個概念