哪些企業(yè)在使用開源搜索平臺(tái)?
譯文【51CTO 5月9日外電頭條】推特、Facebook和美國(guó)國(guó)會(huì)圖書館,這三大機(jī)構(gòu)都擁有數(shù)量驚人的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),而且必須快速地索引和搜索這些數(shù)據(jù)。就拿推特來(lái)說(shuō),它每天需要索引的新信息大約就有3億則。
所以,也就難怪這些機(jī)構(gòu)大膽涉足看似處女地的開源搜索應(yīng)用軟件領(lǐng)域,不僅是為了節(jié)省成本,還在于能夠迅速定制和改動(dòng)應(yīng)用軟件。此外,開源技術(shù)擁有活躍的社區(qū),這有助于解決相關(guān)問(wèn)題。
但是其他企業(yè)用戶又怎樣呢?據(jù)知名調(diào)研機(jī)構(gòu)加特納集團(tuán)聲稱,如今一家典型企業(yè)中大約80%的信息是非結(jié)構(gòu)化信息,包括各種文本、電子郵件、博客和視頻,而這個(gè)比例在加大。所有這些數(shù)據(jù)可能蘊(yùn)含著價(jià)值;如今每一個(gè)網(wǎng)站查詢和提供相關(guān)結(jié)果的速度都應(yīng)該與最優(yōu)秀的互聯(lián)網(wǎng)搜索引擎一樣快。加特納集團(tuán)的分析師Whit Andrews說(shuō):“人們?cè)谌缃駨氖碌膸缀趺恳豁?xiàng)工作中都需要搜索技術(shù)。大家都認(rèn)為搜索功能將會(huì)嵌入到各個(gè)方面。”
眼下,大多數(shù)企業(yè)的搜索功能非常有限,這些功能通?;赟QL查詢或特定的表單或報(bào)告。他補(bǔ)充說(shuō):“這種模式很快難以為繼,因?yàn)閿?shù)據(jù)量實(shí)在太龐大了,數(shù)據(jù)量在24/7環(huán)境下在非常迅速地增加。”
重要的搜索功能
形形色色的企業(yè)都在開始探究開源搜索應(yīng)用軟件,以便了解自己收集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。Lucene Solr就是這樣一款產(chǎn)品,這個(gè)開源搜索平臺(tái)由總部設(shè)在加利福尼亞州圣馬特奧的軟件公司Lucid Imagination開發(fā)而成。
三年前,大家開始對(duì)開源搜索應(yīng)用軟件產(chǎn)生了濃厚的興趣。Olliance Group 是一家開源咨詢公司,也是Black Duck軟件公司旗下的部門。高級(jí)主管Greg Olson說(shuō):“Lucid Imagination也就是在那個(gè)時(shí)候成立的,其初衷是為開源軟件提供商業(yè)支持服務(wù)。這充分表明了主流用戶需要圍繞像Lucene這些新技術(shù)的服務(wù)或解決方案。”
Andrews表示,毫無(wú)疑問(wèn),Lucene面向大量使用搜索的用戶。“Lucene對(duì)于需要一款非常高級(jí)的搜索解決方案或產(chǎn)品的人來(lái)說(shuō)很重要。其典型的用戶是需要大規(guī)模應(yīng)用技術(shù)的廠商。這是使用Lucene的合適環(huán)境——你需要能夠搜索海量的信息。你不會(huì)看到Lucene用于內(nèi)聯(lián)網(wǎng)在下周四之前需要搜索的場(chǎng)合。”
另外幾家廠商提供較輕量級(jí)的搜索工具,它們基于同樣的Lucene開源技術(shù)。比如說(shuō),在線零售商Zappos.com就使用Lucene Solr,支持每個(gè)月多達(dá)6300萬(wàn)次的客戶查詢。但是在內(nèi)部,這家公司部署了開源搜索引擎Elasticsearch,“用于非網(wǎng)站關(guān)鍵系統(tǒng)或不受性能限制的服務(wù),”搜索團(tuán)隊(duì)負(fù)責(zé)人Aye Thu如是說(shuō)。
其他許多搜索應(yīng)用軟件開發(fā)商最近已被軟件巨擘們收購(gòu),這就讓人對(duì)它們的未來(lái)方向打上了問(wèn)號(hào)。2008年,微軟收購(gòu)了搜索應(yīng)用軟件Fast Search & Transfer,并且通過(guò)SharePoint供用戶使用。2011年8月,惠普收購(gòu)了總部設(shè)在英國(guó)的Autonomy公司;兩個(gè)月后,甲骨文宣布計(jì)劃收購(gòu)Endeca,這家公司提供非結(jié)構(gòu)化數(shù)據(jù)管理、互聯(lián)網(wǎng)商務(wù)和商業(yè)智能解決方案。
盡管這些軟件巨擘還沒(méi)有一個(gè)表明會(huì)停止支持剛收購(gòu)的搜索引擎,但是“一旦你的技術(shù)提供商被另一家公司收購(gòu),你就會(huì)惴惴不安——如果你是另一家技術(shù)提供商,更是緊張不安,”Andrews說(shuō)。
眼下,這使得Lucene Solr成為首屈一指的獨(dú)立企業(yè)搜索平臺(tái)。Lucid聲稱,Lucene Solr每月的下載量達(dá)到了200000份至300000份。
EMC正在借助Lucene Solr為其關(guān)系數(shù)據(jù)庫(kù)解決方案開發(fā)一款文本分析附件。EMC的研究主開發(fā)高級(jí)主管George Chitouras說(shuō):“如果你看一下企業(yè)搜索行業(yè),就會(huì)發(fā)現(xiàn)大多數(shù)傳統(tǒng)廠商不是被收購(gòu),就是無(wú)人問(wèn)津。在我看來(lái),眼下發(fā)展勢(shì)頭最強(qiáng)勁、國(guó)家隊(duì)迅速趨于成熟的技術(shù)就是Lucene Solr的技術(shù)。”
盡管EMC還沒(méi)有把開源搜索功能搬入到其自己的企業(yè),但是Chitouras表示,他發(fā)現(xiàn)這項(xiàng)技術(shù)在幾乎任何行業(yè)都有廣泛的應(yīng)用。他說(shuō):“任何大公司都可用于信息檢索,無(wú)論它是在進(jìn)行呼叫中心處理、客戶關(guān)系管理還是創(chuàng)新管理。”
開源方案
2011年年中,Lucid Imagination公司向企業(yè)用戶發(fā)布了LucidWorks,這款基于訂購(gòu)模式的企業(yè)級(jí)軟件包得到了開源搜索專家們的支持。如今,100家企業(yè)客戶在使用該產(chǎn)品。Lucid在今年2月還發(fā)布了一個(gè)基于云計(jì)算、搜索即服務(wù)的版本。
Lucid首席執(zhí)行官Paul Doscher認(rèn)為,三種需求在促使眾多機(jī)構(gòu)使用企業(yè)開源搜索產(chǎn)品。他說(shuō),首先,“人們想要使用高效的搜索技術(shù)來(lái)支撐自己的網(wǎng)站,但是他們又不想為高效搜索技術(shù)的基礎(chǔ)設(shè)施、管理和維護(hù)而操心。”LucidWorks連接至他們的網(wǎng)站,檢索數(shù)據(jù),在搜索框中提供響應(yīng)結(jié)果,“這種能力要比他們現(xiàn)有的功能高級(jí)得多,”Doscher補(bǔ)充說(shuō)。
其次,大企業(yè)想要有一個(gè)沙箱(sandbox)來(lái)開發(fā)原型應(yīng)用軟件,但又沒(méi)有相應(yīng)的開發(fā)專長(zhǎng)、基礎(chǔ)設(shè)施或硬件時(shí),紛紛求助于開源搜索技術(shù)。
第三,如果公司企業(yè)試圖進(jìn)一步挖掘目前擁有的數(shù)據(jù)的價(jià)值,可能會(huì)積極采用開源方案。Doscher表示,搜索即服務(wù)應(yīng)用軟件可能會(huì)吸引這些用戶。與Salesforce.com提供的應(yīng)用軟件相似的是,Lucid的云計(jì)算應(yīng)用軟件也讓用戶可以搜索其軟件即服務(wù)(SaaS)應(yīng)用軟件中的信息,然后更高效地搜索信息,或者將其與企業(yè)里面或外面網(wǎng)上的其他信息整合起來(lái)。Doscher說(shuō):“它可以作為應(yīng)用開發(fā)平臺(tái)來(lái)使用,以便開發(fā)更豐富、更高效的信息應(yīng)用軟件。”
Lucid的首席科學(xué)家Grant Ingersoll還認(rèn)為開源搜索技術(shù)有一些混合用途。他說(shuō):“你可以在自己的數(shù)據(jù)中心內(nèi)部提供自己的應(yīng)用軟件,但是之后可以把過(guò)多的功能提供給云環(huán)境支持的應(yīng)用軟件。”
Doscher表示,為了領(lǐng)先競(jìng)爭(zhēng)對(duì)手,Lucid Imagination打算進(jìn)軍商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,并且能夠與大數(shù)據(jù)技術(shù)集成起來(lái)。他說(shuō):“在一些情況下,如果你把傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)或商業(yè)智能這類應(yīng)用軟件搭建到Hadoop軟件平臺(tái)上,這簡(jiǎn)直好比拿來(lái)一只井蓋后,硬塞到花園澆水用的軟管里頭。”將開源搜索技術(shù)運(yùn)用到這些方面,有望減輕海量數(shù)據(jù)以及索引和搜索功能不夠強(qiáng)大帶來(lái)的壓力。
Doscher說(shuō),將來(lái),企業(yè)存儲(chǔ)的信息量“會(huì)多得嚇人”。開源搜索技術(shù)將有望應(yīng)對(duì)信息泛濫這種情況。
Doscher說(shuō):“我認(rèn)為,正如谷歌的搜索技術(shù)給互聯(lián)網(wǎng)帶來(lái)巨變那樣,像我們這樣的技術(shù)會(huì)給企業(yè)帶來(lái)巨變,因?yàn)橛兄谑蛊髽I(yè)里面的信息消費(fèi)化。最終,你將來(lái)能夠在企業(yè)里面執(zhí)行自然語(yǔ)言查詢,可以適用于企業(yè)運(yùn)行的所有不同的數(shù)據(jù)庫(kù)、應(yīng)用軟件和企業(yè)資源規(guī)劃(ERP)系統(tǒng)。這將讓人們可以針對(duì)感興趣的話題,立即獲得整合的、上下文相關(guān)的實(shí)時(shí)信息。”
原文: Open source search applications move toward the enterprise
【編輯推薦】