下一代搜索引擎呼之欲出:歐研發(fā)新瀏覽器
歐洲研究人員最近開發(fā)出一種語義網(wǎng)格瀏覽器,其能理解生命科學(xué)中的科學(xué)術(shù)語,也能自動(dòng)尋找額外的資源和服務(wù),這或許能發(fā)展為下一代智能搜索引擎。
生命科學(xué)界已為基因測序和疾病信息建立了眾多的數(shù)據(jù)庫,這些數(shù)據(jù)庫可以網(wǎng)格服務(wù)的形式提供給研究人員。歐盟對(duì)一個(gè)稱為Sealife的項(xiàng)目進(jìn)行了資助,該項(xiàng)目旨在設(shè)立一個(gè)語義網(wǎng)格瀏覽器,以更容易地為生命科學(xué)研究提供網(wǎng)格服務(wù)。
Sealife項(xiàng)目協(xié)調(diào)員、德國德累斯頓理工大學(xué)的邁克爾·施羅德說:“網(wǎng)格計(jì)算本質(zhì)上就是建立獨(dú)立于物理位置的虛擬組織。問題是如何將這些服務(wù)鏈接到可在網(wǎng)站上找到的其他科學(xué)信息。我們先有了網(wǎng)絡(luò),又有了擁有許多服務(wù)器的網(wǎng)格計(jì)算。一個(gè)語義網(wǎng)格瀏覽器則可將它們無縫地集成在一起。”
我知道你想要什么
語義網(wǎng)格瀏覽器會(huì)試圖理解其在網(wǎng)絡(luò)上發(fā)現(xiàn)的東西,解釋其內(nèi)容,然后鏈接至可能對(duì)用戶有用的服務(wù)器。Sealife語義瀏覽器的關(guān)鍵是語義超鏈接,它可通過顯示頁面將用戶引導(dǎo)到相關(guān)服務(wù)器。這個(gè)鏈接不是由網(wǎng)站而是由瀏覽器本身引導(dǎo)的。
首先,瀏覽器需要理解頁面的內(nèi)容,并識(shí)別出可能鏈接至網(wǎng)格服務(wù)器的術(shù)語。Sealife項(xiàng)目的一個(gè)典型的測試?yán)泳褪腔?。施羅德指出,每個(gè)人類基因平均有5.5個(gè)名字,如果它能夠被正確地識(shí)別,語義瀏覽器就能提供含有此基因更豐富信息的鏈接
瀏覽器還能處理模棱兩可的意思。譬如,“美洲虎”可能指的是一種動(dòng)物,也可能是一輛汽車,還可能是Mac操作系統(tǒng)。Sealife語義瀏覽器可使用專門的算法從頁面上的相關(guān)詞語來進(jìn)行判斷,并對(duì)其含義作出正確解釋。
雖然語義網(wǎng)格瀏覽器還稱不上是完備的科學(xué),但Sealife算法在與其他50個(gè)算法的國際競爭中已脫穎而出,其算法成功率高達(dá)87%%。
背景知識(shí)是基石
第二項(xiàng)挑戰(zhàn)則是使瀏覽器理解所需識(shí)別術(shù)語的背景知識(shí)。這些知識(shí)被稱為“本體論”(ontology),本體論本是哲學(xué)概念,它是研究存在的本質(zhì)的哲學(xué)問題。但近幾年,這個(gè)詞被應(yīng)用到計(jì)算機(jī)界,并在人工智能、計(jì)算機(jī)語言以及數(shù)據(jù)庫理論中扮演著越來越重要的角色。
在實(shí)現(xiàn)上,本體論是概念化的詳細(xì)說明,一個(gè)本體論往往就是一個(gè)正式的詞匯表,其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)專業(yè)詞匯及他們之間的關(guān)系。這一系列的基本概念如同一座大廈的基石,為交流各方提供了一個(gè)統(tǒng)一的認(rèn)識(shí)。
在這一系列概念的支持下,知識(shí)的搜索、積累和共享的效率將大大提高,真正意義上的知識(shí)重用和共享也成為可能。按照廣義分類法,生命科學(xué)就是語義網(wǎng)格瀏覽器的一個(gè)理想領(lǐng)域。所有這些建設(shè)有層次的分類系統(tǒng)的努力已成為生命科學(xué)世紀(jì)的核心。
但在生命科學(xué)之外,這樣的系統(tǒng)分類發(fā)展得還不盡如人意,Sealife項(xiàng)目已能從任何感興趣領(lǐng)域的已出版文字中創(chuàng)建編輯器來建設(shè)本體論。
施羅德說:“我們開發(fā)的算法可對(duì)此數(shù)據(jù)進(jìn)行仔細(xì)分析,確定關(guān)鍵概念,然后本體論編輯器會(huì)將這些概念提供給用戶。如果用戶同意,它就能搜索網(wǎng)站找到那些看起來與定義相像的內(nèi)容。建立這個(gè)背景知識(shí)的整個(gè)過程是不能完全自動(dòng)化的,但可大大緩解用戶在這個(gè)建立過程中的痛苦。”
Sealife項(xiàng)目的不同伙伴建立了各種版本的瀏覽器,這些伙伴分布在愛丁堡、曼徹斯特、倫敦、索菲亞—安蒂波利斯和德累斯頓。他們已在醫(yī)學(xué)、科學(xué)和專利文獻(xiàn)挖掘和分子生物學(xué)等3種情形下以傳染病為重點(diǎn)進(jìn)行了測試。
會(huì)發(fā)展為下一代搜索引擎嗎?
德累斯頓項(xiàng)目組成立的一家新公司在利用Sealife項(xiàng)目成果方面取得了很大成功。該公司已將瀏覽器銷售給像巴斯夫、聯(lián)合利華這樣的大客戶,其GoPubMed搜索引擎可鏈接至PubMed(美國國家醫(yī)學(xué)圖書館期刊文獻(xiàn)檢索系統(tǒng))中的生物醫(yī)學(xué)文獻(xiàn)檔案。
PubMed是美國家醫(yī)學(xué)圖書館(NLM)下屬的國家生物技術(shù)信息中心(NCBI)開發(fā)的、基于WWW的查詢系統(tǒng)。PubMed也包含著與提供期刊全文的出版商網(wǎng)址的鏈接,來自第三方的生物學(xué)數(shù)據(jù),測序中心的數(shù)據(jù)等等。PubMed提供與合成分子生物學(xué)數(shù)據(jù)庫的鏈接與接入服務(wù),這個(gè)數(shù)據(jù)庫的內(nèi)容包括:DNA與蛋白質(zhì)序列、基因圖數(shù)據(jù)、3D蛋白構(gòu)象及人類孟德爾遺傳在線等。
但是,沒有任何理由僅將語義瀏覽器的應(yīng)用局限在專業(yè)學(xué)術(shù)領(lǐng)域。我們能否擁有一個(gè)可理解一切的瀏覽器呢?施羅德認(rèn)為這看似有些牽強(qiáng),但也并非完全不可能。他說:“我們的目標(biāo)是要涵蓋任何領(lǐng)域,如果我們能將維基百科中的知識(shí)加以提取并程序化,我們就能擁有覆蓋所有領(lǐng)域的通用背景知識(shí)。”
許多研究人員正期待著下一代搜索引擎的問世,它們將能理解用戶想要尋找的東西,并返回比現(xiàn)今搜索引擎所能提供的更多的相關(guān)結(jié)果。這將涉及到信息的整合化,因?yàn)楹芏鄷r(shí)候問題的答案并不能在一個(gè)文件中全部找到。
研究人員稱,未來,背景知識(shí)將成為Sealife的核心。將語義引入搜索引擎可使其得以擴(kuò)展,如此,下一代搜索引擎的橫空出世也將不再遙遠(yuǎn)。
【編輯推薦】