Google正在研究Web結(jié)構(gòu)化數(shù)據(jù)
互聯(lián)網(wǎng)的搜索引擎?zhèn)儼阎饕Χ挤旁诓杉疻eb頁面的文本信息上,但是Google卻在研究如何分析和組織結(jié)構(gòu)化數(shù)據(jù)方面小有所成,該公司的一位科學(xué)家上周五表示。
“在Web之外存在著大量的結(jié)構(gòu)化數(shù)據(jù),但我們卻并沒有很好地將這些數(shù)據(jù)展示給用戶?!痹隈R薩諸塞州技術(shù)研究院舉行的新英格蘭數(shù)據(jù)庫日會議中,Alon Halevy在一次談話中這樣說道。
Halevy還談到了所謂的“深Web”源,比如為Cars.com或者Realtor.com這類表單驅(qū)動型網(wǎng)站做后臺支撐的數(shù)據(jù)庫資源。Google一直都在不停的向各種表單提交查詢請求,然后對返回的結(jié)果進(jìn)行分析,最后將有用的內(nèi)容加入到索引當(dāng)中。
但是該公司仍然希望Web站點(diǎn)們能夠?qū)?shù)據(jù)存放到結(jié)構(gòu)化的表格中供google分析,Halevy說,例如在Web頁面上提供一個表格列舉出歷任美國總統(tǒng)。
但是這樣的表格也是數(shù)量巨大的,據(jù)Halevy說,Google的索引中已經(jīng)收錄了140億個。他“很快就意識到其中有超過98%的內(nèi)容是用戶不感興趣的,”但即使經(jīng)過了仔細(xì)的篩選之后,仍然有1億5400萬個表格值得被Google索引。
Google的一個終極目標(biāo)就是把一個搜索請求的結(jié)果組織成“各個方面”返回給用戶,特別是像“越南旅游”這種比較寬泛的關(guān)鍵字,而不是“越南人口”這種非常具體的關(guān)鍵字,Halevy說,前面的搜索請求可能會產(chǎn)生關(guān)于簽證條件、氣候、旅行團(tuán)等這類信息。
Kosmix已經(jīng)在做這個點(diǎn)子了,但是Google將會做的更多,Halevy說,“Kosmix的確能夠展示出‘方面’,但是它依賴于特定的信息源。”
在Kosmix上搜素“越南旅游”,它會給你提供一個結(jié)果集,包括紐約時報關(guān)于酒店的評論,來自雅虎和Flickr的圖片,來自Shopping.com的購物信息以及來自Google的其他信息。
“而我們則不同,各方面信息都來自于Web的搜索結(jié)果,但會以不同的方式組織起來?!盚alevy說。
【編輯推薦】