社會化搜索的簡介
最近保持每天瀏覽2,3個新的創(chuàng)業(yè)網(wǎng)站的習(xí)慣。在這個過程中,我注意到一個現(xiàn)象,社會化搜索(Social Search)這個關(guān)鍵字多次出現(xiàn),關(guān)于Social Search, google 上有1.8億個網(wǎng)頁的搜索結(jié)果。也有超過40個網(wǎng)站號稱自己是社會化搜索 – 我想如果國內(nèi)的業(yè)內(nèi)人士注意到這個并且開始拷貝的話,這個數(shù)字應(yīng)該是400 個。此外,在百度搜索“社會化搜索”,結(jié)果大約只有一百萬個(2009年3月)。所以有必要做一點稍微深入的研究。
首先,需要定義社會化搜索 (social search)。
在Wiki里有這樣的定義:“Social searchor a social search engine is a type of web search method that determines the relevance of search results by considering the interactions or contributions of users” – 社會化搜索或者社會化搜索引擎是搜索結(jié)果考慮用戶的交互性和貢獻的一種網(wǎng)站搜索方法。
在百度百科里,對社會化搜索也有說明,但是基本算離題萬里的胡說八道。讀者可以自己點這里去看看。
當然,關(guān)于搜索我們不能忽略來自Google 的意見。這些意見大多來自著名的美女副總裁 --- Marissa Mayer。其中最著名的有兩份,一份來自 VentureBeat 的2008年1月的訪談,標題是“社會化搜索就是未來”,一份是2008年9月10日GOOGLE的名為“搜索的未來”的官方BLOG。中文版可以點這里。
在這些資料中,MM對社會化搜索的定義更加寬泛:“We believe social search is any search aided by a social interaction or a social connection…”我們相信社會化搜索是任何運用社會性交互和聯(lián)系來協(xié)助的搜索。
Wiki 的定義比較準確,但仍然沒有足夠考慮到社會化的因素。也許我們可以把它們合在一起,定義社會化搜索如下:
社會化搜索是指考慮了社會化因素例如交互,聯(lián)系,用戶行為模式等的網(wǎng)絡(luò)搜索方法。
社會化搜索的概念,起始于2004年,但是真的被重視和發(fā)展,是從2008年開始的。以這個美女副總裁自己為例:2007年8月,她說,還沒有看到社會化搜索的前景;2008年1月,開始說 社會化搜索就是未來;而08年9月,更發(fā)表了正式的搜索的未來的官方博客。
你可以喜歡任何顏色,但我們只提供黑色的車 -- 福特
搜索引擎大致可以劃分為三個階段:
l 純粹的機器算法階段:這個階段可以上溯到Y(jié)AHOO的第一個目錄,而Google 的PR,雖然有據(jù)說超過200 個參數(shù) – 比如鏈接數(shù)目,域名注冊時間等--的加權(quán)調(diào)整,目前能提供給用戶的搜索答案,仍然是千人一面的結(jié)果。無論你是非洲的黑人小孩,還是紐約的白人老頭。
l 基于用戶的算法(user-based)優(yōu)化:在這個階段,用戶的參與被加入考慮。運用的技術(shù)包括,專家打分,多用戶投票,META-TAG,點擊跟蹤技術(shù)等等。基本的思路是,用戶參與決定哪些搜索結(jié)果比較重要。類似的嘗試是Google+Digg. 很遺憾,搜索結(jié)果還是統(tǒng)一的唯一結(jié)果。而且還有一個問題:最熱門的答案,一定就是最準確的嗎?
l 個性化的搜索 (Subjective):每一個用戶,獲得不同的搜索結(jié)果。而社會化搜索,是其中的一個方向。這個個性化,可以來自如下的信息:
n 該用戶的個體搜索歷史 – 可以從Cookie 獲得
n 該用戶的行為,興趣模式 – 可以從社會化網(wǎng)絡(luò)獲得
n 用戶自己提供的興趣 – 用戶自己提供
在福特汽車的黑T時代,老福特可以只提供黑色的車。但是在門檻很低互聯(lián)網(wǎng)上,只提供黑色車的商業(yè)環(huán)境,正在被挑戰(zhàn)。就算Google 自己,也在致力于社會化搜索的研究。Google 也在廣告系統(tǒng)中開始試驗Cookie 和用戶自己提供信息的辦法。
從5W 說起
如果我們借用新聞的5W 概念,也許可以推導(dǎo)出后面的一個 HOW。
和目前所有人面對同一搜索結(jié)果相比,個性化的搜索需要搜索的結(jié)果來源于如下的信息:
l WHO:搜索引擎開始試圖理解屏幕前輸入查詢關(guān)鍵字的用戶是怎樣的人?;蛘呓惺袌黾毞?。一個期貨商搜索“天氣”和天文學(xué)家搜索“天氣”,背后關(guān)注的興趣點顯然不同。而這個社會身份的認定,來自于個人的網(wǎng)絡(luò)行為模式,搜索歷史和他參與,聯(lián)系的網(wǎng)絡(luò)人群。
在這里這個WHO,往往還具備了一個社會人的很多屬性。或者可以用消費者細分的幾個緯度來進行區(qū)隔。這些緯度包括:種族,文化,亞文化,職業(yè),年齡,性格,消費習(xí)慣等等。而很多信息,都可以從其它途徑例如FACEBOOK 里的好友,個人信息等獲得。
l WHEN: 很遺憾,目前的搜索結(jié)果是按照相關(guān)性排列的,而時間戳的問題一直沒有解決。我們知道,網(wǎng)絡(luò)廣告已經(jīng)可以提供按不同時間顯示不同內(nèi)容的服務(wù)了。但是在搜索結(jié)果上,如何做到與時俱進,還有待考慮。
l WHERE: 雖然有很多本地搜索和生活型網(wǎng)站的出現(xiàn),但如果搜索引擎能從IP 所在地,提供更相關(guān)的搜索結(jié)果,對相當多搜索者,是有用的。-- 百度前 CTO 說,本地搜索大約是搜索總量的40% 。
l WHY: 搜索是為了獲得答案。目前的基于分詞匹配技術(shù)的算法,不能理解問題背后的原因。換言之,不能理解“需求背后的需求”。在搜索引擎的發(fā)展方向上,語義理解或者說自然語言搜索一直是一個重要分支,但是進展不大,比較有名的是Powerset。社會化搜索,一般可以從who來推導(dǎo)這個why, 也有直接繞過文本分詞匹配的一些嘗試。