Web 2.0社交相關(guān)性排序算法探秘
FriendFeed最近推出了搜索功能,相信Facebook不久之后也會跟進(jìn)。
對社交網(wǎng)絡(luò)的“活動流(streams of activities,指人們在社交網(wǎng)絡(luò)中所從事的一系列活動信息)”進(jìn)行實(shí)時搜索是當(dāng)前的一大熱點(diǎn),包括谷歌和微軟在內(nèi)的所有互聯(lián)網(wǎng)企業(yè)都意識到,將自己信賴的人當(dāng)做過濾器來使用的價值所在。實(shí)時搜索曾一度被稱作社交搜索,如今它正在逐漸發(fā)展壯大。它將首先被用于“活動流”,隨后則會被應(yīng)用于整個網(wǎng)絡(luò)。
社交相關(guān)性排序算法(Social Relevancy Rank)即將誕生。屆時,當(dāng)你搜索“活動流”時,所得的結(jié)果不會再按照時間順序排列,而是會根據(jù)每條信息與用戶的“社交圖譜(social graph)”之間的相關(guān)性來排列。也就是說,那些與你關(guān)系更為緊密的人將會排在前面。這種模式的流程如何?實(shí)際上,需要通過一個算法,就像谷歌的Page Rank一樣。
以好友為依據(jù)
將你所關(guān)注的人排在搜索結(jié)果的前端是一種顯而易見的做法,但Twitter目前仍未采用?,F(xiàn)在,當(dāng)你在Twitter上搜索“Wilco”時,所得的結(jié)果會按照時間先后排列。這種方式其實(shí)并沒有很好的體現(xiàn)“相關(guān)性”,因?yàn)樗阉鹘Y(jié)果中的多數(shù)信息都來自于陌生人。但如果所列信息來自于你所關(guān)注的人,那么搜索結(jié)果就將更為有用。
Twitter目前并不支持這種模式,但FriendFeed卻已經(jīng)很好地采納了這一模式。FriendFeed會根據(jù)用戶的社交圖譜對搜索結(jié)果進(jìn)行過濾。對于FriendFeed而言,要做到這一點(diǎn)并不困難。一方面,它了解你所關(guān)注的人;另一方面,它會將高端feed搜索技術(shù)整合到了用戶的社交圖譜中。
這種方式聽起來很很棒,但也存在一個問題。搜索“Wilco”時,效果不錯,因?yàn)檫@支樂隊(duì)剛剛推出了新專輯,但是很多其他的關(guān)鍵詞卻無法返回任何結(jié)果。道理很簡單,你在Facebook上的好友以及在Twitter上所關(guān)注的人不可能對你所感興趣的每個話題都發(fā)表評論。問題在于數(shù)據(jù)稀疏,也就是缺乏可信賴的觀點(diǎn)。
尋找更多數(shù)據(jù)來源
很明顯,想要解決數(shù)據(jù)稀疏的問題就需要更多的數(shù)據(jù)。解決方案之一就是整合其他可信賴的資源,比如拓寬社交圖譜。例如,搜索結(jié)果所列的內(nèi)容未必來自于你直接關(guān)注的人,它還會包含那些你關(guān)注的人所關(guān)注的其他人。在Facebook中,就是所謂的“好友的好友”。你或許會認(rèn)為,自己并不熟悉這些人的觀點(diǎn),因而并不信任他們,但“六度分隔理論”表明,人們的社交圈都很小,因此,這類內(nèi)容通常會擁有相同的價值。
還有一種社交相關(guān)性排序算法是將興趣類似的人整合到一起,這也就是所謂的“興趣鄰居(taste neighbors)”。這種方法在垂直社交網(wǎng)絡(luò)中非常普遍,例如Last.fm、Flixster和Goodreads等。這些網(wǎng)絡(luò)都能夠幫助你了解,除好友之外還有哪些人與你類似。然而,這種運(yùn)算成本較高,而且非常耗時。如果Twitter要完成類似的功能,就需要根據(jù)人們所發(fā)布的鏈接和Twitter信息的語義來判定。即使這一問題非常棘手,但隨著時間的推移,應(yīng)該可以解決。
群體因素
除了使用社交圖譜的“第二度”和“興趣鄰居”外,社交相關(guān)性排序還可以為具有影響力的人賦予更高的權(quán)重。在缺乏任何其他衡量標(biāo)準(zhǔn)時,那些擁有數(shù)十萬名關(guān)注者的人有可能會比其他陌生人具備更高的相關(guān)性。使用關(guān)注者的數(shù)量來衡量剩余的“活動流”是一種不錯的方式。
總之,將來自陌生人的無數(shù)信息機(jī)械地整合在一起并非上策。正如人們很少會查看谷歌搜索***頁以后的內(nèi)容一樣,以時間順序排列的Twitter信息也將很快令人厭倦。社交相關(guān)性排序需要將群體的共同感受考慮進(jìn)來,以此來提供一種過濾標(biāo)準(zhǔn),從未為你提供更多的結(jié)果。
***算法
***的社交相關(guān)性排序算法并不存在,即使Page Rank也不夠***,但我們依然覺得它很有用。正如Page Rank在互聯(lián)網(wǎng)中所起的作用一樣,假以時日,社交相關(guān)性排序也將幫助我們了解社交網(wǎng)絡(luò)中無窮無盡的“活動流”的意義所在。這種排序?qū)ξ覀兞私夂糜训姆绞疆a(chǎn)生深遠(yuǎn)的影響。
假以時日,社交相關(guān)性排序還將改變通用網(wǎng)絡(luò)搜索。如今,通用網(wǎng)絡(luò)搜索的結(jié)果是自動根據(jù)相關(guān)性和新鮮度進(jìn)行排序的,一旦將社交相關(guān)性排序考慮進(jìn)去,搜索結(jié)果就將根據(jù)社交元素重新排序。
【編輯推薦】