自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

WOT講師馮揚(yáng):體系變化與用戶建模角度探索微博推薦

原創(chuàng)
開發(fā) 前端 架構(gòu)
51CTO主辦的高端技術(shù)峰會【W(wǎng)OT2015“互聯(lián)網(wǎng)+”時(shí)代大數(shù)據(jù)技術(shù)峰會】將于11月28日-29日在深圳盛大揭幕,42位業(yè)內(nèi)重量級嘉賓匯聚,重磅解析大數(shù)據(jù)技術(shù)的點(diǎn)睛應(yīng)用。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術(shù)干貨。

互聯(lián)網(wǎng),特別是移動(dòng)互聯(lián)網(wǎng)的到來,用戶可以在任何時(shí)間、任何地方,任何環(huán)境下生產(chǎn)、傳播和接收信息,這使得原本相對集中的行為和興趣變得碎片化和離散。在這樣的背景下,微博經(jīng)歷了六年的發(fā)展,其系統(tǒng)的架構(gòu)是怎樣演變的?微博中用戶的模型、維度、建模又是怎樣考慮的?今天由【W(wǎng)OT2015"互聯(lián)網(wǎng)+"時(shí)代大數(shù)據(jù)技術(shù)峰會】特邀講師、微博推薦開發(fā)技術(shù)專家馮揚(yáng)帶著我們從體系變化與用戶建模角度切入探索微博推薦。 

馮揚(yáng),微博推薦開發(fā)技術(shù)專家。目前,負(fù)責(zé)新浪微博搭建微博推薦平臺與建立針對推薦的用戶模型兩方面工作。前者是指在微博現(xiàn)有的技術(shù)基礎(chǔ)和分層架構(gòu)上,設(shè)計(jì)微博的標(biāo)準(zhǔn)化推薦架構(gòu),搭建推薦平臺,解決推薦業(yè)務(wù)中物料和特征數(shù)據(jù)接入、推薦計(jì)算、模型訓(xùn)練、橫向?qū)Ρ鹊确矫娴膯栴};后者是針對微博推薦業(yè)務(wù)中所需的基礎(chǔ)數(shù)據(jù),尤其是用戶相關(guān)的基礎(chǔ)數(shù)據(jù)挖掘,為推薦服務(wù)。

【職場經(jīng)歷】

2010年底從北京理工大學(xué)博士畢業(yè),專業(yè)是信息安全與對抗。

2011年4月走上工作崗位,第一家公司就是新浪微博,從這個(gè)時(shí)候開始接社交媒體和推薦系統(tǒng),在這段時(shí)間中建立了對微博的業(yè)務(wù)形態(tài)、數(shù)據(jù)特性、社交媒體的推薦特點(diǎn)和主要技術(shù)手段的認(rèn)識;

2013年的5月離開新浪微博,加入騰訊TEG下的社區(qū)搜索部,這個(gè)部門是屬于騰訊SOSO業(yè)務(wù)。在這期間主要從事問答社區(qū)的推薦系統(tǒng)構(gòu)建;同年11月,騰訊注資搜狗,并將SOSO業(yè)務(wù)和技術(shù)人員輸送給搜狗,隨之進(jìn)入搜狗公司,業(yè)務(wù)方向保持不變;

2014年9月,在老同事的邀請下,回到新浪微博,加入微博的商業(yè)平臺及產(chǎn)品部至今。

51CTO:微博推薦發(fā)展的過程中遇到過那些體系方向的變化?在微博推薦系統(tǒng)的架構(gòu)上又經(jīng)歷了怎樣的演變?

馮揚(yáng):其實(shí)微博推薦的發(fā)展過程也是一個(gè)不斷迭代和試錯(cuò)的過程,并且是隨著微博自身的發(fā)展而演變的。

在初期,大概從2009年微博上線到2011年左右,微博主要集中在用戶擴(kuò)充和業(yè)務(wù)擴(kuò)展,無論是從用戶數(shù)量、UGC內(nèi)容的產(chǎn)生、用戶互動(dòng)行為、內(nèi)容傳播等方面都處于一個(gè)高速的增長階段。這個(gè)時(shí)期里面,推薦對于微博來說重要性并不高,推薦也主要是集中在基礎(chǔ)數(shù)據(jù)挖掘和提供方面,這個(gè)時(shí)候微博推薦還談不上體系,是作為一個(gè)支撐性的團(tuán)隊(duì)存在。這個(gè)階段產(chǎn)生了很多的分析方法和基礎(chǔ)數(shù)據(jù),例如這個(gè)階段已經(jīng)開始的用戶興趣分析、分類體系構(gòu)建、二度關(guān)系計(jì)算、親密度計(jì)算、后來作為Lab_common內(nèi)核基礎(chǔ)的woo,還有解決各種動(dòng)靜態(tài)存儲問題的db……這個(gè)時(shí)期可以稱作微博推薦的工具型產(chǎn)品時(shí)期。

2011年以后到2012年,對于微博來說很特別,因?yàn)橹拔⒉┮恢痹谏缃痪W(wǎng)絡(luò)和社交媒體的定位之間搖擺,但是2011年微信出現(xiàn),并且在隨后的9個(gè)月內(nèi)飛速發(fā)展,對比微信和微博,最大的區(qū)別在于微信是一個(gè)對等的兩兩互相認(rèn)證的關(guān)系網(wǎng)絡(luò),而微博則是一個(gè)非對等的無相互認(rèn)證的關(guān)系網(wǎng)絡(luò),這個(gè)區(qū)別導(dǎo)致了微信中用戶之間的信任度更強(qiáng),而微博中信息的傳播效率更高,很顯然微博的媒體屬性更強(qiáng),定位為社交媒體更適合。而對于一個(gè)社交媒體而言,用戶接收和傳播信息更偏向于興趣而不是信任,推薦的作用顯現(xiàn)出來。此時(shí)微博推薦的場景也逐漸豐富,出現(xiàn)了許多推薦產(chǎn)品,例如:正文頁推薦、話題推薦、感興趣的人、電影推薦、音樂推薦、熱門推薦……甚至在這個(gè)時(shí)期還嘗試了對feed流的改造。推薦技術(shù)體系基本形成了“推薦挖掘 + 推薦計(jì)算”兩個(gè)層面:推薦挖掘負(fù)責(zé)從微博平臺中挖掘目標(biāo)用戶和優(yōu)質(zhì)物料,包括用戶質(zhì)量評價(jià)、傳播力計(jì)算、親密度計(jì)算、二度關(guān)系計(jì)算、標(biāo)簽傳播、熱門微博挖掘、精品微博挖掘……;推薦計(jì)算負(fù)責(zé)物料的推薦和投放,包括構(gòu)建線上推薦系統(tǒng)、數(shù)據(jù)存儲及訪問方案、反饋和效果監(jiān)控……這個(gè)時(shí)期可以稱作微博推薦的產(chǎn)品群時(shí)期。特點(diǎn)是業(yè)務(wù)和數(shù)據(jù)多樣,推薦系統(tǒng)和產(chǎn)品豐富,但是系統(tǒng)規(guī)模都不大,通用性不強(qiáng)。 

從2013年到現(xiàn)在,微博進(jìn)入了一個(gè)相對穩(wěn)定的時(shí)期,以前的爆發(fā)式增長放緩,忠實(shí)用戶也沉淀下來,對微博的使用以及在微博平臺上的行為有了相對固定的模式,并且微博從2013年開始提出了商業(yè)化的目標(biāo),這個(gè)時(shí)候?qū)ξ⒉┩扑]效率和效果上的要求提高了。在此背景下,如何充分利用現(xiàn)有的流量和用戶資源,讓信息更高效地傳播和讓關(guān)系更多的締結(jié)成為了微博推薦需要解決的問題。這個(gè)時(shí)候,我們之前構(gòu)建的單點(diǎn)分散的推薦產(chǎn)品群就顯得不那么合適了,有三個(gè)理由:(1)因?yàn)榉稚ⅲ行﹥?yōu)質(zhì)的資源無法充分利用;(2)不同場景不同物料的效果無法比較;(3)系統(tǒng)通用性差,重復(fù)性開發(fā)任務(wù)過多。

首先,我們想到的是分層,先解決第三個(gè)問題,誕生了微博推薦系統(tǒng)的三層結(jié)構(gòu),即:負(fù)責(zé)數(shù)據(jù)存儲和訪問以及基礎(chǔ)資源挖掘的數(shù)據(jù)層,負(fù)責(zé)在線推薦計(jì)算的計(jì)算層,負(fù)責(zé)對外提供接口的應(yīng)用層。處于各層的研發(fā)人員只需要關(guān)心各自的任務(wù)。例如應(yīng)用層采用Lua + Ngix架構(gòu),開發(fā)者只需要關(guān)系接口適配就ok了;計(jì)算層利用Lab_commom為開發(fā)框架,所有的功能都so化,邏輯在各自的模塊中完成;數(shù)據(jù)層基于Redis和Lushan提供動(dòng)、靜態(tài)數(shù)據(jù)存儲和訪問,并且通過Rin和R9-interface分別解決流式數(shù)據(jù)的接入和與集群的對接。分層相當(dāng)于是微博推薦系統(tǒng)的縱向抽象,解決了第三個(gè)問題,但是還需要解決前兩個(gè)。那么我們在分層的基礎(chǔ)上對推薦本身進(jìn)行抽象,將推薦這件事情抽象成 “候選”“排序”“接口”三個(gè)部分,在推薦系統(tǒng)的架構(gòu)設(shè)計(jì)上,考慮對這三個(gè)部分的標(biāo)準(zhǔn)化,令分散的推薦業(yè)務(wù)接入到標(biāo)準(zhǔn)化的推薦系統(tǒng)中,物料在不同場景下互相競爭,既可以互相比較,也充分利用資源?;谶@種思路,我們在分層的基礎(chǔ)上設(shè)計(jì)了新的微博推薦系統(tǒng)架構(gòu),由負(fù)責(zé)候選的Artemis、排序計(jì)算的Eros、負(fù)責(zé)統(tǒng)一推薦接口的Hestia構(gòu)成。在層次上,Hestia處于應(yīng)用層,Artemis和Eros處于計(jì)算層和數(shù)據(jù)層,充分利用分層結(jié)構(gòu)的已有技術(shù)成果,同時(shí)提供標(biāo)準(zhǔn)化的推薦計(jì)算和輸入輸出。目前微博的推薦系統(tǒng)架構(gòu)已經(jīng)有了標(biāo)準(zhǔn)化平臺化的概念,可以說現(xiàn)在處于平臺化階段。

51CTO:新浪微博中通過屬性、興趣、社交、行為等維度給用戶建模,具體是如何做的

馮揚(yáng):首先我們來看看微博用戶模型的維度劃分。屬性維度和興趣維度屬于用戶畫像范疇,區(qū)別在于前者刻畫用戶的靜態(tài)屬性特征,例如想性別、年齡、受教育程度、學(xué)校、工作單位……等身份和人口信息,后者用于刻畫用戶在信息篩選方面的傾向,通常指興趣標(biāo)簽,這兩個(gè)維度主要是針對用戶的個(gè)體角度而言,體現(xiàn)的是用戶個(gè)性特征;社交維度則是從關(guān)系和信息傳播的角度來刻畫用戶,在社交媒體里面用戶以及用戶之間的社交關(guān)系構(gòu)成了一張網(wǎng)絡(luò),信息在這張網(wǎng)絡(luò)中高速流動(dòng),但是這種流動(dòng)并不是無差別的,信息的起始點(diǎn),所經(jīng)歷的關(guān)鍵節(jié)點(diǎn)以及這些節(jié)點(diǎn)構(gòu)成的關(guān)系圈都是影響信息流動(dòng)的重要因素,社交維度就是要量化這些因素以及其影響程度;行為維度則是通過發(fā)現(xiàn)影響用戶屬性、信息變化的行為因素,分析典型用戶群體的行為模式,是一種對用戶群體行為的刻畫。可以說這么來劃分維度,基本上涵蓋了從“個(gè)體表達(dá)”到“關(guān)系描述”以及“群體刻畫”。

用戶屬性指相對靜態(tài)和穩(wěn)定,用戶屬性信息的收集和建立主要依靠產(chǎn)品本身的引導(dǎo)、調(diào)查、第三方提供等。微博本身就有比較完整的用戶注冊引導(dǎo)、用戶信息完善任務(wù)、認(rèn)證用戶審核、以及大量的合作對象等,在收集和清洗用戶屬性的過程中,需要注意的主要是標(biāo)簽的規(guī)范化以及不同來源信息的交叉驗(yàn)證。

用戶興趣則是更加動(dòng)態(tài)和易變化的特征,受到人群、環(huán)境、熱點(diǎn)事件、行業(yè)……等方面的影響,一旦這些因素發(fā)生變化,用戶的興趣容易產(chǎn)生遷移,并且,用戶的行為(特指在互聯(lián)網(wǎng)上的行為)多樣且碎片化,不同行為反映出來的興趣差異較大,并且用戶具有某方面的興趣只代表了他愿意接受這方面的信息,并不能代表他具有產(chǎn)生相關(guān)內(nèi)容的能力。那么在興趣維度,我們主要集中解決四個(gè)方面的問題:(1)用戶興趣標(biāo)簽收集:包括從用戶自標(biāo)簽、達(dá)人或認(rèn)證標(biāo)簽、公司、學(xué)校、微群標(biāo)簽、星座、微博關(guān)鍵詞等各個(gè)與用戶相關(guān)的地方收集用戶興趣標(biāo)簽,此外,還利用標(biāo)簽傳播去收集用戶標(biāo)簽;(2)興趣標(biāo)簽的權(quán)重計(jì)算:考慮了不同標(biāo)簽來源的用戶質(zhì)量,標(biāo)簽的傳遞路徑,轉(zhuǎn)發(fā)關(guān)系,標(biāo)簽的本身是否長尾,以及標(biāo)簽與用戶之間的共現(xiàn)關(guān)系等等,不同的因素會賦予不同的權(quán)重,最后融合為標(biāo)簽權(quán)重;(3)時(shí)效性:有兩個(gè)方面的考慮,一個(gè)是興趣隨時(shí)間衰減,標(biāo)簽權(quán)重會疊加上時(shí)間衰減,另一個(gè)是考慮長短期興趣,通過設(shè)定不同的時(shí)間窗口來提取長期興趣和短期興趣;(4)從用戶興趣到用戶能力:主要采用類似于HITS的方法,將微博中的關(guān)注關(guān)系當(dāng)作一種認(rèn)證,那么被具有某個(gè)興趣標(biāo)簽的用戶認(rèn)證得最多的用戶,被認(rèn)為在這個(gè)興趣標(biāo)簽上具有最強(qiáng)能力。

關(guān)系維度上的模型比較多,微博中非對等的社交關(guān)系導(dǎo)致微博的關(guān)系網(wǎng)絡(luò)實(shí)際上構(gòu)成了一個(gè)有向圖,我們遵循著“個(gè)體”“關(guān)聯(lián)”“相似”“群體”的思路逐步深入地建立用戶關(guān)系模型,全面刻畫這個(gè)關(guān)系網(wǎng)絡(luò)。在“個(gè)體”角度,通過PageRank的思想計(jì)算用戶的傳播力,衡量不同用戶個(gè)體在信息傳播過程中的不同重要性;在“關(guān)聯(lián)”角度,利用用戶行為和關(guān)系類型計(jì)算用戶之間的親密度,衡量具有直接關(guān)系的用戶之間的關(guān)系遠(yuǎn)近程度,相當(dāng)于計(jì)算了有向圖上邊的權(quán)重,并且利用二度關(guān)系去拓展用戶關(guān)系,讓本身不存在直接關(guān)系的用戶間產(chǎn)生關(guān)聯(lián);在“相似”的角度,主要是基于協(xié)同的思想,構(gòu)建用戶關(guān)系矩陣,計(jì)算用戶關(guān)注相似性和粉絲相似性,類似于協(xié)同過濾中的User-based和Item-based,在不引入用戶屬性的基礎(chǔ)上,僅僅通過用戶之間的關(guān)系認(rèn)證來推測用戶之間的相似性;在“群體”方面,主要是識別用戶關(guān)系圈,基于關(guān)系網(wǎng)絡(luò)內(nèi)部自身的結(jié)構(gòu),采用圖切分的方法,將具有某種緊密關(guān)聯(lián)但不一定兩兩存在關(guān)系的用戶劃分到一起,形成關(guān)系圈。

在行為維度上,一個(gè)是針對典型個(gè)體行為進(jìn)行時(shí)序分析,另一個(gè)是針對典型群體進(jìn)行統(tǒng)計(jì)分析。針對典型個(gè)體,追蹤該個(gè)體在不同成長階段的行為,分析用戶成長的主要影響因素和關(guān)鍵行為;針對群體則是根據(jù)用戶當(dāng)前所處的成長階段將用戶按成長程度劃分成不同的群體,分析這些群體的行為特征,構(gòu)成群體行為模式。

51CTO:上述的用戶模型應(yīng)用場景和方式有哪些?做精準(zhǔn)推送的時(shí)候從那幾個(gè)角度出發(fā)?

馮揚(yáng):用戶模型主要解決推薦中的“候選”問題,即在什么場景下可以給哪個(gè)用戶推薦什么物料,應(yīng)用的方式和場景非常豐富。這里舉幾個(gè)典型的例子:

同公司、同學(xué)校、同地區(qū)、異性等用戶推薦就利用了屬性維度的用戶模型;將與你具有相同興趣,或者將具有你興趣方面能力的用戶推薦給你,將你可能感興趣的微博推薦給你,這些是利用了興趣維度的用戶模型;將你關(guān)注的用戶的關(guān)注推薦給你(關(guān)注的關(guān)注),是利用了關(guān)系維度上的二度關(guān)系模型;熱門推薦本質(zhì)上是利用傳播力模型去計(jì)算微博的熱度;將與你具有相似粉絲的用戶發(fā)布的微博推薦給你,是利用了關(guān)系協(xié)同里面的粉絲相似性;推薦好友贊過的微博、你錯(cuò)過的微博、以及用戶推薦中實(shí)時(shí)反饋等推薦等,則是由于通過用戶行為挖掘,發(fā)現(xiàn)活躍用戶具有贊同好友觀點(diǎn),閱讀過往錯(cuò)過微博,以及下一行為為與上一步行為極其相似的行為模式,基于這些行為模式而設(shè)計(jì)的推薦場景。

可以看到用戶模型在推薦中非常重要,在運(yùn)用這些維度的模型時(shí),很關(guān)鍵一點(diǎn)是解決不同模型的競爭和融合。先說競爭,在一個(gè)推薦場景下,基于不同的用戶模型是可以產(chǎn)生不同的候選物料,那么究竟采用哪些候選物料,這就是競爭;此外,對于同一個(gè)候選物料,基于各種模型得到的評價(jià)可能不一樣,在某個(gè)模型下評價(jià)分值較高,而在另一個(gè)模型下評價(jià)分值較低,如何對這節(jié)評價(jià)值進(jìn)行綜合計(jì)算,這就是融合。那么無論是競爭還是融合,都可以將其視作一種排序計(jì)算,或者作為排序模型的特征。在做精準(zhǔn)推薦的時(shí)候,出發(fā)點(diǎn)還是效果,用轉(zhuǎn)換率評價(jià),就是通常說的CTR(點(diǎn)擊率)或RPM(千次達(dá)成)。不同的競爭策略和融合方法通過線下的日志回放,線上的AB-Test進(jìn)行比較,選取效果最優(yōu)的。

51CTO:新浪微博推薦技術(shù)的目標(biāo)是什么?目前達(dá)到了怎樣的效果?

馮揚(yáng):微博推薦技術(shù)的短期目標(biāo)分為系統(tǒng)和挖掘兩個(gè)層面,系統(tǒng)方面的目標(biāo)是平臺化,我們正處于這個(gè)時(shí)期。所謂平臺化是指設(shè)計(jì)泛化的推薦架構(gòu)體系,抽象推薦中業(yè)務(wù)無關(guān)的步驟,采用通用的模塊進(jìn)行實(shí)現(xiàn),而對于業(yè)務(wù)相關(guān)的步驟,提供標(biāo)準(zhǔn)的數(shù)據(jù)和業(yè)務(wù)接入規(guī)范、工具和流程,減少業(yè)務(wù)開發(fā)人員的工作量,為算法研究人員提供標(biāo)準(zhǔn)訓(xùn)練集和線上對比環(huán)境,為產(chǎn)品人員提供快速直觀的效果追蹤和策略調(diào)整條件;挖掘?qū)用娴哪繕?biāo)是構(gòu)建完整的用戶模型,搭建自動(dòng)規(guī)范的挖掘計(jì)算流程。從推薦效果出發(fā),提升微博的用戶價(jià)值。

采訪最后,馮老師表示,微博推薦技術(shù)當(dāng)前處于平臺化時(shí)期,已經(jīng)完成的Artemis、Eros、Hestia都是平臺化目標(biāo)的落地,并正逐漸將已有的微博推薦業(yè)務(wù)接入到由這三個(gè)系統(tǒng)構(gòu)成的微博推薦平臺,用戶模型的構(gòu)建大部分也進(jìn)入了自動(dòng)流程搭建的階段。后續(xù)的工作主要在于為適應(yīng)更多的推薦業(yè)務(wù)對平臺進(jìn)行完善,用戶模型的持續(xù)更新和基于模型的二次挖掘,模型的應(yīng)用以及與平臺的結(jié)合,技術(shù)輸出等方面。

51CTO主辦的高端技術(shù)峰會【W(wǎng)OT2015“互聯(lián)網(wǎng)+”時(shí)代大數(shù)據(jù)技術(shù)峰會】將于11月28日-29日在深圳盛大揭幕,42位業(yè)內(nèi)重量級嘉賓匯聚,重磅解析大數(shù)據(jù)技術(shù)的點(diǎn)睛應(yīng)用。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術(shù)干貨。

WOT2015更多訪談

 

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2015-12-29 10:32:04

新浪微博廣告推薦

2015-07-07 08:58:19

WOT2015新浪微博王傳鵬

2016-12-29 10:32:06

2015-09-24 18:08:50

微博架構(gòu)架構(gòu)演進(jìn)架構(gòu)

2015-03-11 15:08:25

2015WOT峰會應(yīng)用性能監(jiān)控與管理

2015-11-13 09:34:04

2013-10-10 09:05:26

新浪微博Redishadoop

2015-03-06 09:52:13

2015WOT峰會開源運(yùn)維工具研發(fā)與實(shí)踐

2015-03-05 09:42:56

2018-04-02 11:38:46

秦五一

2016-08-11 10:09:01

Wrtnode羅未WOT大會

2015-11-24 10:22:08

wot360

2018-06-15 09:59:02

WOT史揚(yáng)邊緣計(jì)算

2023-08-31 07:30:09

AIGC代碼監(jiān)測

2018-05-07 17:54:08

IoT邊緣計(jì)算

2012-10-26 11:12:22

WOT云計(jì)算架構(gòu)師

2015-10-14 18:06:47

大數(shù)據(jù)測試團(tuán)隊(duì)運(yùn)維

2015-06-02 16:16:17

mysql優(yōu)化mysql讀寫分離mysql主從復(fù)制

2016-11-02 10:44:56

AdMasterNoSQLLambda

2015-03-06 11:18:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號