新浪微博王傳鵬:認(rèn)識(shí)每一個(gè)“你” 微博中的用戶模型
原創(chuàng)【講師簡(jiǎn)介】
王傳鵬,新浪微博推薦及廣告技術(shù)總監(jiān)。2006年從北航畢業(yè),然后加入霍尼韋爾北京研中心做工程,之后同合伙人一起創(chuàng)辦云存儲(chǔ)網(wǎng)絡(luò)硬盤(99盤)。在公司被收購(gòu)后,加入當(dāng)當(dāng)網(wǎng)負(fù)責(zé)推薦和廣告工作。于2011年加入新浪微博商業(yè)產(chǎn)品部,負(fù)責(zé)推薦和廣告,直至現(xiàn)在。
馮揚(yáng),微博推薦開發(fā)技術(shù)專家。目前,負(fù)責(zé)新浪微博搭建微博推薦平臺(tái)與建立針對(duì)推薦的用戶模型兩方面工作。前者是 指在微博現(xiàn)有的技術(shù)基礎(chǔ)和分層架構(gòu)上,設(shè)計(jì)微博的標(biāo)準(zhǔn)化推薦架構(gòu),搭建推薦平臺(tái),解決推薦業(yè)務(wù)中物料和特征數(shù)據(jù)接入、推薦計(jì)算、模型訓(xùn)練、橫向?qū)Ρ鹊确矫?的問(wèn)題;后者是針對(duì)微博推薦業(yè)務(wù)中所需的基礎(chǔ)數(shù)據(jù),尤其是用戶相關(guān)的基礎(chǔ)數(shù)據(jù)挖掘,為推薦服務(wù)。
【演講干貨】
王傳鵬在演講一開始,就像大家說(shuō)明由于微博推薦開發(fā)技術(shù)專家馮揚(yáng)家里有私事不能參加,由他來(lái)進(jìn)行此次的演講。此次演講的主題由微博用戶模型的維度劃分、建模目標(biāo)和方法、用戶模型在微博推薦中的應(yīng)用三部分組成。
微博用戶模型的維度劃分如下圖:
用戶屬性&用戶興趣(用戶畫像)
用戶畫像
屬性和興趣維度的用戶模型都可以歸入用戶畫像(User Profile)的范疇,即對(duì)用戶的信息進(jìn)行標(biāo)簽化。一方面,標(biāo)簽化是對(duì)用戶信息進(jìn)行結(jié)構(gòu)化,方便計(jì)算機(jī)的識(shí)別和處理;另一方面,標(biāo)簽本身也具有準(zhǔn)確性和非二義性,也有利于人工的整理、分析和統(tǒng)計(jì)。
興趣維度
用戶屬性指相對(duì)靜態(tài)和穩(wěn)定的人口屬性,例如:性別、年齡區(qū)間、地域、受教育程度、學(xué)校、公司……這些信息的收集和建立主要依靠產(chǎn)品本身的引導(dǎo)、調(diào)查、第三方提供等,在此基礎(chǔ)上需要進(jìn)行補(bǔ)充和交叉驗(yàn)證。
用戶興趣則是更加動(dòng)態(tài)和易變化的特征,首先興趣受到人群、環(huán)境、熱點(diǎn)事件、行業(yè)……等方面的影響,一旦這些因素發(fā)生變化,用戶的興趣容易產(chǎn)生遷移;其次,用戶的行為(特指在互聯(lián)網(wǎng)上的行為)多樣且碎片化,不同行為反映出來(lái)的興趣差異較大,在用戶興趣分析的過(guò)程中,主要考慮如下幾個(gè)方面:
(1) 標(biāo)簽來(lái)源:不是所有的詞都適合充當(dāng)用戶標(biāo)簽,這些詞本身應(yīng)該具有區(qū)分性和非二義性;此外,還需要考慮來(lái)源的全面性,除了用戶主動(dòng)提供的興趣標(biāo)簽外,用戶在使用微博的過(guò)程中的行為,構(gòu)建的用戶關(guān)系等也能夠反應(yīng)用戶的興趣,因此也要將其考慮在內(nèi)。
(2) 權(quán)重計(jì)算:得到了用戶的興趣標(biāo)簽,還需要針對(duì)用戶給這些標(biāo)簽進(jìn)行權(quán)重賦值,用來(lái)區(qū)分不同標(biāo)簽對(duì)于該用戶的重要程度。
(3) 時(shí)效性:隨著時(shí)間的變化,用戶的興趣會(huì)發(fā)生轉(zhuǎn)移,有些興趣會(huì)貫穿用戶使用社交媒體的全過(guò)程,而有些興趣則是受熱點(diǎn)時(shí)間、環(huán)境因素等的影響。
(4) 興趣和能力的區(qū)分:用戶具有某方面的興趣,只代表了他愿意接受這方面的信息,并不能代表他具有產(chǎn)生相關(guān)內(nèi)容的能力。區(qū)分興趣和能力,能有助于預(yù)測(cè)興趣相關(guān)內(nèi)容潛在的生產(chǎn)者和傳播者。
社交關(guān)系模型
關(guān)系維度
如果將微博中的用戶視作節(jié)點(diǎn),用戶之間的關(guān)系視作節(jié)點(diǎn)之間的邊,那么這些節(jié)點(diǎn)和邊將構(gòu)成一個(gè)社交的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),或稱作社交圖譜。微博中的信息就是在這個(gè)圖譜上進(jìn)行傳播。
從社交的維度建立用戶模型,需要從不同的角度細(xì)致和全面地描述這個(gè)社交圖譜的特征,反應(yīng)影響信息傳播的各層面上的因素,尋找節(jié)點(diǎn)之間的關(guān)聯(lián)想,以及刻畫圖譜本身的結(jié)構(gòu)特征。其中包括:
(1) 用戶個(gè)體對(duì)信息傳播的影響:不同用戶在信息傳播過(guò)程中的重要性不一樣,影響大的用戶對(duì)于信息的傳播較影響小的用戶更具有促進(jìn)作用。
(2) 量化用戶關(guān)系的遠(yuǎn)近:衡量存在直接關(guān)聯(lián)(關(guān)注、被關(guān)注、互粉……)用戶之間的關(guān)系遠(yuǎn)近,關(guān)系越近的用戶之間越容易產(chǎn)生信息傳播行為。
(3) 延伸用戶之間的關(guān)系:通過(guò)用戶之間的直接關(guān)系(關(guān)注、被關(guān)注、互粉……),讓本身并不存在直接關(guān)系的用戶產(chǎn)生關(guān)聯(lián)。
(4) 尋找相似的用戶:微博中非對(duì)等的關(guān)系本身可以認(rèn)為是一種認(rèn)證,用戶基于興趣、線下關(guān)系、或某種其它原因反應(yīng)到線上的一種關(guān)聯(lián)。那么在關(guān)系維度上的相似用戶至少能反應(yīng)他們?cè)谀撤N因素上的一致性。
(5) 識(shí)別關(guān)系圈:從關(guān)系圖譜的本身的結(jié)構(gòu)出發(fā),從中發(fā)掘關(guān)聯(lián)緊密的群體,有助于信息的精準(zhǔn)投放和推廣。
以上關(guān)于關(guān)系建模的任務(wù)可以看作是逐步深入的,從“個(gè)體”-->“關(guān)聯(lián)”-->“相似”-->“群體”的逐漸深入。
用戶行為模型
行為維度
分析用戶的行為,建立行為模式有兩個(gè)任務(wù):針對(duì)典型個(gè)體行為進(jìn)行時(shí)序分片,分析用戶成長(zhǎng)的相關(guān)因素;針對(duì)典型群體的行為進(jìn)行統(tǒng)計(jì),構(gòu)建其行為模型。
(1) 典型個(gè)體的行為時(shí)序分析
所謂典型個(gè)體是指某段時(shí)間內(nèi),成長(zhǎng)比較突出的微博用戶。例如從一個(gè)新用戶從新注冊(cè)到粉絲過(guò)百、過(guò)千需要有一個(gè)積累過(guò)程,有些用戶積累較快,有些較慢,而這些積累較快的用戶可以作為典型個(gè)體;或者某些用戶在某一階段傳播力有限,但在某時(shí)刻傳播力激增,無(wú)論是互動(dòng)還是內(nèi)容傳播覆蓋面都變化很大,這種也可以作為典型個(gè)體。
針對(duì)典型個(gè)體,需要挖掘與其用戶成長(zhǎng)相關(guān)的行為因素?;痉椒ㄊ菍?duì)時(shí)間進(jìn)行分片,獲取用戶在不同時(shí)間片上的行為統(tǒng)計(jì),以及在各個(gè)時(shí)間分片上的用戶成長(zhǎng)指標(biāo)(粉絲數(shù)、互動(dòng)率、傳播力等),如圖2所示。在此基礎(chǔ)上針對(duì)用戶行為的統(tǒng)計(jì)量的變化,利用關(guān)聯(lián)性分析或回歸來(lái)分析用戶成長(zhǎng)與哪些因素有關(guān)。
(2) 典型群體行為模式分析
針對(duì)典型個(gè)體,從用戶的基本信息、人口信息、興趣維度,可以將相似的典型用戶劃分為同一的群體,稱作典型群體,針對(duì)典型群體中的用戶按照成長(zhǎng)程度進(jìn)行劃分,按不同的成長(zhǎng)階段統(tǒng)計(jì)用戶行為,即建立了該典型群體的行為模型。
例如,對(duì)于“北京,年齡在20~30歲,女性,電商領(lǐng)域,普通賬號(hào)”這樣的典型群體,從粉絲數(shù)、傳播力、互動(dòng)率等維度將其劃分到初創(chuàng)、成長(zhǎng)、快速提升、成熟……等階段,針對(duì)不同成長(zhǎng)階段內(nèi)的行為組合進(jìn)行統(tǒng)計(jì),結(jié)果構(gòu)成該群體的行為模式。
用戶模型在微博推薦中的應(yīng)用
推薦主要由排序、候選、挖掘三部分構(gòu)成,在這三個(gè)階段過(guò)程中排序時(shí)會(huì)用到排序模型、候選的策略和數(shù)據(jù)、挖掘這里比較重要的是二次挖掘。當(dāng)用戶模型產(chǎn)生之后,可以更加深入的統(tǒng)計(jì)出有用的信息,這樣一來(lái),用戶模型就得到了相應(yīng)的應(yīng)用。在排序時(shí)候,我們會(huì)用到用戶模型的各種特征。在候選時(shí)候,你有可能感興趣的人,好友關(guān)注都是通過(guò)候選方法通過(guò)關(guān)系圈擴(kuò)展得來(lái)的。還有內(nèi)容推薦,好友贊微博也是通過(guò)候選實(shí)現(xiàn)的。
二次挖掘應(yīng)用舉例
在挖掘的時(shí)候,所有的數(shù)據(jù)都將派上用場(chǎng)。比如說(shuō)領(lǐng)域關(guān)系圈的二次挖掘,在這里是先有能力標(biāo)簽、之后通過(guò)標(biāo)簽把相應(yīng)的用戶找到,設(shè)立為種子用戶。之后再利用一度和二度的關(guān)系及相似用戶的擴(kuò)充,這樣就會(huì)得到一個(gè)領(lǐng)域關(guān)系圈。