自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

齊彥杰:機器學(xué)習(xí)在新浪微博個性化push的應(yīng)用

原創(chuàng)
人工智能
新浪微博不僅僅是一個信息交流平臺,同時也兼具著媒體屬性,據(jù)統(tǒng)計2013年12月新浪微博MAU(Monthly Active Users,月活躍用戶數(shù)量)達(dá)到1.29億,DAU(Daily Active Users,日活躍用戶數(shù)量)超過6100萬,到2018年3月,MAU突破4.11億,DAU達(dá)到1.84億。

【51CTO.com原創(chuàng)稿件】新浪微博不僅僅是一個信息交流平臺,同時也兼具著媒體屬性,據(jù)統(tǒng)計2013年12月新浪微博MAU(Monthly Active Users,月活躍用戶數(shù)量)達(dá)到1.29億,DAU(Daily Active Users,日活躍用戶數(shù)量)超過6100萬,到2018年3月,MAU突破4.11億,DAU達(dá)到1.84億。據(jù)2017年數(shù)據(jù)統(tǒng)計,微博的主要用戶集中在23-30歲,占38.6%,性別上男性多于女性,占56.3%,而用戶興趣主要集中在明星、美女帥哥、動漫等泛娛樂領(lǐng)域。

這么龐大的用戶體量和廣泛的興趣標(biāo)簽,如何做才能將用戶感興趣的話題、博主、事件***時間進(jìn)行精準(zhǔn)推送,是新浪微博一直要解決的事情,個性化push的應(yīng)用將精準(zhǔn)推送這項業(yè)務(wù)變的短時高效。

新浪微博齊彥杰

圖1 新浪微博齊彥杰

博文質(zhì)量、算法模型與分發(fā)效率共同決定push效果

在實現(xiàn)個性化push之前要先構(gòu)建一個推薦系統(tǒng),所有的推薦系統(tǒng)基本上都是從內(nèi)容源頭中去找到用戶喜歡的東西,微博的源頭就是全量的原創(chuàng)博文。但是面對每天幾千萬量級的生產(chǎn)量和大量不適宜的原創(chuàng)文章,如何才能將精準(zhǔn)推送這個訴求變現(xiàn)呢?人工篩選加機器篩選是個不錯的組合。在push推送過程中加入人工審核程序,可以降低涉黃、不健康、不適宜內(nèi)容的傳播,同時還減少了對用戶的騷擾。

物料召回模型只是在源頭處把握了原創(chuàng)博文的篩選,如何才能將優(yōu)質(zhì)文章推薦給感興趣的用戶呢?這就需要排序算法模型了。首先,將物料生成模型進(jìn)行審核,篩選出全量優(yōu)質(zhì)的內(nèi)容,放到物料池中,并且物料池要實時更新互動特征,比如,這個微博在當(dāng)前的時間點的轉(zhuǎn)發(fā)量和評論數(shù)等。更新以后,每分鐘提取當(dāng)前可用物料和用戶,進(jìn)行計算和排序,從中篩選出客戶最感興趣的博文,***發(fā)送給用戶。其實,在我們的推薦系統(tǒng)中,和模型計算平行的還有一個協(xié)同推薦服務(wù)。有一些推薦系統(tǒng)中把協(xié)同推薦作為一種召回的方式,把協(xié)同推薦產(chǎn)生的內(nèi)容放在物料召回的部分再做推薦。但是在我們的場景中,協(xié)同推薦效果好于排序模型,所以沒有必要再走一遍程序,可以直接發(fā)送給用戶。經(jīng)過基礎(chǔ)過濾下發(fā),實時收集下發(fā)日志和點擊日志,經(jīng)過數(shù)據(jù)處理和加工,再去更新物料池,同時更新物料生成模型和運營審核部分。

推薦系統(tǒng)

圖2 推薦系統(tǒng)

機器學(xué)習(xí)的特征維度建立

在排序策略、模型服務(wù)、特征工程、基礎(chǔ)數(shù)據(jù)的整體架構(gòu)下有博文信息、用戶信息、行為信息等,利用這些信息在上層挖掘出特征,利用特征進(jìn)行模型訓(xùn)練和評估,得出排序模型和物料模型。當(dāng)有了模型之后,再把模型運用到線上做排序策略、CTR預(yù)估。***,將線上的數(shù)據(jù)再傳導(dǎo)回來,進(jìn)行基礎(chǔ)數(shù)據(jù)計算,供下一次模型訓(xùn)練迭代。

興趣維度

但是,對于一個博文來說,特征構(gòu)建的時候需要通過一個三級標(biāo)簽體系來具像這個博文代表的意義,以及通過用戶對博文的瀏覽程度來呈現(xiàn)用戶的興趣,這時就會建立一個三級標(biāo)簽體系,首先***級標(biāo)簽是比較寬泛的,比如說體育領(lǐng)域,一級標(biāo)簽下面會有二級標(biāo)簽,比如:足球,二級標(biāo)簽下面會有三級標(biāo)簽,比如:梅西、C羅。當(dāng)一個用戶消費了多個打上梅西標(biāo)簽的博文的時候,我們就知道這個用戶對梅西感興趣,所以,當(dāng)有一個梅西的物料進(jìn)來的時候,就會用到這部分特征,加入到模型中進(jìn)行訓(xùn)練,再推送給興趣用戶,這個就是興趣維度。

興趣維度

圖3 興趣維度

關(guān)系維度

興趣維度是一個用戶對興趣領(lǐng)域的特征描述,但是如果想把博主與用戶,也就是人與人之間的特征描述加入到模型當(dāng)中,就需要關(guān)系維度了。當(dāng)一個博主和一個用戶在歷史上的互動非常高的話,那么這個博主一定是契合這個用戶的需求的,所以他們的關(guān)系也可以作為一個維度特征加入到模型當(dāng)中。

實時維度

將興趣維度、關(guān)系維度加入到模型的同時,還需要將先驗數(shù)據(jù)傳導(dǎo)回來,這時候就需要實時維度的幫助。因為Push場景用的物料相對少一些,同時曝光機會也特別少,而點擊率就可以作為先驗數(shù)據(jù)傳導(dǎo)回來,導(dǎo)入到模型中。

除了以上三種維度,還包括環(huán)境的維度,推送的時間、設(shè)備的網(wǎng)絡(luò)信息、設(shè)備本身的信息等等。

介紹完特征部分之后,再講一下模型演進(jìn)的過程。升級從LR(Logistic Regression,邏輯回歸)模型開始,LR模型基本上比較難以捕捉用戶的組合特征,所以進(jìn)一步升級到FM模型。FM( Factorization Machine,隱因子分解機)模型是LR模型加上Dense(密集化)的兩兩特征組合。每一個兩兩組合特征,需要有一個權(quán)重Wij,如果直接求Wij,因為特征組合會造成樣本過少,導(dǎo)致Wij不準(zhǔn)確,所以是通過因子Vi,Vj相乘的形式來得到Wij。但是,F(xiàn)M模型只做了兩兩組合特征,所以又升級成了wide&deep模型,通過把wide模型和deep模型進(jìn)行組合,既保留了wide模型里面的記憶能力,又有一些高級特征組合模型的能力,使這樣一個模型能夠有更強的表現(xiàn)能力。

Wide&deep模型

圖4 Wide&deep模型

Push在使用中的實用技巧

利用用戶頻次(頻率+次數(shù))拆分提高點擊量和點擊率

微博使用中用戶的頻次差異很大,因此要將用戶的頻次進(jìn)行拆分,分別訓(xùn)練高頻次、中頻次和低頻次的用戶,所以需要在負(fù)樣本的選擇上做一些改變。

在服務(wù)器推送的時候,會遇到用戶設(shè)置系統(tǒng)不提醒新消息的狀況,也會遇到用戶不看新消息的狀況,所以,在選擇推送用戶的時候,盡量選取歷史上有過正樣本的用戶,這樣,用戶在獲得正樣本復(fù)發(fā)的時候,在正樣本上下幾條曝光(其中包含兩條負(fù)樣本),就可以提高點擊量和點擊率。

逐層控制下發(fā)物料

如果一個物料在沒有經(jīng)過充分驗證的情況下,就對所有的人進(jìn)行計算,可能因為某一個特征特別高的時候,使下發(fā)產(chǎn)生過大,這樣可能把一個低質(zhì)物料展現(xiàn)給過多用戶。所以首先要在一個特別小的范圍內(nèi)進(jìn)行嘗試,如果點擊率達(dá)到預(yù)期,則會逐漸一層一層擴大,直到放到全量。這個方式,可以控制低質(zhì)物料下發(fā)范圍,同時把曝光機會讓給經(jīng)過充分驗證的優(yōu)質(zhì)物料。

 

以上內(nèi)容是51CTO記者根據(jù)新浪微博齊彥杰在WOT2018全球軟件與運維技術(shù)峰會的演講內(nèi)容整理,更多關(guān)于WOT的內(nèi)容請關(guān)注51cto.com。

責(zé)任編輯:杜寧 來源: 51CTO
相關(guān)推薦

2018-11-08 09:37:08

微博系統(tǒng)架構(gòu)

2017-06-27 15:35:02

機器學(xué)習(xí)Spark微博應(yīng)用

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2022-11-01 07:19:45

推薦系統(tǒng)非個性化

2017-11-14 16:59:47

新浪微博深度學(xué)習(xí)

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺

2017-04-15 21:36:05

微服務(wù)新浪微博WOT

2013-07-10 14:15:38

php新浪微博

2018-04-19 10:20:19

機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)音樂

2023-09-25 15:54:28

Canvas國慶

2012-02-29 12:33:14

新浪微盤網(wǎng)盤

2015-09-24 18:08:50

微博架構(gòu)架構(gòu)演進(jìn)架構(gòu)

2022-09-06 17:43:02

??AISummit數(shù)據(jù)運營

2023-03-21 12:46:30

智慧城市人工智能大數(shù)據(jù)

2011-12-08 16:10:18

2015-01-21 15:28:16

Android源碼新浪微博

2013-07-01 18:34:47

個推案例新浪微博

2012-02-15 17:39:36

2013-10-10 09:05:26

新浪微博Redishadoop
點贊
收藏

51CTO技術(shù)棧公眾號