推薦多任務(wù) 2023 最新進(jìn)展:用戶(hù)生命周期視角下的多任務(wù)推薦模型 STAN
一、業(yè)務(wù)背景
本文工作是從業(yè)務(wù)出發(fā)提出的一項(xiàng)創(chuàng)新性工作,首先來(lái)介紹一下業(yè)務(wù)背景。
圖中所示是常見(jiàn)的 Shopee 雙列流 feed,用戶(hù)點(diǎn)擊一個(gè)直播后,會(huì)進(jìn)入全屏沉浸流,產(chǎn)生消費(fèi)時(shí)長(zhǎng),同時(shí)也可以點(diǎn)擊購(gòu)買(mǎi)商品,產(chǎn)生消費(fèi)下單。
該路徑下的用戶(hù)會(huì)經(jīng)歷幾個(gè)階段:
- 新用戶(hù)階段,訂單與時(shí)長(zhǎng)都較低。
- 后續(xù)在平臺(tái)進(jìn)行閑逛,時(shí)長(zhǎng)增加,訂單轉(zhuǎn)化仍較低,對(duì)于此部分用戶(hù),不適合推薦雜亂的直播間,而更適合推薦優(yōu)質(zhì)商品的、能夠讓人沉浸的直播間,會(huì)讓用戶(hù)逛得更久。
- 對(duì)于平臺(tái)的忠誠(chéng)用戶(hù),其 CVR 轉(zhuǎn)化較高,但其目標(biāo)明確,時(shí)長(zhǎng)可能會(huì)相應(yīng)減少,對(duì)于此部分用戶(hù),適合推薦簡(jiǎn)單易轉(zhuǎn)化的商品。
因此,不同用戶(hù)群體對(duì)不同任務(wù)指標(biāo)的偏好相差較大,通過(guò)數(shù)據(jù)分析,我們發(fā)現(xiàn) CTR、停留時(shí)長(zhǎng)、CVR 任務(wù)的用戶(hù)群分布類(lèi)似于冪律分布。對(duì)于不同階段的用戶(hù),CTR、停留時(shí)長(zhǎng)、CVR 等分布也不同,新用戶(hù)的 CTR、停留時(shí)長(zhǎng)等分布較為靠后。因此,我們觀測(cè)到不同任務(wù)指標(biāo)的偏好與用戶(hù)當(dāng)前的狀態(tài)密切相關(guān),且用戶(hù)狀態(tài)會(huì)隨時(shí)間而變。
二、關(guān)鍵問(wèn)題
我們從數(shù)據(jù)分析中提煉出了如下的關(guān)鍵問(wèn)題:現(xiàn)有方法中在多任務(wù)優(yōu)化時(shí),對(duì)所有用戶(hù)一視同仁,會(huì)導(dǎo)致優(yōu)化蹺蹺板現(xiàn)象。因此問(wèn)題核心是要準(zhǔn)確追蹤用戶(hù)狀態(tài),才能同時(shí)提高 CTR、時(shí)長(zhǎng)和訂單指標(biāo)。對(duì)此問(wèn)題進(jìn)行拆解,可以得到如下三個(gè)子問(wèn)題:如何識(shí)別用戶(hù)狀態(tài),如何追蹤用戶(hù)狀態(tài)信息以及如何結(jié)合用戶(hù)狀態(tài)優(yōu)化多任務(wù)模型。
三、解決方案:STAN
針對(duì)以上問(wèn)題,我們提出了 STAN 這一解決方案。STAN 網(wǎng)絡(luò)如上圖所示,分為幾個(gè)部分:右側(cè)是傳統(tǒng)的 MMoE 的模型結(jié)構(gòu),是 PLE 模型;左側(cè)是對(duì)用戶(hù)信息建模,用戶(hù)信息會(huì)反映在 loss 上,對(duì) loss 進(jìn)行調(diào)整。
1、霧里看花:如何識(shí)別用戶(hù)狀態(tài)?
首先,第一個(gè)問(wèn)題是如何識(shí)別用戶(hù)狀態(tài)。我們使用了用戶(hù)特征抽取網(wǎng)絡(luò)建立特征間的交互關(guān)系,通過(guò) Attention 網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)特定任務(wù)生成含有用戶(hù)傾向信息的用戶(hù)表征。在此之上構(gòu)建 loss,Label 為用戶(hù)是否點(diǎn)擊、購(gòu)買(mǎi)等。這里沒(méi)有 Item 側(cè)信息,Label 的平均估計(jì)為用戶(hù)對(duì) CTR、CVR、時(shí)長(zhǎng)等的偏好。
2、撥云見(jiàn)日:如何準(zhǔn)確追蹤用戶(hù)狀態(tài)?
通過(guò)對(duì)用戶(hù)每個(gè)目標(biāo)的預(yù)估值,就能夠大概知道用戶(hù)處于哪個(gè)狀態(tài),同時(shí)針對(duì)每個(gè)用戶(hù),我們引入了用戶(hù)自適應(yīng)的 Beta 分布對(duì)用戶(hù)傾向的預(yù)測(cè)值重采樣。Beta分布在用戶(hù)數(shù)據(jù)較少情況下置信度低,此時(shí)預(yù)估值較為不準(zhǔn)確,需要引入重采樣校正方法校正產(chǎn)出預(yù)估值,從而降低極端數(shù)據(jù)影響。
3、登堂入室:如何結(jié)合用戶(hù)狀態(tài),優(yōu)化多任務(wù)模型?
最后是結(jié)合用戶(hù)狀態(tài),優(yōu)化多任務(wù)模型。多任務(wù)模型的優(yōu)化部分會(huì)疊加本身多任務(wù)模型 loss 與用戶(hù)狀態(tài) loss,同時(shí)訓(xùn)練,同步迭代。
四、離線效果
1、離線效果:理解性實(shí)驗(yàn)
首先,我們進(jìn)行了理解性試驗(yàn),驗(yàn)證離線效果。
如何驗(yàn)證本文方法能否識(shí)別用戶(hù)狀態(tài)呢?我們對(duì)比了同一組用戶(hù)在不同模型的表征。如上圖所示,STAN 模型對(duì)于 Wander、Stick、Loyal 用戶(hù)分群下的表示比 PLE 區(qū)分度更大。該圖是對(duì)用戶(hù) Emb 降維到二維空間構(gòu)建的,PLE、STAN 模型用的用戶(hù) Emb 是通過(guò) userid 抽取得到的。
另一個(gè)問(wèn)題是,本文方法能否準(zhǔn)確追蹤用戶(hù)狀態(tài)?我們對(duì)比了同一組用戶(hù)在不同日期的狀態(tài),如上圖右下角的圖中所示,五星表示用戶(hù),Day 1 用戶(hù)處于 New 的狀態(tài),Day 31 則變?yōu)?Wander 和 Stick 狀態(tài),說(shuō)明本方法能夠自適應(yīng)地追蹤用戶(hù)狀態(tài)的變遷。
2、離線效果:Shopee Dataset
我們采用工業(yè)數(shù)據(jù)集對(duì)效果進(jìn)行了驗(yàn)證,為了方便對(duì)比,我們使用了三周的數(shù)據(jù)進(jìn)行訓(xùn)練,一周的數(shù)據(jù)進(jìn)行測(cè)試。評(píng)估指標(biāo)是 AUC,NDCG@1。在圖中的 PLE 模型中,我們添加了 stage 的標(biāo)識(shí),固定了 2 個(gè) stage,任務(wù)準(zhǔn)確率有一定提升。在增加自適應(yīng) stage 后,準(zhǔn)確率有所提升,但模型波動(dòng)較大。加入 Beta 重采樣后,準(zhǔn)確率穩(wěn)中有升,模型更加穩(wěn)定。
3、離線效果:Public Dataset
我們?cè)诠_(kāi)數(shù)據(jù)集:微信視頻號(hào)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,其中有三個(gè)目標(biāo):點(diǎn)贊、點(diǎn) up 主頭像、轉(zhuǎn)發(fā),評(píng)估指標(biāo)是 AUC,NDCG@5,其中 NDCG@5 是該數(shù)據(jù)集中的公開(kāi)對(duì)比指標(biāo)。從圖中可以看出,實(shí)驗(yàn)效果與 Shopee 數(shù)據(jù)集表現(xiàn)類(lèi)似。
五、工作價(jià)值
我們將此工作在線上進(jìn)行了驗(yàn)證,base 是 PLE 模型,實(shí)驗(yàn)組增加了 STAN 模型。實(shí)驗(yàn)效果 CTR+3.94%,staytime+3.05%,order+0.88%,每個(gè)指標(biāo)都有所增長(zhǎng)。其中 order 增長(zhǎng)較小,是因?yàn)?Shopee 平臺(tái)上的 order 量還比較小,相應(yīng)的用戶(hù)群也較小,因此提升稍弱一些。
本文的工作已被 Recsys’23 接收。
六、結(jié)論展望
總結(jié)來(lái)說(shuō),我們應(yīng)當(dāng)重視推薦系統(tǒng)中用戶(hù)的生命周期;在多任務(wù)學(xué)習(xí)中需要顯式建模用戶(hù)生命周期;同時(shí)我們需要立足于線上真實(shí)分布的數(shù)據(jù),深挖技術(shù)突破點(diǎn)。
未來(lái),我們會(huì)在每一層的推薦候選中結(jié)合用戶(hù)生命周期進(jìn)行細(xì)粒度調(diào)整;同時(shí)也希望創(chuàng)新方法可以落地,業(yè)務(wù)也需要進(jìn)行持續(xù)創(chuàng)新。