快手:通過強(qiáng)化學(xué)習(xí)提升用戶留存
短視頻推薦系統(tǒng)的核心目標(biāo)是通過提升用戶留存,牽引 DAU 增長。因此留存是各APP的核心業(yè)務(wù)優(yōu)化指標(biāo)之一。然而留存是用戶和系統(tǒng)多次交互后的長期反饋,很難分解到單個 item 或者單個 list,因此傳統(tǒng)的 point-wise 和 list-wise 模型難以直接優(yōu)化留存。
強(qiáng)化學(xué)習(xí)(RL)方法通過和環(huán)境交互的方式優(yōu)化長期獎勵,適合直接優(yōu)化用戶留存。該工作將留存優(yōu)化問題建模成一個無窮視野請求粒度的馬爾科夫決策過程(MDP),用戶每次請求推薦系統(tǒng)決策一個動作(action),用于聚合多個不同的短期反饋預(yù)估(觀看時長、點贊、關(guān)注、評論、轉(zhuǎn)發(fā)等)的排序模型打分。該工作目標(biāo)是學(xué)習(xí)策略(policy),最小化用戶多個會話的累計時間間隔,提升 App 打開頻次進(jìn)而提升用戶留存。
然而由于留存信號的特性,現(xiàn)有 RL 算法直接應(yīng)用存在以下挑戰(zhàn):1)不確定性:留存信號不只由推薦算法決定,還受到許多外部因素干擾;2)偏差:留存信號在不同時間段、不同活躍度用戶群體存在偏差;3)不穩(wěn)定性:與游戲環(huán)境立即返回獎勵不同,留存信號通常在數(shù)小時至幾天返回,這會導(dǎo)致 RL 算法在線訓(xùn)練的不穩(wěn)定問題。
該工作提出 Reinforcement Learning for User Retention algorithm(RLUR)算法解決以上挑戰(zhàn)并直接優(yōu)化留存。通過離線和在線驗證,RLUR 算法相比 State of Art 基線能夠顯著地提升次留指標(biāo)。RLUR 算法已經(jīng)在快手 App 全量,并且能夠持續(xù)地拿到顯著的次留和 DAU 收益,是業(yè)內(nèi)首次通過 RL 技術(shù)在真實生產(chǎn)環(huán)境提升用戶留存。該工作已被 WWW 2023 Industry Track 接收。
作者:蔡慶芃,劉殊暢,王學(xué)良,左天佑,謝文濤,楊斌,鄭東,江鵬
論文地址:https://arxiv.org/pdf/2302.01724.pdf
問題建模
如圖 1(a)所示,該工作把留存優(yōu)化問題建模成一個無窮視野請求粒度馬爾科夫決策過程(infinite horizon request-based Markov Decision Process),其中推薦系統(tǒng)是 agent,用戶是環(huán)境。用戶每次打開 App,開啟一個新的 session i。如圖 1(b),用戶每次請求推薦系統(tǒng)根據(jù)用戶狀態(tài)
決策一個參數(shù)向量
,同時 n 個預(yù)估不同短期指標(biāo)(觀看時長、點贊、關(guān)注等)的排序模型對每個候選視頻 j 進(jìn)行打分
。然后排序函數(shù)輸入 action 以及每個視頻的打分向量,得到每個視頻的最終打分,并選出得分最高的 6 個視頻展示給用戶,用戶返回 immediate feedback
。 當(dāng)用戶離開 App 時本 session 結(jié)束,用戶下一次打開 App session i+1 開啟,上一個 session 結(jié)尾和下一個 session 開始的時間間隔被稱為回訪時間(Returning time),
。 該研究的目標(biāo)是訓(xùn)練策略最小化多個 session 的回訪時間之和。
RLUR 算法
該工作首先討論怎么預(yù)估累計回訪時間,然后提出方法解決留存信號的幾個關(guān)鍵挑戰(zhàn)。這些方法匯總成 Reinforcement Learning for User Retention algorithm,簡寫為 RLUR。
回訪時間預(yù)估
如圖 1(d)所示,由于動作是連續(xù)的,該工作采取 DDPG 算法的 temporal difference(TD)學(xué)習(xí)方式預(yù)估回訪時間。
由于每個 session 最后一次請求才有回訪時間 reward,中間 reward 為 0,作者設(shè)置折扣因子在每個 session 最后一次請求取值為
,其他請求為 1。這樣的設(shè)定能夠避免回訪時間指數(shù)衰減。并且從理論上可以證明當(dāng) loss(1)為 0 時,Q 實際上預(yù)估多個 session 的累計回訪時間,
。
解決延遲獎勵問題
由于回訪時間只發(fā)生在每個 session 結(jié)束,這會帶來學(xué)習(xí)效率低的問題。因而作者運用啟發(fā)式獎勵來增強(qiáng)策略學(xué)習(xí)。由于短期反饋和留存是正相關(guān)關(guān)系,因而作者把短期反饋作為第一種啟發(fā)式獎勵。并且作者采用 Random Network Distillation(RND)網(wǎng)絡(luò)來計算每個樣本的內(nèi)在獎勵作為第二種啟發(fā)式獎勵。具體而言 RND 網(wǎng)絡(luò)采用 2 個相同的網(wǎng)絡(luò)結(jié)構(gòu),一個網(wǎng)絡(luò)隨機(jī)初始化 fixed,另外一個網(wǎng)絡(luò)擬合這個固定網(wǎng)絡(luò),擬合 loss 作為內(nèi)在獎勵。如圖 1(e)所示,為了減少啟發(fā)式獎勵對留存獎勵的干擾,該工作學(xué)習(xí)一個單獨的 Critic 網(wǎng)絡(luò),用來估計短期反饋和內(nèi)在獎勵之和。即 。
解決不確定性問題
由于回訪時間受到很多推薦之外的因素影響,不確定度高,這會影響學(xué)習(xí)效果。該工作提出一個正則化方法來減少方差:首先預(yù)估一個分類模型來預(yù)估回訪時間概率,即預(yù)估回訪時間是否短于
;然后用馬爾可夫不等式得到回訪時間下界,
; 最后用真實回訪時間 / 預(yù)估回訪時間下界作為正則化的回訪 reward。
解決偏差問題
由于不同活躍度群體的行為習(xí)慣差異大,高活用戶留存率高并且訓(xùn)練樣本數(shù)量也顯著多于低活用戶,這會導(dǎo)致模型學(xué)習(xí)被高活用戶主導(dǎo)。為解決這個問題,該工作對高活和低活不同群體學(xué)習(xí) 2 個獨立策略,采用不同的數(shù)據(jù)流進(jìn)行訓(xùn)練,Actor 最小化回訪時間同時最大化輔助獎勵。如圖 1(c),以高活群體為例,Actor loss 為:
解決不穩(wěn)定性問題
由于回訪時間信號延遲,一般在幾個小時到數(shù)天內(nèi)返回,這會導(dǎo)致 RL 在線訓(xùn)練不穩(wěn)定。而直接使用現(xiàn)有的 behavior cloning 的方式要么極大限制學(xué)習(xí)速度要么不能保證穩(wěn)定學(xué)習(xí)。因而該工作提出一個新的軟正則化方法,即在 actor loss 乘上一個軟正則化系數(shù):
這個正則化方法本質(zhì)上是一種制動效應(yīng):如果當(dāng)前學(xué)習(xí)策略和樣本策略偏差很大,這個 loss 會變小,學(xué)習(xí)會趨于穩(wěn)定;如果學(xué)習(xí)速度趨于穩(wěn)定,這個 loss 重新變大,學(xué)習(xí)速度加快。當(dāng),代表著對學(xué)習(xí)過程不加任何約束。
離線實驗
該工作把 RLUR 和 State of the Art 的強(qiáng)化學(xué)習(xí)算法 TD3,以及黑盒優(yōu)化方法 Cross Entropy Method (CEM) 在公開數(shù)據(jù)集 KuaiRand 進(jìn)行對比。該工作首先基于 KuaiRand 數(shù)據(jù)集搭建一個留存模擬器:包含用戶立即反饋,用戶離開 Session 以及用戶回訪 App 三個模塊,然后在這個留存模擬器評測方法。
表 1 說明 RLUR 在回訪時間和次留指標(biāo)顯著優(yōu)于 CEM 和 TD3。該研究進(jìn)行消融實驗,對比 RLUR 和只保留留存學(xué)習(xí)部分 (RLUR (naive)),可以說明該研究針對留存挑戰(zhàn)解決方法的有效性。并且通過和
對比,說明最小化多個 session 的回訪時間的算法效果優(yōu)于只最小化單個 session 的回訪時間。
在線實驗
該工作在快手短視頻推薦系統(tǒng)進(jìn)行 A/B 測試對比 RLUR 和 CEM 方法。圖 2 分別顯示 RLUR 對比 CEM 的 App 打開頻次、DAU、次留、7 留的提升百分比??梢园l(fā)現(xiàn) App 打開頻次在 0-100 天逐漸提升乃至收斂。并且也拉動次留、7 留以及 DAU 指標(biāo)的提升(0.1% 的 DAU 以及 0.01% 的次留提升視為統(tǒng)計顯著)。
總結(jié)與未來工作
本文研究如何通過 RL 技術(shù)提升推薦系統(tǒng)用戶留存,該工作將留存優(yōu)化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優(yōu)化留存并有效地應(yīng)對留存信號的幾個關(guān)鍵挑戰(zhàn)。RLUR 算法已在快手 App 全量,能夠拿到顯著的次留和 DAU 收益。關(guān)于未來工作,如何采用離線強(qiáng)化學(xué)習(xí)、Decision Transformer 等方法更有效地提升用戶留存是一個很有前景的方向。