自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手:通過強(qiáng)化學(xué)習(xí)提升用戶留存

人工智能 新聞
本文研究如何通過 RL 技術(shù)提升推薦系統(tǒng)用戶留存,該工作將留存優(yōu)化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優(yōu)化留存并有效地應(yīng)對留存信號的幾個關(guān)鍵挑戰(zhàn)。

短視頻推薦系統(tǒng)的核心目標(biāo)是通過提升用戶留存,牽引 DAU 增長。因此留存是各APP的核心業(yè)務(wù)優(yōu)化指標(biāo)之一。然而留存是用戶和系統(tǒng)多次交互后的長期反饋,很難分解到單個 item 或者單個 list,因此傳統(tǒng)的 point-wise 和 list-wise 模型難以直接優(yōu)化留存。

強(qiáng)化學(xué)習(xí)(RL)方法通過和環(huán)境交互的方式優(yōu)化長期獎勵,適合直接優(yōu)化用戶留存。該工作將留存優(yōu)化問題建模成一個無窮視野請求粒度的馬爾科夫決策過程(MDP),用戶每次請求推薦系統(tǒng)決策一個動作(action),用于聚合多個不同的短期反饋預(yù)估(觀看時長、點贊、關(guān)注、評論、轉(zhuǎn)發(fā)等)的排序模型打分。該工作目標(biāo)是學(xué)習(xí)策略(policy),最小化用戶多個會話的累計時間間隔,提升 App 打開頻次進(jìn)而提升用戶留存。

然而由于留存信號的特性,現(xiàn)有 RL 算法直接應(yīng)用存在以下挑戰(zhàn):1)不確定性:留存信號不只由推薦算法決定,還受到許多外部因素干擾;2)偏差:留存信號在不同時間段、不同活躍度用戶群體存在偏差;3)不穩(wěn)定性:與游戲環(huán)境立即返回獎勵不同,留存信號通常在數(shù)小時至幾天返回,這會導(dǎo)致 RL 算法在線訓(xùn)練的不穩(wěn)定問題。

該工作提出 Reinforcement Learning for User Retention algorithm(RLUR)算法解決以上挑戰(zhàn)并直接優(yōu)化留存。通過離線和在線驗證,RLUR 算法相比 State of Art 基線能夠顯著地提升次留指標(biāo)。RLUR 算法已經(jīng)在快手 App 全量,并且能夠持續(xù)地拿到顯著的次留和 DAU 收益,是業(yè)內(nèi)首次通過 RL 技術(shù)在真實生產(chǎn)環(huán)境提升用戶留存。該工作已被 WWW 2023 Industry Track 接收。

圖片

作者:蔡慶芃,劉殊暢,王學(xué)良,左天佑,謝文濤,楊斌,鄭東,江鵬

論文地址:https://arxiv.org/pdf/2302.01724.pdf

問題建模

如圖 1(a)所示,該工作把留存優(yōu)化問題建模成一個無窮視野請求粒度馬爾科夫決策過程(infinite horizon request-based Markov Decision Process),其中推薦系統(tǒng)是 agent,用戶是環(huán)境。用戶每次打開 App,開啟一個新的 session i。如圖 1(b),用戶每次請求圖片推薦系統(tǒng)根據(jù)用戶狀態(tài)圖片決策一個參數(shù)向量圖片,同時 n 個預(yù)估不同短期指標(biāo)(觀看時長、點贊、關(guān)注等)的排序模型對每個候選視頻 j 進(jìn)行打分圖片。然后排序函數(shù)輸入 action 以及每個視頻的打分向量,得到每個視頻的最終打分,并選出得分最高的 6 個視頻展示給用戶,用戶返回 immediate feedback圖片。 當(dāng)用戶離開 App 時本 session 結(jié)束,用戶下一次打開 App session i+1 開啟,上一個 session 結(jié)尾和下一個 session 開始的時間間隔被稱為回訪時間(Returning time),圖片。  該研究的目標(biāo)是訓(xùn)練策略最小化多個 session 的回訪時間之和。

圖片

RLUR 算法

該工作首先討論怎么預(yù)估累計回訪時間,然后提出方法解決留存信號的幾個關(guān)鍵挑戰(zhàn)。這些方法匯總成 Reinforcement Learning for User Retention algorithm,簡寫為 RLUR。

回訪時間預(yù)估

如圖 1(d)所示,由于動作是連續(xù)的,該工作采取 DDPG 算法的 temporal difference(TD)學(xué)習(xí)方式預(yù)估回訪時間。

圖片

由于每個 session 最后一次請求才有回訪時間 reward,中間 reward 為 0,作者設(shè)置折扣因子圖片在每個 session 最后一次請求取值為圖片,其他請求為 1。這樣的設(shè)定能夠避免回訪時間指數(shù)衰減。并且從理論上可以證明當(dāng) loss(1)為 0 時,Q 實際上預(yù)估多個 session 的累計回訪時間,圖片。 

解決延遲獎勵問題

由于回訪時間只發(fā)生在每個 session 結(jié)束,這會帶來學(xué)習(xí)效率低的問題。因而作者運用啟發(fā)式獎勵來增強(qiáng)策略學(xué)習(xí)。由于短期反饋和留存是正相關(guān)關(guān)系,因而作者把短期反饋作為第一種啟發(fā)式獎勵。并且作者采用 Random Network Distillation(RND)網(wǎng)絡(luò)來計算每個樣本的內(nèi)在獎勵作為第二種啟發(fā)式獎勵。具體而言 RND 網(wǎng)絡(luò)采用 2 個相同的網(wǎng)絡(luò)結(jié)構(gòu),一個網(wǎng)絡(luò)隨機(jī)初始化 fixed,另外一個網(wǎng)絡(luò)擬合這個固定網(wǎng)絡(luò),擬合 loss 作為內(nèi)在獎勵。如圖 1(e)所示,為了減少啟發(fā)式獎勵對留存獎勵的干擾,該工作學(xué)習(xí)一個單獨的 Critic 網(wǎng)絡(luò),用來估計短期反饋和內(nèi)在獎勵之和。即 圖片。

解決不確定性問題

由于回訪時間受到很多推薦之外的因素影響,不確定度高,這會影響學(xué)習(xí)效果。該工作提出一個正則化方法來減少方差:首先預(yù)估一個分類模型圖片來預(yù)估回訪時間概率,即預(yù)估回訪時間是否短于圖片 ;然后用馬爾可夫不等式得到回訪時間下界,圖片; 最后用真實回訪時間 / 預(yù)估回訪時間下界作為正則化的回訪 reward。

解決偏差問題

由于不同活躍度群體的行為習(xí)慣差異大,高活用戶留存率高并且訓(xùn)練樣本數(shù)量也顯著多于低活用戶,這會導(dǎo)致模型學(xué)習(xí)被高活用戶主導(dǎo)。為解決這個問題,該工作對高活和低活不同群體學(xué)習(xí) 2 個獨立策略,采用不同的數(shù)據(jù)流進(jìn)行訓(xùn)練,Actor 最小化回訪時間同時最大化輔助獎勵。如圖 1(c),以高活群體為例,Actor loss 為:

圖片

解決不穩(wěn)定性問題

由于回訪時間信號延遲,一般在幾個小時到數(shù)天內(nèi)返回,這會導(dǎo)致 RL 在線訓(xùn)練不穩(wěn)定。而直接使用現(xiàn)有的 behavior cloning 的方式要么極大限制學(xué)習(xí)速度要么不能保證穩(wěn)定學(xué)習(xí)。因而該工作提出一個新的軟正則化方法,即在 actor loss 乘上一個軟正則化系數(shù):

圖片

這個正則化方法本質(zhì)上是一種制動效應(yīng):如果當(dāng)前學(xué)習(xí)策略和樣本策略偏差很大,這個 loss 會變小,學(xué)習(xí)會趨于穩(wěn)定;如果學(xué)習(xí)速度趨于穩(wěn)定,這個 loss 重新變大,學(xué)習(xí)速度加快。當(dāng)圖片,代表著對學(xué)習(xí)過程不加任何約束。

離線實驗

該工作把 RLUR 和 State of the Art 的強(qiáng)化學(xué)習(xí)算法 TD3,以及黑盒優(yōu)化方法 Cross Entropy Method (CEM) 在公開數(shù)據(jù)集 KuaiRand 進(jìn)行對比。該工作首先基于 KuaiRand 數(shù)據(jù)集搭建一個留存模擬器:包含用戶立即反饋,用戶離開 Session 以及用戶回訪 App 三個模塊,然后在這個留存模擬器評測方法。

圖片

表 1 說明 RLUR 在回訪時間和次留指標(biāo)顯著優(yōu)于 CEM 和 TD3。該研究進(jìn)行消融實驗,對比 RLUR 和只保留留存學(xué)習(xí)部分 (RLUR (naive)),可以說明該研究針對留存挑戰(zhàn)解決方法的有效性。并且通過圖片圖片對比,說明最小化多個 session 的回訪時間的算法效果優(yōu)于只最小化單個 session 的回訪時間。

在線實驗

圖片

該工作在快手短視頻推薦系統(tǒng)進(jìn)行 A/B 測試對比 RLUR 和 CEM 方法。圖 2 分別顯示 RLUR 對比 CEM 的 App 打開頻次、DAU、次留、7 留的提升百分比??梢园l(fā)現(xiàn) App 打開頻次在 0-100 天逐漸提升乃至收斂。并且也拉動次留、7 留以及 DAU 指標(biāo)的提升(0.1% 的 DAU 以及 0.01% 的次留提升視為統(tǒng)計顯著)。

總結(jié)與未來工作

本文研究如何通過 RL 技術(shù)提升推薦系統(tǒng)用戶留存,該工作將留存優(yōu)化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優(yōu)化留存并有效地應(yīng)對留存信號的幾個關(guān)鍵挑戰(zhàn)。RLUR 算法已在快手 App 全量,能夠拿到顯著的次留和 DAU 收益。關(guān)于未來工作,如何采用離線強(qiáng)化學(xué)習(xí)、Decision Transformer 等方法更有效地提升用戶留存是一個很有前景的方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-05-30 16:37:29

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦

2025-04-01 09:10:00

2023-10-19 13:25:00

AI訓(xùn)練

2018-04-21 06:41:39

Q-learning算法函數(shù)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2025-02-20 09:21:51

2025-03-07 09:24:00

2024-12-09 08:45:00

模型AI

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2023-06-25 11:30:47

可視化

2024-08-28 13:53:42

多代理強(qiáng)化學(xué)習(xí)機(jī)器人
點贊
收藏

51CTO技術(shù)棧公眾號