自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

快手：通過強(qiáng)化學(xué)習(xí)提升用戶留存

作者：機(jī)器之心 2023-04-23 10:12:14

人工智能新聞

本文研究如何通過 RL 技術(shù)提升推薦系統(tǒng)用戶留存，該工作將留存優(yōu)化建模成一個無窮視野請求粒度的馬爾可夫決策過程，該工作提出 RLUR 算法直接優(yōu)化留存并有效地應(yīng)對留存信號的幾個關(guān)鍵挑戰(zhàn)。

短視頻推薦系統(tǒng)的核心目標(biāo)是通過提升用戶留存，牽引 DAU 增長。因此留存是各APP的核心業(yè)務(wù)優(yōu)化指標(biāo)之一。然而留存是用戶和系統(tǒng)多次交互后的長期反饋，很難分解到單個 item 或者單個 list，因此傳統(tǒng)的 point-wise 和 list-wise 模型難以直接優(yōu)化留存。

強(qiáng)化學(xué)習(xí)（RL）方法通過和環(huán)境交互的方式優(yōu)化長期獎勵，適合直接優(yōu)化用戶留存。該工作將留存優(yōu)化問題建模成一個無窮視野請求粒度的馬爾科夫決策過程（MDP），用戶每次請求推薦系統(tǒng)決策一個動作（action），用于聚合多個不同的短期反饋預(yù)估（觀看時長、點贊、關(guān)注、評論、轉(zhuǎn)發(fā)等）的排序模型打分。該工作目標(biāo)是學(xué)習(xí)策略（policy），最小化用戶多個會話的累計時間間隔，提升 App 打開頻次進(jìn)而提升用戶留存。

然而由于留存信號的特性，現(xiàn)有 RL 算法直接應(yīng)用存在以下挑戰(zhàn)：1）不確定性：留存信號不只由推薦算法決定，還受到許多外部因素干擾；2）偏差：留存信號在不同時間段、不同活躍度用戶群體存在偏差；3）不穩(wěn)定性：與游戲環(huán)境立即返回獎勵不同，留存信號通常在數(shù)小時至幾天返回，這會導(dǎo)致 RL 算法在線訓(xùn)練的不穩(wěn)定問題。

該工作提出 Reinforcement Learning for User Retention algorithm（RLUR）算法解決以上挑戰(zhàn)并直接優(yōu)化留存。通過離線和在線驗證，RLUR 算法相比 State of Art 基線能夠顯著地提升次留指標(biāo)。RLUR 算法已經(jīng)在快手 App 全量，并且能夠持續(xù)地拿到顯著的次留和 DAU 收益，是業(yè)內(nèi)首次通過 RL 技術(shù)在真實生產(chǎn)環(huán)境提升用戶留存。該工作已被 WWW 2023 Industry Track 接收。

作者：蔡慶芃，劉殊暢，王學(xué)良，左天佑，謝文濤，楊斌，鄭東，江鵬

論文地址：https://arxiv.org/pdf/2302.01724.pdf

問題建模

如圖 1（a）所示，該工作把留存優(yōu)化問題建模成一個無窮視野請求粒度馬爾科夫決策過程（infinite horizon request-based Markov Decision Process），其中推薦系統(tǒng)是 agent，用戶是環(huán)境。用戶每次打開 App，開啟一個新的 session i。如圖 1（b），用戶每次請求推薦系統(tǒng)根據(jù)用戶狀態(tài)決策一個參數(shù)向量，同時 n 個預(yù)估不同短期指標(biāo)（觀看時長、點贊、關(guān)注等）的排序模型對每個候選視頻 j 進(jìn)行打分。然后排序函數(shù)輸入 action 以及每個視頻的打分向量，得到每個視頻的最終打分，并選出得分最高的 6 個視頻展示給用戶，用戶返回 immediate feedback。當(dāng)用戶離開 App 時本 session 結(jié)束，用戶下一次打開 App session i+1 開啟，上一個 session 結(jié)尾和下一個 session 開始的時間間隔被稱為回訪時間（Returning time），。該研究的目標(biāo)是訓(xùn)練策略最小化多個 session 的回訪時間之和。

RLUR 算法

該工作首先討論怎么預(yù)估累計回訪時間，然后提出方法解決留存信號的幾個關(guān)鍵挑戰(zhàn)。這些方法匯總成 Reinforcement Learning for User Retention algorithm，簡寫為 RLUR。

回訪時間預(yù)估

如圖 1（d）所示，由于動作是連續(xù)的，該工作采取 DDPG 算法的 temporal difference（TD）學(xué)習(xí)方式預(yù)估回訪時間。

由于每個 session 最后一次請求才有回訪時間 reward，中間 reward 為 0，作者設(shè)置折扣因子在每個 session 最后一次請求取值為，其他請求為 1。這樣的設(shè)定能夠避免回訪時間指數(shù)衰減。并且從理論上可以證明當(dāng) loss（1）為 0 時，Q 實際上預(yù)估多個 session 的累計回訪時間，。

解決延遲獎勵問題

由于回訪時間只發(fā)生在每個 session 結(jié)束，這會帶來學(xué)習(xí)效率低的問題。因而作者運用啟發(fā)式獎勵來增強(qiáng)策略學(xué)習(xí)。由于短期反饋和留存是正相關(guān)關(guān)系，因而作者把短期反饋作為第一種啟發(fā)式獎勵。并且作者采用 Random Network Distillation（RND）網(wǎng)絡(luò)來計算每個樣本的內(nèi)在獎勵作為第二種啟發(fā)式獎勵。具體而言 RND 網(wǎng)絡(luò)采用 2 個相同的網(wǎng)絡(luò)結(jié)構(gòu)，一個網(wǎng)絡(luò)隨機(jī)初始化 fixed，另外一個網(wǎng)絡(luò)擬合這個固定網(wǎng)絡(luò)，擬合 loss 作為內(nèi)在獎勵。如圖 1（e）所示，為了減少啟發(fā)式獎勵對留存獎勵的干擾，該工作學(xué)習(xí)一個單獨的 Critic 網(wǎng)絡(luò)，用來估計短期反饋和內(nèi)在獎勵之和。即。

解決不確定性問題

由于回訪時間受到很多推薦之外的因素影響，不確定度高，這會影響學(xué)習(xí)效果。該工作提出一個正則化方法來減少方差：首先預(yù)估一個分類模型來預(yù)估回訪時間概率，即預(yù)估回訪時間是否短于；然后用馬爾可夫不等式得到回訪時間下界，; 最后用真實回訪時間 / 預(yù)估回訪時間下界作為正則化的回訪 reward。

解決偏差問題

由于不同活躍度群體的行為習(xí)慣差異大，高活用戶留存率高并且訓(xùn)練樣本數(shù)量也顯著多于低活用戶，這會導(dǎo)致模型學(xué)習(xí)被高活用戶主導(dǎo)。為解決這個問題，該工作對高活和低活不同群體學(xué)習(xí) 2 個獨立策略，采用不同的數(shù)據(jù)流進(jìn)行訓(xùn)練，Actor 最小化回訪時間同時最大化輔助獎勵。如圖 1（c），以高活群體為例，Actor loss 為：

解決不穩(wěn)定性問題

由于回訪時間信號延遲，一般在幾個小時到數(shù)天內(nèi)返回，這會導(dǎo)致 RL 在線訓(xùn)練不穩(wěn)定。而直接使用現(xiàn)有的 behavior cloning 的方式要么極大限制學(xué)習(xí)速度要么不能保證穩(wěn)定學(xué)習(xí)。因而該工作提出一個新的軟正則化方法，即在 actor loss 乘上一個軟正則化系數(shù)：

這個正則化方法本質(zhì)上是一種制動效應(yīng)：如果當(dāng)前學(xué)習(xí)策略和樣本策略偏差很大，這個 loss 會變小，學(xué)習(xí)會趨于穩(wěn)定；如果學(xué)習(xí)速度趨于穩(wěn)定，這個 loss 重新變大，學(xué)習(xí)速度加快。當(dāng)，代表著對學(xué)習(xí)過程不加任何約束。

離線實驗

該工作把 RLUR 和 State of the Art 的強(qiáng)化學(xué)習(xí)算法 TD3，以及黑盒優(yōu)化方法 Cross Entropy Method (CEM) 在公開數(shù)據(jù)集 KuaiRand 進(jìn)行對比。該工作首先基于 KuaiRand 數(shù)據(jù)集搭建一個留存模擬器：包含用戶立即反饋，用戶離開 Session 以及用戶回訪 App 三個模塊，然后在這個留存模擬器評測方法。

表 1 說明 RLUR 在回訪時間和次留指標(biāo)顯著優(yōu)于 CEM 和 TD3。該研究進(jìn)行消融實驗，對比 RLUR 和只保留留存學(xué)習(xí)部分 (RLUR (naive))，可以說明該研究針對留存挑戰(zhàn)解決方法的有效性。并且通過和對比，說明最小化多個 session 的回訪時間的算法效果優(yōu)于只最小化單個 session 的回訪時間。

在線實驗

該工作在快手短視頻推薦系統(tǒng)進(jìn)行 A/B 測試對比 RLUR 和 CEM 方法。圖 2 分別顯示 RLUR 對比 CEM 的 App 打開頻次、DAU、次留、7 留的提升百分比?？梢园l(fā)現(xiàn) App 打開頻次在 0-100 天逐漸提升乃至收斂。并且也拉動次留、7 留以及 DAU 指標(biāo)的提升（0.1% 的 DAU 以及 0.01% 的次留提升視為統(tǒng)計顯著）。

總結(jié)與未來工作

本文研究如何通過 RL 技術(shù)提升推薦系統(tǒng)用戶留存，該工作將留存優(yōu)化建模成一個無窮視野請求粒度的馬爾可夫決策過程，該工作提出 RLUR 算法直接優(yōu)化留存并有效地應(yīng)對留存信號的幾個關(guān)鍵挑戰(zhàn)。RLUR 算法已在快手 App 全量，能夠拿到顯著的次留和 DAU 收益。關(guān)于未來工作，如何采用離線強(qiáng)化學(xué)習(xí)、Decision Transformer 等方法更有效地提升用戶留存是一個很有前景的方向。

責(zé)任編輯：張燕妮來源：機(jī)器之心

算法強(qiáng)化學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="wfkv9"><track id="wfkv9"></track></legend>

<sub id="wfkv9"></sub>

<cite id="wfkv9"><rp id="wfkv9"><pre id="wfkv9"></pre></rp></cite>