自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強化學(xué)習(xí)與多任務(wù)推薦

人工智能
本文將分享強化學(xué)習(xí)和多任務(wù)推薦。近年來,多任務(wù)學(xué)習(xí)(MTL)在推薦系統(tǒng)(RS)應(yīng)用中取得了巨大的成功。然而,目前大部分基于 MTL 的推薦模型往往忽略了用戶與推薦系統(tǒng)互動的會話(Session)模式,因為它們主要是依據(jù)基于單個 Item 的數(shù)據(jù)集而構(gòu)建。

一、短視頻推薦兩階段約束強化學(xué)習(xí)算法

圖片

首先介紹的一項快手自研的 WWW 2023 Research Track 工作,主要解決短視頻推薦場景下的帶約束多目標(biāo)優(yōu)化問題。

在短視頻推薦單列場景中,用戶通過上下滑形式和系統(tǒng)進(jìn)行交互,觀看多個視頻。用戶對每個視頻反饋 2 種信號,播放時長以及互動(關(guān)注、點贊、評論、收藏、分享等)。由于播放時長稠密與留存和 DAU 相關(guān)度高,短視頻推薦系統(tǒng)主優(yōu)化目標(biāo)是提升總觀看視頻時長,這一問題可以由強化學(xué)習(xí)方法有效解決;另一方面,由于互動指標(biāo)能一定程度地反應(yīng)用戶滿意度,和留存有相關(guān)性,我們希望算法也能夠滿足互動指標(biāo)約束,

因此本文將短視頻推薦建模成一個約束強化學(xué)習(xí)問題(CMDP),目標(biāo)是在滿足互動指標(biāo)約束情況下最大化視頻播放時長。然而現(xiàn)有約束強化學(xué)習(xí)算法由于以下原因并不適用:第一單一 Critic 模型聯(lián)合預(yù)估時長將會主導(dǎo)互動;第二短視頻推薦系統(tǒng)存在多個約束目標(biāo),直接優(yōu)化約束強化學(xué)習(xí)對偶問題需要對拉格朗日超參進(jìn)行搜索,這會帶來極大的搜索成本。

我們提出 Two-Stage Constrained Actor-Critic(TSCAC)算法:

  • 第一階段:對于每個互動輔助信號,學(xué)習(xí)不同 policy 優(yōu)化對應(yīng)的信號;
  • 第二階段,學(xué)習(xí) policy 優(yōu)化播放時長目標(biāo),同時滿足和第一階段學(xué)習(xí)到的 policy 的距離約束。我們在理論上得到了第二階段問題的最優(yōu)解并提出新的優(yōu)化 loss。通過在  KuaiRand 數(shù)據(jù)集的離線評估和快手 App 在線 A/B 測試,我們證明 TSCAC 顯著優(yōu)于 Pareto 優(yōu)化以及 State of the Art 約束強化學(xué)習(xí)算法。TSCAC 算法已經(jīng)在快手 App 全量。

1、問題建模

圖片

我們把短視頻推薦系統(tǒng)看作 agent,用戶視為環(huán)境,每當(dāng)用戶打開 App,開啟一個 session,一個 session 包括多次請求。每次請求是一個 step,推薦系統(tǒng)(agent)根據(jù)當(dāng)前用戶的 state,返回一個 action(視頻)給用戶。用戶看到視頻后反饋多個 reward 信號(觀看時長,點贊、關(guān)注、評論、轉(zhuǎn)發(fā)等互動信號)。用戶離開 App 這個 session 結(jié)束。推薦系統(tǒng)目標(biāo)為最大化 session 累計觀看時長,同時滿足互動約束。推薦系統(tǒng)的優(yōu)化目標(biāo)為學(xué)習(xí)一個推薦策略(policy), 求解以下 program。

圖片


2、TWO-STAGE CONSTRAINED ACTOR-CRITIC 算法

為了解決上述挑戰(zhàn),我們提出兩階段約束強化學(xué)習(xí)算法(Two-stage constrained actor-critic, TSCAC),我們針對不同的反饋信號,采取不同的 Critic 模型進(jìn)行預(yù)估。策略優(yōu)化方面,第一階段分別學(xué)習(xí)策略優(yōu)化相應(yīng)的輔助目標(biāo),第二階段我們最大化主目標(biāo)時長,并且增加第一階段預(yù)訓(xùn)練得到策略的距離約束。

  • Stage One: Policy Learning for Auxiliary Response

我們對于每個目標(biāo)分別用不同的策略進(jìn)行學(xué)習(xí),用 Temporal Difference(TD) loss 的形式來訓(xùn)練 Critic:

圖片

我們采用 Actor-Critic 算法常用的 advantage-based loss 來訓(xùn)練 Actor:

圖片


  • Stage Two: Softly Constrained Optimization of the Main Response

第二階段我們需要最大化主目標(biāo)時長收益,但是也需要兼顧輔助目標(biāo)?;诘谝浑A段學(xué)習(xí)到的輔助策略隱含了輔助目標(biāo)信息的假設(shè),我們學(xué)習(xí)策略最大化主目標(biāo),同時約束主策略和其他輔助策略不會距離太遠(yuǎn),即:

圖片

然而這個問題需要加很多 KL 約束不好直接優(yōu)化策略,我們可以證明(5)對偶問題存在以下最優(yōu)解形式:

圖片

因此我們學(xué)習(xí)策略最小化和最優(yōu)解的 KL 距離:

圖片

這個 loss 的動機在于輔助策略 \pi_{\theta_i}提供了 action 的重要性,如果輔助策略覺得這個 action 很差,那么這個 action 的樣本重要性會很低。\lambda_i 代表了約束強弱,值越大提供約束越強,極端情況為 0 時意味著不加任何約束,公式(7)和直接優(yōu)化主目標(biāo)等價。實際應(yīng)用時候我們設(shè)置所有輔助目標(biāo)都采用的超參值,有效地縮減搜索空間。

3、離線實驗

我們將 TSCAC 算法在 KuaiRand 公開數(shù)據(jù)集進(jìn)行驗證,對比了 BC(Behavior Cloning)Wide&Deep、DeepFM 監(jiān)督學(xué)習(xí)算法,State of the Art 約束強化學(xué)習(xí)方法 RCPO,以及 Pareto 優(yōu)化推薦算法。

圖片

表 2 結(jié)果證明,TSCAC 方法不僅在主目標(biāo) WatchTime 顯著優(yōu)于其他算法,并且在Click,Like,Comment 等指標(biāo)也取得了最好的效果。注意到 Pareto 優(yōu)化方法沒有主次之分,學(xué)到降低 Hate 的一個 pareto 最優(yōu)點,但是主目標(biāo)相比 BC 算法負(fù)向。

4、在線實驗

我們在快手短視頻推薦系統(tǒng)進(jìn)行在線 A/B 實驗,基線為 Learning to Rank 算法,實驗組為 TSCAC、RCPO 以及只學(xué)習(xí)互動的 Actor-Critic 算法(Interaction-AC)。

圖片

表 3 展示了算法收斂后,不同指標(biāo)的百分比提升對比??梢园l(fā)現(xiàn) TSCAC 算法相比 RCPO 不僅主目標(biāo)更好(0.1% 的 watchtime 就視為統(tǒng)計顯著),并且輔助目標(biāo)也是全面正向,對比 Interaction-AC 算法的互動指標(biāo)也非常接近。下圖展示了 TSCAC 算法訓(xùn)練到收斂每天的效果變化。

圖片

二、基于強化學(xué)習(xí)的多任務(wù)推薦框架

下面介紹第二個工作,同樣也是強化學(xué)習(xí)在多任務(wù)優(yōu)化上的應(yīng)用。這篇工作是快手和香港城市大學(xué)的合作項目,是一個典型的多任務(wù)優(yōu)化問題。

圖片


1、摘要

近年來,多任務(wù)學(xué)習(xí)(MTL)在推薦系統(tǒng)(RS)應(yīng)用中取得了巨大的成功。然而,目前大部分基于 MTL 的推薦模型往往忽略了用戶與推薦系統(tǒng)互動的會話(session)模式,因為它們主要是依據(jù)基于單個 item 的數(shù)據(jù)集而構(gòu)建。平衡多個輸出目標(biāo)一直是該領(lǐng)域的一個挑戰(zhàn)。為了解決這個問題,我們提出了一個基于強化學(xué)習(xí)(RL)的 MTL 框架,即 RMTL 。該框架使用動態(tài)權(quán)重來平衡不同推薦任務(wù)的損失函數(shù)。具體來說,RMTL 結(jié)構(gòu)可以通過以下方式解決上述兩個問題:

  • 從 session 尺度構(gòu)建 MTL 環(huán)境。
  • 訓(xùn)練多任務(wù) actor-critic 網(wǎng)絡(luò)結(jié)構(gòu),并能與現(xiàn)有的基于 MTL 的推薦模型兼容。
  • 使用 critic 網(wǎng)絡(luò)生成的權(quán)重來優(yōu)化和微調(diào) MTL 損失函數(shù)。

在基于 KuaiRand 等多個公開數(shù)據(jù)集的實驗證明了 RMTL 的有效性,其 AUC 顯著高于 SOTA 基于 MTL 的推薦模型。我們還驗證 RMTL 在各種 MTL 模型中的表現(xiàn),證明其具有良好的兼容性和可轉(zhuǎn)移性。

2、問題建模

我們構(gòu)建基于 session 的 MDP 用于 RL 訓(xùn)練,以此來提高 MTL 模型的性能。經(jīng)典的 MTL 方法通常面臨將序列性的用戶行為引入建模的困難,因為用戶行為的時間戳高度相關(guān),而建立在 MDP 序列之上的強化學(xué)習(xí)可以解決這個問題。對于每個會話 session,狀態(tài)轉(zhuǎn)移記錄是由原始數(shù)據(jù)集中存儲的時間戳分隔的。這種構(gòu)造可以生成按順序組織的 session MDP 序列,具有整體損失權(quán)重更新的優(yōu)點。馬爾科夫過程由狀態(tài)(state),動作(action),獎勵函數(shù)(reward function),轉(zhuǎn)移函數(shù)(transition function)組成。狀態(tài)空間 S 是狀態(tài)的集合,其中包含 user-item 組合特征。行動空間 A 是連續(xù)動作的集合,其中每個元素在 A 中表示 CTR 和 CTCVR 的預(yù)測值。為了與 BCE 損失的定義保持一致,我們使用負(fù) BCE 值定義每個步驟的獎勵函數(shù)。

3、算法

我們提出 RMTL 框架:使用狀態(tài)表示網(wǎng)絡(luò)將數(shù)據(jù)特征轉(zhuǎn)換為狀態(tài)信息。Actor 網(wǎng)絡(luò)可以是任何基本的 MTL 模型,輸出特定的動作向量。Critic 網(wǎng)絡(luò)用來提高 Actor 網(wǎng)絡(luò)的性能,并為特定任務(wù)生成自適應(yīng)調(diào)整的損失權(quán)重。

圖片

其中狀態(tài)表示網(wǎng)絡(luò)是由嵌入層和多層感知機組成的,以提取 user-item 特征。分類特征首先被轉(zhuǎn)換為二進(jìn)制向量,然后輸入到嵌入層中。此外,數(shù)值特征通過線性變換轉(zhuǎn)換為相同的維度。以上過程轉(zhuǎn)化得到的特征將被合并并進(jìn)一步作為另一個 MLP 網(wǎng)絡(luò)的輸入。

在強化學(xué)習(xí)的框架下,Actor 網(wǎng)絡(luò)可以被稱為策略代理。以 ESMM 為例:共享底層被移除,我們使用兩個平行的神經(jīng)網(wǎng)絡(luò),由 ??1 和 ??2 進(jìn)行參數(shù)化,分別表示兩個任務(wù)的 Tower 層。每個 Tower 層的輸出是確定性的動作值,代表特定任務(wù)的預(yù)測值。在 MDP 序列的訓(xùn)練過程完成后,本文基于加權(quán) BCE loss 計算總體的損失函數(shù),以解決收斂問題。

圖片

本文提出了一種 Multi-critic 結(jié)構(gòu),其中有兩個并行的 MLP 網(wǎng)絡(luò)共享一個底層網(wǎng)絡(luò)。Critic 網(wǎng)絡(luò)的第一部分是一個共享的底層網(wǎng)絡(luò),它同時轉(zhuǎn)換 user-item 特征和 Action 信息。然后將用戶 item 特征和 Action 信息組合為兩個可微的行動價值網(wǎng)絡(luò)的輸入,這些網(wǎng)絡(luò)由????參數(shù)化并輸出估計的 Q 值,并且本文計算平均 Temporal Difference(TD)誤差 ??以更新 critic 網(wǎng)絡(luò)。目標(biāo)損失函數(shù)的權(quán)重沿著 Q 值方向反向調(diào)整,以此來改善 actor 網(wǎng)絡(luò)的優(yōu)化過程。

圖片

整體算法過程如下:給定 user-item 組合特征,狀態(tài)表示網(wǎng)絡(luò)生成基于輸入特征的狀態(tài)。然后,我們從 Actor 網(wǎng)絡(luò)中提取狀態(tài)信息獲取動作。動作值和 user-item 組合特征經(jīng)過 MLP 層和嵌入層進(jìn)一步處理,作為 Critic 網(wǎng)絡(luò)的輸入,計算每個任務(wù) ??的 Critic 網(wǎng)絡(luò) ?? 值。最后,可以根據(jù)每個任務(wù)的 BCE 損失和適應(yīng)權(quán)重估計多任務(wù)的整體損失函數(shù) L。

4、實驗

本文主要在兩個基準(zhǔn)數(shù)據(jù)集,RetailRocket 和 Kuairand 上進(jìn)行實驗。評估指標(biāo)是 AUC 分?jǐn)?shù),logloss 和 s-logloss(定義為所有會話的平均 Logloss)。由于本文的 RMTL 結(jié)構(gòu)修改了 MTL 目標(biāo)損失函數(shù),因此選擇了具有其默認(rèn)損失函數(shù)和一個基于 RL 的模型作為基線。本文總共進(jìn)行了3 個實驗:整體效果、可轉(zhuǎn)移性研究和消融實驗,以說明該方法的有效性。

在整體性能和比較方面,本文比較了五個基準(zhǔn)多任務(wù)學(xué)習(xí)模型和 RMTL 模型在兩個不同數(shù)據(jù)集上 CTR/CTCVR 預(yù)測任務(wù)的性能。在大多數(shù)情況下,PLE 模型在所有多任務(wù)學(xué)習(xí)基準(zhǔn)模型中表現(xiàn)最好,這證明 PLE 基準(zhǔn)模型可以提高任務(wù)之間信息共享的效率,以實現(xiàn)更好的預(yù)測性能。本文提出的 RMTL 模型的每個版本都在兩個數(shù)據(jù)集上表現(xiàn)出優(yōu)于相應(yīng)的非 RL 版本基準(zhǔn)模型的結(jié)果。特別是在 RetialRocket 數(shù)據(jù)集上,RMTL 模型的 AUC 增益約為 0.003-0.005,比相應(yīng)的基準(zhǔn)模型高。通過利用強化學(xué)習(xí)框架的序列特性,RMTL 能夠處理基于會話的推薦數(shù)據(jù),并通過自適應(yīng)調(diào)整損失函數(shù)權(quán)重在 CTR/CTCVR 預(yù)測任務(wù)中取得顯著改進(jìn)。

圖片

RMTL 方法在 RetialRocket 數(shù)據(jù)集上的轉(zhuǎn)移性研究中,本文試圖弄清楚從不同的策略學(xué)習(xí)到的 critic 網(wǎng)絡(luò)是否可以應(yīng)用于同一 MTL 基準(zhǔn)模型并提高預(yù)測性能。例如,“mmoe-ESMM”表示應(yīng)用從 MMoE 結(jié)構(gòu)訓(xùn)練的 critic 網(wǎng)絡(luò)的 ESMM 模型??梢钥闯觯?/span>

  • 三個 MTL 模型的預(yù)訓(xùn)練 critic 網(wǎng)絡(luò)可以顯著提高每個基準(zhǔn)模型的 AUC。
  • 三個 MTL 模型的預(yù)訓(xùn)練 critic 網(wǎng)絡(luò)可以顯著降低每個基準(zhǔn)模型的 Logloss。

總的來說,預(yù)訓(xùn)練的 ciritc 網(wǎng)絡(luò)能夠提高大多數(shù) MTL 模型的預(yù)測性能。

圖片

實驗的最后一部分是對于 RetailRocket 數(shù)據(jù)集上 PLE 模型的剖析研究,本文改變了原有設(shè)定中的一些部分,并定義了以下三個變體:

  • CW: 表示對整體損失函數(shù)應(yīng)用恒定權(quán)重,并且不對 actor 網(wǎng)絡(luò)進(jìn)行梯度策略更新,從而消除了 critic 網(wǎng)絡(luò)的貢獻(xiàn)。
  • WL: 表示損失權(quán)重受到 session 行為標(biāo)簽的控制。
  • NLC: 不對損失權(quán)重執(zhí)行線性變換,而是直接將負(fù) Q 值分配給損失權(quán)重。

可以觀察到:

  • CW 在兩個預(yù)測任務(wù)的 AUC 和 logloss 指標(biāo)上表現(xiàn)最差。
  • WL 和 NLC 在本研究中的表現(xiàn)幾乎相同,優(yōu)于 CW 變體,AUC 提高了 0.002-0.003。

使用本文提出的總損失設(shè)置的 RMTL-PLE 在兩個任務(wù)上均取得了最佳表現(xiàn),說明了該線性組合權(quán)重設(shè)計的有效性。

圖片

圖片

最后總結(jié)一下 RMTL 和 MTL 的一些經(jīng)驗。

推薦系統(tǒng)在長期優(yōu)化的時候,尤其是在長期優(yōu)化復(fù)雜指標(biāo)的時候,是非常典型的強化學(xué)習(xí)和多任務(wù)優(yōu)化場景。如果是主副目標(biāo)聯(lián)合優(yōu)化,可以通過 soft-regularization 去約束目標(biāo)學(xué)習(xí)。多目標(biāo)聯(lián)合優(yōu)化時,考慮到不同目標(biāo)的動態(tài)變化,也能夠提升它的優(yōu)化效果。除此之外也有一些挑戰(zhàn),比如在強化學(xué)習(xí)不同模塊結(jié)合時,會對系統(tǒng)的穩(wěn)定性帶來很多挑戰(zhàn)。這時對數(shù)據(jù)質(zhì)量的把控以及 label 的準(zhǔn)確性的把控,和模型預(yù)估的準(zhǔn)確率的監(jiān)督是非常重要的途徑。另外,推薦系統(tǒng)和用戶因為是直接交互,不同目標(biāo)在反映用戶體驗的時候,僅僅是片面的反應(yīng),所以得到的推薦策略也會非常的不同。在不斷變化的用戶狀態(tài)下,還要聯(lián)合優(yōu)化,提升用戶的全面體驗,這在未來肯定是非常重要的課題。

三、問答環(huán)節(jié)

Q1:快手的時長信號和互動信號一般用的是什么 loss?是分類還是回歸?互動目標(biāo)和觀看目標(biāo)離線評估一般看哪些指標(biāo)?

A1:時長指標(biāo)是最典型的回歸任務(wù)。但是我們同樣也注意到,時長的預(yù)估是和視頻本身的長度強相關(guān)的。比如短視頻和長視頻的分布就會非常不一樣。所以在預(yù)估時要先對其做分類處理,然后再做 regression。

最近在 KDD 也有一篇文章,用樹方法去拆分時長信號預(yù)估??梢园褧r長分成長視頻和短視頻,各有各自的預(yù)估范圍,然后可以用樹的方法進(jìn)行更細(xì)致的劃分。長視頻可以分成中視頻和長視頻,短視頻也可以分成超短視頻和短視頻。整體效果上來看,目前還是在分類的框架下,然后再做 regression,效果會稍微好一點。其他的互動指標(biāo)預(yù)估,和現(xiàn)有的預(yù)估方法類似。

離線評估一般會同時關(guān)注 AUC 和 GAUC。時長我們主要看的是 online 的指標(biāo)。離線和線上的評估也存在差異。如果離線的評估沒有 significant 的 improvement 的話,那線上一般也不一定能看到對應(yīng)的提升效果。

Q2:是否遇到過數(shù)據(jù)特別稀疏,或者要調(diào)的某個目標(biāo)本身特別稀疏的情況?如果基于線上數(shù)據(jù)調(diào)參,那反饋周期可能較長,這樣調(diào)參效率會不會比較低?這種情況下有什么解決辦法?

A2:我們最近也有一些工作去討論這種極其稀疏的情況,甚至是幾天才會有反饋信號。其中最典型的就是用戶的留存。因為用戶可能離開之后,過幾天才會回來。拿到信號的時候,模型已經(jīng)更新過好幾天了。解決這類問題有一些折中的方案,可以去分析一下實時的指標(biāo),或者實時的反饋信號有哪些和這種極其稀疏的信號有相關(guān)性。然后可以通過優(yōu)化這些實時的信號去間接地優(yōu)化長期信號。

以留存為例。我們發(fā)現(xiàn)它和用戶的實時觀看時長是強正相關(guān)的。一般用戶觀看時長增長,就代表了用戶對系統(tǒng)的粘度提高。這樣基本上能夠保證用戶留存的下界。我們?nèi)?yōu)化留存的時候,一般會使用一些其他相關(guān)的指標(biāo)去優(yōu)化留存。

Q3:快手的多目標(biāo)融合用強化學(xué)習(xí)這種方式的時候,一般會使用哪些優(yōu)化特征?是不是會存在一些很精細(xì)的特征,比如用戶的 ID?會不會導(dǎo)致模型收斂非常困難?

A3:User ID 其實還好,我們的 User 特征,除了有 ID 特征以外,還會有一些統(tǒng)計特征。除此之外在推薦鏈路上,RL 在我們的應(yīng)用模塊是處于比較靠后的階段,比如精排和重排階段。在前面的一些階段也會給出一些預(yù)估和模型的排序信號。這些都有一些用戶的信號在里面。所以目前推薦的強化學(xué)習(xí),在推薦的場景下拿到的User 側(cè)的信號還是很多的,基本上不會出現(xiàn)只用 User ID 的這種情況。

我們發(fā)現(xiàn)如果不用 User ID 的話,對個性化影響比較大。如果只用一些用戶的統(tǒng)計特征,有的時候不如 User ID 的提升效果那么大。如果讓 User ID 的影響占比太大的話,會有波動性的問題。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-10-12 17:14:12

2022-09-28 15:34:06

機器學(xué)習(xí)語音識別Pytorch

2023-11-29 07:25:58

2021-09-17 15:54:41

深度學(xué)習(xí)機器學(xué)習(xí)人工智能

2024-12-18 07:20:00

2022-11-02 14:02:02

強化學(xué)習(xí)訓(xùn)練

2020-11-12 19:31:41

強化學(xué)習(xí)人工智能機器學(xué)習(xí)

2024-12-09 08:45:00

模型AI

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2023-06-25 11:30:47

可視化

2024-08-28 13:53:42

多代理強化學(xué)習(xí)機器人

2023-07-20 15:18:42

2023-08-28 06:52:29

2023-04-23 10:12:14

算法強化學(xué)習(xí)

2024-05-30 16:37:29

2017-07-25 16:04:31

概念應(yīng)用強化學(xué)習(xí)

2020-06-05 08:09:01

Python強化學(xué)習(xí)框架
點贊
收藏

51CTO技術(shù)棧公眾號