自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手短視頻推薦中的因果推斷實踐

人工智能
本文將分享因果推斷技術(shù)在快手短視頻推薦中的應(yīng)用??焓侄桃曨l推薦場景中,以單列為主要形式。用戶通過上下滑動的行為模式瀏覽視頻,視頻一旦被滑到即自動播放,無需用戶先選擇再點擊觸發(fā)播放。

一、快手單列短視頻推薦場景

1、關(guān)于快手

圖片

*數(shù)據(jù)取自于2023年二季度

快手是一個國民級的短視頻和直播社區(qū)應(yīng)用,其 MAU 和 DAU 在今年第二季度創(chuàng)下了新高。快手的核心理念是觀察并分享每個普通人的生活。在快手的 APP 中,短視頻場景主要有單列和雙列兩種。目前,單列的流量較大,其體驗主要是沉浸式的上下滑動。雙列的呈現(xiàn)形式與信息流類似,用戶需要從屏幕上出現(xiàn)的幾個內(nèi)容中選擇感興趣的點擊觀看。推薦算法是快手業(yè)務(wù)生態(tài)中的核心,在流量分發(fā)和提升用戶體驗方面發(fā)揮了重要作用。

2、快手單列短視頻推薦場景

圖片

快手短視頻推薦場景中,以單列為主要形式。用戶通過上下滑動的行為模式瀏覽視頻,視頻一旦被滑到即自動播放,無需用戶先選擇再點擊觸發(fā)播放。此外,用戶反饋形式非常豐富,包括關(guān)注、點贊、評論分享和進(jìn)度條拖動等,隨著業(yè)務(wù)發(fā)展,互動形式也日趨多樣化。優(yōu)化目標(biāo)包括長期目標(biāo)和短期目標(biāo),長期目標(biāo)包括優(yōu)化用戶體驗和留存 DAU 等,短期指標(biāo)則涵蓋了用戶的各種正向反饋。

推薦系統(tǒng)的建立基于機器學(xué)習(xí)和深度學(xué)習(xí),日志主要來源于用戶實際行為產(chǎn)生的特征和反饋。然而,日志存在局限性,只能反映用戶當(dāng)前興趣的有限信息,而真實姓名、身高體重等隱私信息無法獲取。同時,推薦算法是基于以前的日志學(xué)習(xí)訓(xùn)練得到的,再去為用戶推薦,存在自循環(huán)的特點。此外,由于受眾廣泛且差異大,視頻數(shù)量龐大且更新頻繁,推薦系統(tǒng)容易出現(xiàn)各種偏差,如流行度偏差、長短視頻曝光偏差等。在短視頻推薦中,利用因果推斷技術(shù)進(jìn)行偏差建模有助于糾偏并提升推薦效果。

二、因果推斷技術(shù)與模型表示

接下來分享我們與兄弟團(tuán)隊在因果推斷和模型表示方面的工作。

1、背景

圖片

推薦系統(tǒng)通常通過交互日志進(jìn)行模型學(xué)習(xí)。用戶的反饋可能來自于對內(nèi)容的喜好,但我們也注意到用戶存在從眾心理。例如,在選擇電影時,除了個人喜好,用戶還可能受到作品獲獎情況或周圍人的影響。這種從眾心理在不同用戶之間存在差異,有的用戶比較有主見,而有的用戶可能更易受他人或熱度的影響。因此,在用戶交互歸因上,除了考慮用戶的興趣,還要考慮從眾心理。

現(xiàn)有工作大多將流行度視為靜態(tài)偏差,如電影的流行度僅與 item 相關(guān),且在建模用戶與 item 評分時未考慮用戶間的偏差。流行度通常被作為一個單獨的評分項,與 item 的曝光次數(shù)相關(guān),而對流行度較低的 item 偏差較少。這種建模方式是靜態(tài)的,并且與 item 相關(guān)。隨著因果推斷技術(shù)在推薦領(lǐng)域的應(yīng)用,一些研究嘗試通過解耦表示來處理這個問題,考慮用戶選擇 item 時的從眾心理差異。與現(xiàn)有方法相比,我們的方法能夠更準(zhǔn)確地建模用戶的從眾心理差異,從而更有效地糾偏并提升推薦效果。

2、相關(guān)工作

圖片

在 Webconf2021 的一篇論文中,用戶交互被建模為既受用戶對 item 的興趣影響,又受 item 對用戶在選擇 item 時的從眾心理程度影響。因果關(guān)系圖如左圖所示,關(guān)系相對簡單。在具體建模時,user 和 item 的表示被拆分為興趣表示和從眾性表示。對于興趣表示,構(gòu)建了一個興趣 loss;對于從眾性表示,構(gòu)建了一個 confirmation loss;針對反饋行為,構(gòu)建了一個 click loss。由于表示結(jié)構(gòu)的拆分,interest loss 被用作監(jiān)督信號來學(xué)習(xí) interest 表示,而 confirmation loss 用于建模從眾心理表示。Click loss 與兩個因素相關(guān),因此通過連接和交叉來構(gòu)建。整個處理方式既清晰又簡單。

在構(gòu)建 interest loss 和 confirmation loss 時,該研究還運用了因果推斷中的一些概念和技術(shù)。例如,如果一個不流行的視頻或商品獲得了正向交互,則很可能是由于用戶真正喜歡它。這可以通過反向驗證來確認(rèn):如果一個商品既不流行,同時用戶又對其不感興趣,則不太可能有正向交互。至于 click loss,則采用了一種常見的處理方式,即 pairwise loss。關(guān)于 colliding effect,感興趣的讀者可以查閱論文以獲取更詳細(xì)的構(gòu)建方式。

圖片

在解決推薦系統(tǒng)中的復(fù)雜性問題時,有研究從模型表示入手,旨在區(qū)分用戶對 item 的興趣和從眾心理。然而,實際應(yīng)用中存在一些問題。推薦系統(tǒng)中的視頻數(shù)量龐大,曝光量分布不均,頭部視頻曝光次數(shù)多,長尾視頻曝光次數(shù)少,導(dǎo)致數(shù)據(jù)稀疏。稀疏性給機器學(xué)習(xí)模型帶來學(xué)習(xí)困難。

為解決這一問題,我們引入了對比學(xué)習(xí)進(jìn)行樣本增廣。具體而言,除了用戶與 item 的正向交互外,我們還選取了用戶行為范圍內(nèi)的其他視頻作為負(fù)樣本進(jìn)行擴(kuò)充。同時,我們沿用了因果圖來設(shè)計模型,將 user 和 item 側(cè)的 interest 和 conformity 表示拆分。該模型與傳統(tǒng)的 DICE 的主要區(qū)別在于學(xué)習(xí) interest 和 confirmation 的 loss 時采用了對比學(xué)習(xí)加樣本增廣的方法,并針對 interest loss 和 confirmation loss 分別構(gòu)建了歸一化的 item popularity 的 ratio 指數(shù)項。通過這種方式,可以更好地處理數(shù)據(jù)稀疏問題,并更準(zhǔn)確地建模用戶對不同流行度 item 的興趣和從眾心理。

3、總結(jié)

圖片

該工作基于短視頻交互中的興趣和從眾心理疊加作用,采用了因果推斷技術(shù)與 causal embedding 手段來實現(xiàn)結(jié)構(gòu)表示的解耦。同時,考慮到實際系統(tǒng)中長尾視頻樣本稀疏問題,采用對比學(xué)習(xí)和樣本增廣方法緩解稀疏性。該工作結(jié)合線上表示模型與因果推斷,實現(xiàn)了一定的 conformity 解耦效果。在離線和在線實驗中,該方法表現(xiàn)良好,并成功應(yīng)用于快手推薦 LTR 實驗,帶來了一定的效果提升。

三、觀看時長預(yù)估與因果推斷技術(shù)

1、觀看時長重要性

圖片

在短視頻推薦業(yè)務(wù)中,觀看時長是一個重要的優(yōu)化目標(biāo),它與用戶留存、DAU 和回訪率等長期指標(biāo)密切相關(guān)。為了提升用戶體驗,我們需要關(guān)注在給用戶推薦視頻時的中間行為指標(biāo)。經(jīng)驗表明,觀看時長是一個非常有價值的指標(biāo),因為用戶的注意力有限。通過觀察用戶觀看時長的變化,可以更好地理解哪些因素影響了用戶的觀看體驗。

視頻長度是影響觀看時長的重要因素之一。隨著視頻長度的增加,用戶的觀看時長也會相應(yīng)增加,但過長的視頻可能會導(dǎo)致邊際效應(yīng)遞減,甚至觀看時長會略有下降。因此,推薦系統(tǒng)需要找到一個平衡點,以推薦適合用戶需求的視頻長度。

為了優(yōu)化觀看時長,推薦系統(tǒng)需要預(yù)測用戶的觀看時長。這涉及到回歸問題,因為時長是一個連續(xù)值。然而,時長相關(guān)工作較少,可能是因為短視頻推薦業(yè)務(wù)相對較新,而推薦系統(tǒng)研究的歷史較長。

在解決觀看時長預(yù)估問題時,可以考慮視頻長度以外的其他因素,例如用戶興趣、視頻內(nèi)容質(zhì)量等。通過綜合考慮這些因素提高預(yù)測的準(zhǔn)確性,并為用戶提供更好的推薦體驗。同時,我們也需要不斷迭代和優(yōu)化推薦算法,以適應(yīng)市場的變化和用戶需求的變化。

2、D2Q

圖片

在 KDD212 會議上,我們提出了一種解決短視頻推薦中時長預(yù)估問題的新方法。該問題主要源于因果推斷中的 duration bias 自我強化現(xiàn)象。為了解決這一問題,我們引入了因果圖來描述用戶、視頻和觀看時長之間的關(guān)系。

在因果圖中,U 和 V 分別代表用戶和視頻的特征表示,W 代表用戶觀看視頻的時長,D 代表視頻的長度。我們發(fā)現(xiàn),由于推薦系統(tǒng)的自循環(huán)生成過程,duration 不僅與觀看時長直接相關(guān),還會影響視頻表示的學(xué)習(xí)。

為了消除 duration 對視頻表示的影響,我們運用 do calculus 進(jìn)行了推導(dǎo)。最終的結(jié)論表明,為了通過后門調(diào)整解決這個問題,最簡單直接的方法是為每一種 duration 的視頻對應(yīng)的樣本單獨估計觀看時長。這樣就能消除 duration 對觀看時長的放大效應(yīng),從而有效地解決因果推斷中的 duration bias 問題。這種方法的核心思想是消除 d 到 v 的誤差,從而實現(xiàn)對 bias amplification 的緩解。

圖片

在解決短視頻推薦中的時長預(yù)估問題時,我們采用了基于因果推斷的方法,以消除 d 到 v 的誤差并實現(xiàn)對 bias amplification 的緩解。為了處理 duration 作為連續(xù)變量以及視頻數(shù)量分布的問題,我們對推薦池中的視頻根據(jù) duration 進(jìn)行分組,并使用分位數(shù)進(jìn)行計算。每個分組內(nèi)的數(shù)據(jù)被拆分后,用于訓(xùn)練組內(nèi)的模型。在訓(xùn)練過程中,回歸的是每個 duration 分組內(nèi)視頻時長對應(yīng)的分位數(shù),而不是直接回歸時長。這樣可以降低數(shù)據(jù)的稀疏性并避免模型過擬合。在線上推理時,對于每個視頻,首先找到其對應(yīng)的分組,然后計算出對應(yīng)的時長分位數(shù)。通過查表,可以根據(jù)分位數(shù)找到實際的觀看時長。這種方法簡化了線上推理過程,提升了時長預(yù)估的準(zhǔn)確性。綜上所述,我們的方法通過消除 d 到 v 的誤差,有效解決了短視頻推薦中的時長預(yù)估問題,為優(yōu)化用戶體驗提供了有力支持。

圖片

在解決短視頻推薦中的時長預(yù)估問題時,我們還引入了參數(shù)共享的方法來降低技術(shù)難度。在拆分訓(xùn)練過程中,一種理想的方式是實現(xiàn)數(shù)據(jù)、特征和模型的完全分離,但這樣會帶來部署成本的增加。因此,我們選擇了更為簡便的方式,即共享底層特征的 embedding 和中間層的模型參數(shù),僅在輸出層進(jìn)行拆分。為了進(jìn)一步擴(kuò)大 duration 對實際觀看時長的影響,我們引入了一個殘差連接,將 duration 直接連接到輸出預(yù)估時長的分位數(shù)的部分,從而增強了 duration 的影響力。這種方法降低了技術(shù)難度,并有效地解決了短視頻推薦中的時長預(yù)估問題。

圖片

圖片

在實驗中,主要使用了快手發(fā)布的公開數(shù)據(jù)集。通過對比幾種方法可以看到,直接回歸和時長加權(quán)模型的表現(xiàn)各有千秋。時長加權(quán)模型在推薦系統(tǒng)中并不陌生,其核心思想是將觀看時長作為正樣本的權(quán)重納入模型中。而 D2Q 和 Res-D2Q 則是兩種基于因果推斷的模型結(jié)構(gòu),其中 Res-D2Q 引入了殘差連接。通過實驗,我們發(fā)現(xiàn)將視頻按照 duration 分組至 30 組時能達(dá)到最佳效果。與樸素的回歸模型相比,D2Q 方法有顯著提升,并能在一定程度上緩解 duration bias 自循環(huán)放大問題。然而,從時長預(yù)估問題的角度來看,挑戰(zhàn)仍未完全解決。

3、TPM

圖片

時長預(yù)估問題作為推薦系統(tǒng)中的核心問題,具有其獨特的特點和挑戰(zhàn)。首先,回歸模型無法反映推薦結(jié)果的順序關(guān)系,使得即使在回歸誤差相同的情況下,實際推薦結(jié)果也可能大相徑庭。此外,預(yù)估模型除了要保證預(yù)估值的準(zhǔn)確性,還需要考慮模型給出的預(yù)估值的置信度。一個值得信賴的模型不僅應(yīng)給出準(zhǔn)確的預(yù)估值,還應(yīng)以高概率給出該預(yù)估值。因此,在解決時長預(yù)估問題時,我們不僅要關(guān)注回歸的精準(zhǔn)度,還要考慮模型的置信度,以及預(yù)估值的順序關(guān)系。

圖片

在觀看行為中,用戶連續(xù)觀看視頻的行為存在條件依賴關(guān)系。具體來說,如果觀看整個視頻是一個隨機事件,那么先看完 50% 的視頻也是一個隨機事件,它們之間存在嚴(yán)格的條件依賴關(guān)系。解決偏差放大問題在觀看時長預(yù)估中非常重要,而 D2Q 方法很好地解決了這一問題。相比之下,我們提出的 TPM 方法旨在全面覆蓋所有時長預(yù)估問題。

圖片

TPM 方法的主要思想是將時長預(yù)估問題轉(zhuǎn)化為離散的搜索問題。通過構(gòu)建一個完全的二叉樹,將時長預(yù)估問題轉(zhuǎn)化為若干個互相有條件依賴的分類問題,然后使用二分類分類器解決這些分類問題。通過不斷地向下進(jìn)行二分搜索,確定觀看時長在每個有序區(qū)間內(nèi)的概率,最終形成觀看時長的一個多項分布。這種方法能夠有效地解決不確定性建模問題,使預(yù)估時長的均值與真實值盡可能接近,同時減小預(yù)估時長的方差。整個觀看時長的問題或者預(yù)估過程就可以逐漸通過不斷地解決互相依賴的二分類問題來求解。這種方法為解決時長預(yù)估問題提供了一種新的思路和框架,能夠提高預(yù)估準(zhǔn)確性和置信度。

圖片

在介紹 TPM 的建模關(guān)鍵時長思路時,展示了 TPM 與 D2Q 的后門調(diào)整之間的無縫連接。這里通過一個簡單的因果圖,將用戶和 item 側(cè)的特征與混雜因子進(jìn)行關(guān)聯(lián)。為了實現(xiàn) TPM 里面的后門調(diào)整,需要為每個混雜因子取值的樣本構(gòu)建一個對應(yīng)的模型,并為每個混雜因子構(gòu)建一個對應(yīng)的 TPM 樹。完成這兩個步驟后,TPM 就能與后門調(diào)整進(jìn)行無縫連接。這種連接方式使得模型能夠更好地處理混雜因子,提高預(yù)測準(zhǔn)確性和置信度。

圖片

具體的解決方法是,針對每個深層次的混雜因子構(gòu)建一個對應(yīng)的模型,與 D2Q 一樣,這也會帶來數(shù)據(jù)稀疏和模型參數(shù)過多的問題,需要 share-bottom 的處理,將每個混雜因子的樣本都整合到一個相同的模型中,但模型的底層 embedding 表示、中間參數(shù)等都是共享的,只是在輸出層部分與實際的節(jié)點和干擾因子取值相關(guān)。在訓(xùn)練時,只需要找到每條訓(xùn)練樣本對應(yīng)的真實葉子節(jié)點即可進(jìn)行訓(xùn)練。而在預(yù)估時,由于不知道觀看時長屬于哪個葉子節(jié)點,因此需要進(jìn)行從頂?shù)降椎谋闅v,將觀看時長所處每個葉子節(jié)點的概率和對應(yīng)葉子節(jié)點的期望時長進(jìn)行加權(quán)求和,以得到實際的觀看時長。這種處理方式使得模型能夠更好地處理混雜因子,提高預(yù)測準(zhǔn)確性和置信度。

圖片

圖片

在快手公開數(shù)據(jù)集和 CIKM16 關(guān)于停留時長的數(shù)據(jù)集上,我們進(jìn)行了實驗,對比了 WLR、D2Q 和 OR 等方法,結(jié)果顯示TPM具有顯著的優(yōu)勢。每個模塊都有其特定的作用,我們也進(jìn)行了缺省實驗,實驗結(jié)果表明每個模塊都發(fā)揮了作用。我們還在線上實驗了 TPM,實驗條件是將快手的精選流量均勻劃分為十組,20% 的流量作為基線和在線實驗組進(jìn)行對比。實驗結(jié)果顯示,TPM 在排序階段能夠顯著提升用戶的觀看時長,同時其他指標(biāo)基本持平。值得注意的是,負(fù)向指標(biāo)如用戶短波的數(shù)量也有所下降,我們認(rèn)為這與時長預(yù)估的準(zhǔn)確性和預(yù)估不確定性降低有一定的關(guān)系。觀看時長作為短視頻推薦平臺的核心指標(biāo),TPM 的引入對于提升用戶體驗和平臺指標(biāo)具有重要意義。

圖片

總結(jié)一下這部分的介紹。在短視頻推薦平臺中,觀看時長是核心指標(biāo)。解決此問題有兩個層面需要考慮:一是偏差問題,包括 duration bias 和 popularity bias,這需要在整個系統(tǒng)鏈路日志到訓(xùn)練的自循環(huán)中解決;二是時長預(yù)估問題,這本身是一個連續(xù)值的預(yù)測問題,通常對應(yīng)回歸問題。然而,對于特殊的時長預(yù)估回歸問題,需要采用特定的方法處理。首先,針對偏差問題,可以通過后門調(diào)整來緩解,具體做法是將 duration 進(jìn)行分組,為每個組設(shè)計對應(yīng)的模型進(jìn)行回歸。其次,處理時長預(yù)估的回歸問題,可以采用樹結(jié)構(gòu)分解時長預(yù)估,將其分解成若干個層次化的有序區(qū)間,通過樹的遍歷過程,從頂?shù)饺~子節(jié)點的路徑進(jìn)行問題的拆解和解決。在預(yù)估時,通過樹的遍歷來進(jìn)行時長預(yù)估。這種處理方式能夠更有效地解決時長預(yù)估的回歸問題,提高預(yù)測準(zhǔn)確性和置信度。

四、未來展望

圖片

隨著技術(shù)發(fā)展的加速,我們所處的世界變得越來越復(fù)雜。在快手的短視頻推薦場景中,推薦系統(tǒng)的復(fù)雜性也日益凸顯。為了更好地進(jìn)行推薦,我們需要深入研究因果推斷在推薦系統(tǒng)中的應(yīng)用。首先,我們需要定義一個具有業(yè)務(wù)價值的問題,例如觀看時長預(yù)估。然后,我們可以從因果推斷的角度來認(rèn)識和建模這個問題。通過因果調(diào)整或因果推斷的方法,我們可以更好地分析和解決偏差問題,如 duration bias 和 popularity bias。此外,我們還可以利用技術(shù)手段,如機器學(xué)習(xí)和運籌優(yōu)化,來解決系統(tǒng)復(fù)雜性和場景分布性等問題。為了實現(xiàn)高效的解決方案,我們需要找到一個系統(tǒng)化、自動化的方式去解決問題。這樣不僅可以提高工作效率,還可以為業(yè)務(wù)帶來持續(xù)的價值。最后,我們需要關(guān)注技術(shù)的可擴(kuò)展性和成本效益,以確保解決方案的可行性和可持續(xù)性。

綜上所述,因果推斷在推薦系統(tǒng)中的應(yīng)用是一個具有挑戰(zhàn)性和潛力的研究方向。通過不斷探索和實踐,我們可以不斷提升推薦系統(tǒng)的效果,為用戶帶來更好的體驗,并為業(yè)務(wù)創(chuàng)造更大的價值。

以上就是本次分享的內(nèi)容,謝謝大家。

五、問答環(huán)節(jié)

Q1:TPM 相對于 D2Q,在回歸的時候做了一些改進(jìn),能更好地利用時長的依賴關(guān)系。想問下這里的依賴關(guān)系是指什么?

A1:從頭節(jié)點走到葉子節(jié)點可以視為類似 MDP 的持續(xù)決策過程。條件依賴意味著下一層的決策是基于上一層的結(jié)果。例如,為了達(dá)到葉子節(jié)點也就是區(qū)間[0,1],必須先經(jīng)過中間節(jié)點,也就是區(qū)間[0,2]。這種依賴關(guān)系在實際上線預(yù)估時,通過每個只解決特定節(jié)點是否要走到下一個葉子節(jié)點的分類器得以實現(xiàn)。這就像在猜年齡的例子中,首先詢問年齡是否大于 50 歲,然后根據(jù)回答再問是否大于 25 歲。這里隱含了一個條件依賴關(guān)系,即小于 50 歲是回答第二個問題的前提。

Q2:采用樹模型,會給模型訓(xùn)練以及線上推斷的開銷會帶來困難嗎?

A2:在 TPM 和 D2Q 的優(yōu)勢對比中,主要優(yōu)勢在于問題的拆分。TPM 更好地利用了時序信息,并將問題拆分為若干個樣本相對均衡的二分類問題,這有助于模型訓(xùn)練和學(xué)習(xí)的可學(xué)習(xí)性。相比之下,回歸問題可能會受到離群點等異常值的影響,帶來較大的學(xué)習(xí)不穩(wěn)定性。在實際應(yīng)用中,我們進(jìn)行了大量的實踐工作,包括樣本構(gòu)造和 TF 圖節(jié)點 label 的計算等。線上部署時,我們使用一個模型,但其輸出維度是中間節(jié)點分類器的數(shù)量。對于每個視頻,我們只選擇 duration group 中的一個,并計算對應(yīng)的分類器的輸出。然后通過循環(huán)計算葉子節(jié)點上的分布,最后進(jìn)行加權(quán)求和。雖然模型結(jié)構(gòu)相對簡單,但每個 duration group 和每個非葉子節(jié)點的分類器可以共享底層 embedding 和中間層,因此在前向推理時,除了輸出層外,它與普通模型沒有太大差異。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-09-11 19:36:24

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2022-03-31 11:18:00

數(shù)據(jù)運維短視頻

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預(yù)處理特征設(shè)計

2023-06-28 14:01:13

攜程實踐

2024-01-26 08:31:49

2023-11-23 07:41:54

因果推斷大模型

2023-01-09 08:39:38

因果推斷機器學(xué)習(xí)

2023-10-12 07:32:27

冷啟動推薦模型

2023-08-28 07:15:49

AIGC因果推斷

2021-06-09 15:52:36

快手短視頻

2024-09-29 09:22:00

2023-03-15 21:38:43

短視頻服務(wù)器

2022-12-27 08:19:25

2023-05-04 08:28:30

因果推斷方法算法

2018-08-06 10:50:02

新浪微博短視頻

2024-07-30 08:54:03

2024-05-11 07:57:47

因果推斷知識地圖算法

2025-01-20 08:50:00

點贊
收藏

51CTO技術(shù)棧公眾號