自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

因果推斷在轉(zhuǎn)轉(zhuǎn)推薦場(chǎng)景下的實(shí)踐

開發(fā)
我們?cè)谵D(zhuǎn)轉(zhuǎn)推薦中嘗試結(jié)合因果推斷來解決流行度偏差問題。本文首先講解因果推斷的基本概念,其次介紹因果推斷在推薦系統(tǒng)中的一個(gè)代表性工作MACR,最后展示因果推斷在轉(zhuǎn)轉(zhuǎn)場(chǎng)景下的探索。

對(duì)于推薦系統(tǒng)來說,會(huì)存在著“二八定律”,百分之二十的熱門物料占據(jù)著百分之八十的用戶交互,而推薦模型的目標(biāo)是學(xué)習(xí)打分函數(shù)來預(yù)估用戶對(duì)物料的偏好,并利用這個(gè)估計(jì)值進(jìn)行排序。用戶與物料的交互數(shù)據(jù)呈現(xiàn)長(zhǎng)尾分布,而對(duì)觀測(cè)數(shù)據(jù)做擬合的模型訓(xùn)練時(shí)會(huì)繼承這個(gè)偏差,傾向于給熱門物料更高的分?jǐn)?shù)。如圖所示,模型給用戶推薦物料,用戶在推薦列表上的行為作為訓(xùn)練數(shù)據(jù)用于模型的更新,形成了閉環(huán)。模型由此產(chǎn)生了流行度偏差(popular bias)。

圖片

流行度偏差

流行度偏差的存在并不完全對(duì)推薦系統(tǒng)有害,很多時(shí)候物料是因?yàn)樽陨砀哔|(zhì)量或者時(shí)下趨勢(shì)而變得流行,盲目打擊會(huì)破壞用戶的體驗(yàn)。但是,如果偏差過強(qiáng),不利于物料的分發(fā)和沉淀,也失去了推薦系統(tǒng)“千人千面”的定位。

我們?cè)谵D(zhuǎn)轉(zhuǎn)推薦中嘗試結(jié)合因果推斷來解決流行度偏差問題。本文首先講解因果推斷的基本概念,其次介紹因果推斷在推薦系統(tǒng)中的一個(gè)代表性工作MACR,最后展示因果推斷在轉(zhuǎn)轉(zhuǎn)場(chǎng)景下的探索。

1 因果推斷簡(jiǎn)介

1.1 什么是因果

因果關(guān)系是一種普遍的關(guān)系,描述的是結(jié)果和產(chǎn)生這個(gè)結(jié)果的原因之間的關(guān)聯(lián)。在因果關(guān)系中,因是導(dǎo)致事件發(fā)生的條件或行為,果則是這個(gè)原因?qū)е碌慕Y(jié)果或變化。我們平時(shí)生活中到處都存在著因果問題,上大學(xué)是否會(huì)帶來更多收入?直覺上我們認(rèn)為高等教育會(huì)增加個(gè)人收入,但我們卻很難說清楚沒有上過大學(xué)的人如果上了大學(xué)會(huì)增加多少收入,同時(shí)我們也有看到?jīng)]上過大學(xué)也能賺大錢的人。

我們常常會(huì)想,如果某一時(shí)刻做了另外的選擇,是否生活會(huì)變得完全不一樣呢。時(shí)光無法倒流,另一個(gè)選擇的結(jié)果是永遠(yuǎn)不可知的,因果推斷要做的事情就是去預(yù)估干預(yù)對(duì)結(jié)果的影響,判斷一個(gè)“因”能導(dǎo)致多少“果”。

1.2 相關(guān)性不等于因果性

穿鞋睡覺和醒來頭痛這兩件事存在相關(guān)性,但是我們不能因此得出“穿鞋睡覺會(huì)導(dǎo)致醒來頭痛”的結(jié)論,事實(shí)上,這兩個(gè)事件都可能由第三個(gè)因素,即“睡前喝酒”導(dǎo)致的。這里“睡前喝酒”就是一個(gè)混雜因子,由此引起的關(guān)聯(lián)被稱為混雜關(guān)聯(lián),它會(huì)對(duì)同時(shí)出現(xiàn)的睡覺時(shí)穿鞋和頭痛產(chǎn)生誤導(dǎo),讓人誤以為二者之間存在某種因果關(guān)系。

圖片

相關(guān)性不等于因果性

1.3 兩種代表性的因果框架

1.3.1 結(jié)構(gòu)因果模型

一般來說,結(jié)構(gòu)因果模型(Structural causal model)將變量之間的因果關(guān)系抽象為因果圖,建立結(jié)構(gòu)函數(shù),然后進(jìn)行因果推理來評(píng)估交互效應(yīng)或反事實(shí)條件的影響。

因果模型

因果模型涉及兩個(gè)核心概念:因果圖和結(jié)構(gòu)函數(shù)。具體來說,因果圖通過有向無環(huán)圖(DAG)描述因果關(guān)系,其中節(jié)點(diǎn)代表變量,邊代表因果關(guān)系。根據(jù)因果圖,每個(gè)節(jié)點(diǎn)的值(準(zhǔn)確說是內(nèi)生節(jié)點(diǎn))都可以通過一個(gè)關(guān)于其父節(jié)點(diǎn)的結(jié)構(gòu)函數(shù)計(jì)算獲得,從而知道干預(yù)某個(gè)節(jié)點(diǎn)對(duì)目標(biāo)節(jié)點(diǎn)的影響。

三種典型的有向無環(huán)圖

圖片

三種典型的有向無環(huán)圖

如上圖所示,因果圖中有三種典型的結(jié)構(gòu):鏈?zhǔn)?、叉式和?duì)撞,我們針對(duì)每一種都以推薦系統(tǒng)為例進(jìn)行解釋。

在鏈?zhǔn)浇Y(jié)構(gòu)中,X通過Z間接影響Y。例如,在圖(a)中,用戶特征影響用戶偏好,而用戶偏好進(jìn)一步影響用戶的點(diǎn)擊行為。

在叉式結(jié)構(gòu)中,Z是一個(gè)混雜因子,影響XY。例如,在圖(b)中,一個(gè)商品的質(zhì)量可以影響其價(jià)格以及用戶對(duì)其的偏好。在這種叉式結(jié)構(gòu)中,Z被定義為混雜因子。粗略地忽略混雜因子Z可能導(dǎo)致XY在統(tǒng)計(jì)學(xué)上發(fā)生關(guān)聯(lián),產(chǎn)生偽相關(guān)性。質(zhì)量好的商品通常更受歡迎,質(zhì)量好的商品價(jià)格也更高,這不能證明價(jià)格高的商品更受歡迎。

在圖(c)中,Z代表對(duì)撞,受XY影響。例如,用戶的點(diǎn)擊行為受用戶偏好和商品流行度的影響。給定Y時(shí),XZ之間存在真相關(guān)性。也就是說,對(duì)于同樣暢銷的兩個(gè)商品,用戶是否點(diǎn)擊只取決于他們的偏好。

干預(yù)

反事實(shí)

1.3.2 潛在結(jié)果框架

在進(jìn)行因果推理時(shí),除了前文提到的結(jié)構(gòu)因果模型,還有一個(gè)被廣泛使用的框架叫做“潛在結(jié)果框架”(Potential outcome framework)。潛在結(jié)果框架的特點(diǎn)是,它可以不依賴于因果圖,直接估計(jì)某個(gè)變量(這里稱為“干預(yù)變量”)對(duì)另一個(gè)變量(這里稱為“結(jié)果變量”)的因果效應(yīng)。

潛在結(jié)果

因果效應(yīng)

2 MACR模型

2.1 背景

作者認(rèn)為用戶對(duì)某個(gè)物料的評(píng)分取決于三個(gè)方面,用戶-物料匹配度(user-item matching)、物料流行度(item popularity)和用戶從眾度(user conformity)?,F(xiàn)有的推薦模型主要關(guān)注用戶-物料匹配度(圖a),忽略了物料的流行度是如何影響交互概率的,假設(shè)兩個(gè)物料對(duì)于一個(gè)用戶有相同的匹配度,流行度較高的物料收集到反饋的更多,更有可能被用戶所知(圖b)。除此之外,有些用戶更愿意跟隨潮流,什么火就看什么,有些用戶則不會(huì),加入U->Y這條邊能反應(yīng)用戶的流行敏感度偏差造成的估計(jì)偏差(圖c)。

圖片

因果圖1

文章提出了一個(gè)與模型無關(guān)的反事實(shí)推理框架(MACR),依據(jù)因果圖訓(xùn)練推薦模型,并進(jìn)行反事實(shí)推理,來消除推理階段的流行度偏差(在訓(xùn)練時(shí)兼顧上面三種影響,預(yù)測(cè)時(shí)只考慮用戶和物料的匹配度)。

2.2 反事實(shí)推理

圖片

因果圖2

2.3 框架

理解了這三者的關(guān)系,我們來看文章提出的MACR框架,這個(gè)框架通過多任務(wù)學(xué)習(xí)進(jìn)行訓(xùn)練,執(zhí)行反事實(shí)推理進(jìn)行無偏推薦。

圖片

MACR框架

這個(gè)框架遵循圖c中的因果圖,橙色部分表示傳統(tǒng)的推薦系統(tǒng),藍(lán)色和綠色部分表示物料和商品的模塊??蚣芸梢杂迷谌魏维F(xiàn)有的推薦模塊中。

3 因果推斷在轉(zhuǎn)轉(zhuǎn)場(chǎng)景下的實(shí)踐

我們?cè)谑醉撃J(rèn)tab進(jìn)行了流行度偏差的debias實(shí)驗(yàn),轉(zhuǎn)轉(zhuǎn)首頁默認(rèn)tab是一個(gè)多種物料共存的混合推薦場(chǎng),其中商品維度上只有一個(gè)單獨(dú)的點(diǎn)擊率模型,便于我們觀察實(shí)驗(yàn)效果。

3.1 實(shí)驗(yàn)一

圖片

因果圖

一期方案我們的思路如因果圖中的圖一,商品的流行度不會(huì)對(duì)用戶的偏好產(chǎn)生影響,這樣流行度與用戶的偏好對(duì)點(diǎn)擊的影響就是線性的疊加。

圖片

實(shí)驗(yàn)一結(jié)構(gòu)

我們采用了兩階段的訓(xùn)練方法,從使用的特征中選取了部分商品的靜態(tài)屬性特征(商品的類目、質(zhì)檢項(xiàng)等)作為bias特征,全部特征作為prefer特征??梢钥吹教卣骱途W(wǎng)絡(luò)結(jié)構(gòu)都是完全獨(dú)立的。

實(shí)驗(yàn)證明,該方案并無明顯提升。

3.2 實(shí)驗(yàn)二

MACR模型因果圖如圖2所示,算法考慮了商品和用戶兩部分偏置對(duì)用戶偏好帶來的影響。參考MACR算法,我們考慮到二手平臺(tái)用戶行為的稀疏性,故暫時(shí)忽略用戶偏置項(xiàng),最終因果關(guān)系如圖3所示。

圖片

實(shí)驗(yàn)二結(jié)構(gòu)

AB實(shí)驗(yàn)在首頁推薦整體取得了pctr+1.95%,uctr+0.70%的顯著收益,同時(shí)緩解了商品的馬太效應(yīng)。

3.3 后續(xù)工作

  • 使用因果推斷進(jìn)行曝光bias等多種bias的糾偏。
  • 結(jié)合轉(zhuǎn)轉(zhuǎn)知識(shí)圖譜和因果推斷為具體業(yè)務(wù)提供指導(dǎo)。

參考文獻(xiàn)

[1] Causal Inference in Recommender Systems: A Survey and Future Directions

[2] https://www.bradyneal.com/causal-inference-course

[3] Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System

[4] 因果推斷推薦系統(tǒng)工具箱 - MACR:https://www.jianshu.com/p/ffed9c9260e3

[5] 推薦系統(tǒng)流行度偏差專題:https://zhuanlan.zhihu.com/p/613111042

責(zé)任編輯:龐桂玉 來源: 轉(zhuǎn)轉(zhuǎn)技術(shù)
相關(guān)推薦

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2023-05-04 08:28:30

因果推斷方法算法

2023-11-23 07:41:54

因果推斷大模型

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預(yù)處理特征設(shè)計(jì)

2023-06-28 14:01:13

攜程實(shí)踐

2023-03-22 08:32:35

2022-10-28 09:15:02

2022-10-28 08:31:43

2022-05-11 11:25:49

模型方案

2024-01-09 07:34:22

因果糾偏推薦系統(tǒng)推薦模型

2023-06-07 08:32:32

引擎技術(shù)while

2023-04-19 13:18:41

動(dòng)態(tài)線程池平臺(tái)

2023-08-24 08:11:39

斷路器監(jiān)控報(bào)警

2023-08-28 07:15:49

AIGC因果推斷

2024-10-16 21:49:24

2024-09-29 09:22:00

2022-12-21 08:32:34

OLAPDruid架構(gòu)

2022-12-27 08:19:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)