自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂推薦系統(tǒng)中的debias

原創(chuàng) 精選
開發(fā)
我們說到的 bias,一般是指一種相對不公平、偏離客觀公正的理想狀態(tài),或者在整體的各個方面上表現(xiàn)出 unbalanced issues 的現(xiàn)象。

作者 | 游戲算法-陳可

引言

我們說到的 bias,一般是指一種相對不公平、偏離客觀公正的理想狀態(tài),或者在整體的各個方面上表現(xiàn)出 unbalanced issues 的現(xiàn)象。對于“客觀公正的理想狀態(tài)”,在各種場景中沒有一個統(tǒng)一的定義,而是在各自場景的討論中會產生一些達成共識的概念。然而,這個概念也是隨著人們認知的加深而不斷延展的。因此 bias 仍然是一個非常 open 的話題。

推薦系統(tǒng)是一個涉及到眾多環(huán)節(jié)的復雜系統(tǒng)。在系統(tǒng)中,推薦模型基于發(fā)生過的用戶行為進行學習,對用戶進行 item(視頻、文章、商品等)的展現(xiàn),用戶對展現(xiàn)出來的 item 產生反饋,反饋的用戶行為數(shù)據(jù)繼續(xù)被模型學習。在整個鏈路中,沒有哪個環(huán)節(jié)是絕對意義上的“因”和“果”,它們是一個相互影響的關系。(見圖 1)

圖 1. 推薦系統(tǒng)中各個環(huán)節(jié)和 bias 產生的階段(來自文獻[1])

推薦系統(tǒng)的各個環(huán)節(jié)都依賴于用戶與 item 的交互,交互是有限且需要花費成本的,在某些情況下不會是客觀事實的充分反映。在此 bias 就會產生,并且對推薦系統(tǒng)的整個鏈路產生著影響。

一些比較公認的 bias 包括:

Position bias(位置偏差):

  • 概念解釋:用戶的精力是有限的,用戶有更大概率與展現(xiàn)在靠前位置的 item 發(fā)生交互,產生正向行為,而與 item 是否符合用戶偏好無關。
  • 負面影響:數(shù)據(jù)中的正負例 label 不一定客觀反映用戶偏好。
  • 典型場景:電商/文章 推薦中一個頁面內有多個位置展現(xiàn)的點擊行為。

Exposure Bias(曝光偏差):

注意:這里的 exposure 曝光,是指 item 真正被用戶注意到,而不是 item 簡單地在客戶端展現(xiàn)。下文會使用曝光一詞來代指用戶真正注意到了 item,而使用展現(xiàn)一詞來代指 item 在客戶端展現(xiàn)的埋點上報,以此作為區(qū)別。

  • 概念解釋:存在于基于隱式反饋(implicit feedback)建模的場景中(比如 CTR 場景),對于全量的 item,用戶只會被曝光到其中的少數(shù)一部分,并與之產生顯式正向行為。那些沒有顯式行為的 item,可能是用戶不感興趣,也可能是沒有曝光給用戶。如果簡單地將它們都處理為負例用作訓練模型,那么將會產生嚴重的偏差(一些論文將其稱為 positive-unlabeled 問題)。另一方面,在推薦結果中,熱度越高 item, 會更可能曝光給用戶。對于用戶來說,一個 item 是否會產生顯式正向行為的記錄,是非隨機缺失的(missing not at random,很多論文中又簡稱為 MNAR)。這樣會導致收集到的數(shù)據(jù)分布與真實的分布是不一致的。
  • 負面影響:沒有正向行為的 item,并非都是真實的負例,簡單粗暴處理會帶來 false negative。在曝光偏差產生的場景中,有的是將未展現(xiàn)給用戶的 item,進行隨機負采樣作為用戶的負反饋;有的是將展現(xiàn)但未產生互動行為的 item 作為用戶的負反饋,兩者都會帶來偏差。
  • 典型場景:使用隱式反饋的電商/視頻等推薦。

Selection Bias(選擇偏差):

  • 概念解釋:存在于基于顯式反饋(explicit feedback)建模的場景中(比如商品評分),用戶傾向于對喜好的 item 進行評分,并且用戶傾向于對非常好或非常壞的 item 進行評分。因此,所觀察到的評分結果的數(shù)據(jù)分布,并不是真實的全量分布。
  • 負面影響:觀測數(shù)據(jù)的分布是有偏的。
  • 典型場景:預測用戶對電影的評分。

還有其他的 bias 比如 Conformity Bias(人在社會環(huán)境中意見與群體趨同導致的偏差),Popularity Bias(高熱度 item 獲得的流量遠超過合理水平,造成馬太效應),不在該文中做更多討論。

上述 bias 的存在,給推薦系統(tǒng)的服務效果帶來了負面影響。在筆者看來,Position bias 和 Exposure Bias 是推薦系統(tǒng)中最重要和常見的兩類 bias。因此,下文針對這兩類 bias,介紹學術界過去提出的一些主流 debias(消除偏差)的解決方案。

以筆者之見,從技術方案的實現(xiàn)角度而言,Position bias 和 Exposure Bias 的主流 debias 方案可以歸類為曝光建模和樣本調權兩種思路。

  • 曝光建模: 在理論上假設,用戶顯式行為的發(fā)生可以解耦為“item 是否曝光給用戶”和“item 是否符合用戶偏好”兩個事件。在算法設計中,顯式地對“是否曝光”進行建模,從而使模型真正地從數(shù)據(jù)樣本中,學習到 item 與用戶相關性的客觀規(guī)律。曝光建模思路的特點是,需要對“是否曝光”的依賴變量做一定假設,并且需要實際數(shù)據(jù)樣本能反映出假設的規(guī)律,因此也需要樣本量足夠充分。
  • 樣本調權: 根據(jù)業(yè)務場景的特性,對不同的樣本賦予不同的權重,特別是對置信度較小的樣本(例如隱式反饋場景中的負例)賦予較小的權重,使得樣本層面上反映出的 bias 得到減輕。另外,根據(jù)業(yè)務場景中 bias 的產生機理,對于觀測到的樣本,重新定義損失函數(shù),使其近似趨近于無偏的情況,也是一種 debias 的思路。由于重新定義損失函數(shù)的做法,本質上也是改變了不同樣本的權重,本文將這一思路歸類到樣本調權的思路下。樣本調權思路的特點是,需要較強的人工經(jīng)驗和業(yè)務理解。

需要注意的是,兩種思路并沒有絕對的區(qū)別。在某些方案中,建模了曝光概率,同時利用模型預估得到的曝光概率對樣本進行調權。因為這類思路依賴于對曝光的建模,本文將其歸類到曝光建模之下。

本文內容組織主要參考綜述文獻 Jiawei Chen, Hande Dong, Xiang Wang, Fuli Feng, Meng Wang, and Xiangnan He. Bias and Debias in Recommender System: A Survey and Future Directions [1].

本文后續(xù)內容安排如下:

  • 曝光建模: 介紹曝光建模思路分別在 position bias 和 exposure bias 場景對應的具體技術方案。在每個 bias 場景標題的開頭,簡要回顧了 bias 的含義和產生機理。
  • 樣本調權: 介紹樣本調權思路分別在 position bias 和 exposure bias 場景的方案。其中,在 exposure bias 標題下,將樣本調權的方案分為“啟發(fā)式調權”和“損失函數(shù)重定義”兩個方向進行敘述。
  • 評估指標的 debias: 介紹在模型評估指標(即 metrics)中消除偏差的思路。

曝光建模

Position bias

位置偏差在 learning-to-rank 系統(tǒng)中是一種常見偏差,它的基本假設是展現(xiàn)在靠前位置的 item 有更大概率被用戶點擊,無論 item 是否符合用戶偏好,在廣告系統(tǒng)和搜索排序場景中都比較常見。

對 position bias 采用曝光建模來 debias,思路是,將用戶點擊行為發(fā)生的中間過程拆分出來,對中間的曝光事件進行建模,并利用這些中間過程的模型預測值進行消偏。如何去拆分點擊的中間過程,就涉及到了不同的假設,對應著不同的具體方案。

其中一個比較有影響力的方案是PAL(Position-bias Aware Learning)模型 [2],該模型假設:

  • 用戶(u)點擊(C,click)事件的發(fā)生,是 item(i)被用戶注意到(E,examined)且 item 有一定概率符合用戶偏好(relevant)兩者同時滿足的結果;
  • 一旦 item 被用戶注意到(E),那么用戶點擊(C)item 的概率,僅僅于 item 與用戶本身有關,而與位置無關;
  • item 被用戶注意到的概率(E),僅僅與 item 所在的 position(p)有關, 而與 item 是否符合用戶偏好無關.

總結起來就是:

其中,r_ui 是用戶與 item 是否符合的真正概率,h_q 是僅依賴于位置的 item 被用戶注意到的概率。令模型分別建模這兩個行為,然后只取 r_ui 作為線上服務時排序的依據(jù)。

具體來說,如下圖所示,在深度學習模型中,使用位置相關的特征輸入構建一個 tower,其他特征輸入構建另一個 tower,兩個 tower 的最終輸出分別經(jīng)過 sigmoid 之后,相乘到一起(pCTR * ProbSeen),作為一個用于計算 loss 的輸出(bCTR)。當模型訓練時,樣本 label 與 bCTR 計算得到 loss,用于梯度的反向傳播。而在線上預估服務時,僅使用 pCTR 的預估值,因為它是去除了 position 之后的消偏結果。

圖 2. PAL 模型示意圖(來自文獻[2])

另一種思路類似的方案是采用級聯(lián)模型(cascade model)[3]。該方案假設用戶從靠前位置到靠后位置,按順序逐個地瀏覽 item,那么是否點擊某個位置上的 item,就與該位置以及之前所有位置上的 item 有關。令 E_q 和 C_q 分別代表 q 位置上 item 曝光和被點擊的概率。級聯(lián)模型描述用戶行為的發(fā)生是如下的關系:

其中,第三個等式假設了用戶一旦點擊了處于 q 位置的 item,那么就會終止本次閱讀的過程,不再往下瀏覽,否則用戶還會繼續(xù)往下瀏覽。該方案也假設了在每次瀏覽過程(session)中,最多只能有一次點擊。

級聯(lián)模型建模各個位置處的 E_q 和 C_q,同樣使用消偏之后的 r_uq,i 來作為真實的排序依據(jù)。

曝光建模的思路有兩個缺點,一是對點擊行為中間過程的拆分需要大量的數(shù)據(jù)來支持模型學習,尤其是 user-item 之間的數(shù)據(jù)是較為稀疏的,在一些數(shù)據(jù)量偏少的場景中使用難度大;二是引入了人為假設,如果假設不正確,那么就會導致最終結果與預期的南轅北轍。

Exposure Bias

Exposure bias(曝光偏差)產生于需要利用用戶的隱式反饋(implicit feedback)來建模的場景中。用戶的顯式行為(比如點擊、評論、收藏)只會發(fā)生在極少數(shù)的 item 上,因為用戶只會被到少量的 item 曝光到。因此,把未觀察到互動行為的 item 都作為用戶的負反饋,會造成偏差(positive-unlabelled問題)。另一方面,高熱的 item 相對中長尾 item,獲得了更多的曝光,更可能產生顯式正向行為的樣本。因此所觀測數(shù)據(jù)中的正向行為,是非隨機缺失的(Missing-not-at-Random,MNAR問題),與真實分布不一致。

因為 exposure bias 產生的直接原因是濫用了并非真實的負樣本,在這些負樣本中無法直接區(qū)分哪些是曝光了但用戶不感興趣了、哪些是沒有實際上曝光的。那么,如果能對 item 是否曝光進行建模,然后削弱那些曝光概率低的負樣本的權重,是會減輕 bias 的影響的。

具體地,訓練模型學習一個 item 是否曝光給用戶的概率,item 曝光的概率越高(對應地,item 在客戶端展現(xiàn)的次數(shù)越多),那么說明 item 對應的隱式反饋樣本的置信度也就越大。因此,可以將模型學習到的曝光概率賦值給損失函數(shù)里面樣本的權重。

在早期樸素的 WMF 思路影響下,研究者考慮在矩陣分解的過程中,加入 item 是否曝光給用戶的隱變量 O_ui, 通過模型學習到 O_ui,來更好地輔助損失函數(shù)里面的權重賦值[12],被稱為ExMF(Exposure Matrix Factorization,含有曝光的矩陣分解)方法。具體地,考慮如下的概率生成過程:

其中 N 表示高斯分布,Bern 表示伯努利分布,μ_u,i 是 item i 曝光給用戶 u 的概率,U,V 分別是儲存用戶向量和 item 向量的矩陣,

代表用戶 u 對 item i 的偏好程度;

表示在用戶 u 被 item i 曝光后,是否與 item 產生顯式正向行為的變量;

都是表達高斯分布方差的超參數(shù)。

要確定用戶和 item 矩陣 U,V 以及曝光矩陣 μ,就需要采用極大似然法最大化以下概率:

由于是否曝光{o_u,i}是隱變量,需要采用一個類似 EM 的算法來不斷更新參數(shù),最終,可以獲得 E[Ou,i|Yu,i=0]的先驗概率,來對損失函數(shù)中的樣本置信度賦值。

樣本調權

樣本調權思路,從邏輯上說是直觀的:在有 bias 的場景下,某些樣本攜帶的信息可信度小,但是不能完全丟棄它們,因此賦予較小權重,使得它們對模型整體的影響減輕;或者,同樣是展現(xiàn)給用戶的 item,某些 item 有更高的曝光幾率,它們的正反饋占比更高,因此它們的正樣本權重應當被削弱,而另外一些 item 的正樣本權重應該被增強。

Position bias

Propensity Score(傾向性打分,下文簡稱 PS)是修正位置偏差的一種通用方法[4],在計算每條樣本的 loss 時,每條樣本基于它所在的位置被重新賦予了權重。這個權重是和位置相關的,該方案里正樣本對應的 loss 函數(shù)被修正為:

對應著在模型 f 下(u,i)這條樣本的 loss;ρ(q)是傾向性打分(即 PS),僅僅與位置 q 有關,這也是傾向性打分這一方法中的一個重要假設。如果一個 item 展現(xiàn)的位置越靠前,它的 PS 就越高,那么這條樣本對應的 loss 被降權得越厲害。同時,那么展現(xiàn)在靠后位置的 item,它們的 loss 將可能被加權。由于傾向性打分方法做了一個非常強的假設(傾向性打分僅僅與位置相關, 而與用戶和 item 無關),因此估算各個位置上的 PS 就變得非常簡單。一個很直接的做法是 result randomization(結果隨機化):將模型排序的結果打亂,展現(xiàn)在用戶面前,然后收集各個位置上的用戶點擊率。因為在各個位置上,item 與用戶的相關性已經(jīng)是均等的了,因此不同位置上的點擊率就是各個位置上的傾向性打分的無偏估計。但是這種做法對自然推薦的結果進行了人為干預,有損用戶體驗,并不是一個最優(yōu)的辦法。除了這種簡單粗暴的 result randomization 之外,人們也提出了一些基于模型的方法來學習各個位置上的傾向性得分。將 item 是否被用戶注意到作為一個隱變量,設計了一個包含傾向性打分模型和推薦模型的 EM 算法來求解該問題。[5,6]

Exposure Bias

在利用隱式反饋的場景中,為了提取負反饋的信息,一般會將未觀察到顯式反饋的 item 一律作為負例,然后對每個負例賦予一定的置信度。對應的損失函數(shù)表達如下:

是推薦模型 r 預估的正向行為發(fā)生概率;W_ui 是表達置信度的權重;δ 是損失函數(shù)的具體表達式(比如交叉熵代價函數(shù))。在模型訓練中的 debias 相關思路,一般是圍繞如何給隱式反饋的負例賦予恰當?shù)臋嘀貋磉M行的。

啟發(fā)式調權

對隱式反饋的負例進行調權,針對的更多是 positive-unlabeled 問題。一個早期的樸素思路是加權分解矩陣(weighted factorization matrix,簡稱 WMF)[8]。該思路采用:

的樣本降權。這種做法背后的動機是,未觀察到正向行為的樣本,無法確定用戶是否真的不喜歡,因此需要降低樣本的置信度。

在此基礎上利用更多的用戶信息或 item 信息,提出的其他方案包括:利用用戶的活躍度進行權重賦值:

因為有更多正向行為的用戶,其對應的樣本的置信度越大[9];利用 item 的熱度進行權重賦值,因為越流行的 item,有更高的幾率曝光,樣本的置信度也應當越大[10];利用用戶與 item 的特征相似度來確定權重[11]。

雖然方法眾多,啟發(fā)式調權仍然是一個有較大難度的方案,其一是用戶與 item 之間隱式反饋樣本的置信度的確定,需要大量數(shù)據(jù)與計算資源;其二是權重的設定,也引入了人為的經(jīng)驗與假設,如果人為的經(jīng)驗就是帶有偏差的,那么會加重偏差。

損失函數(shù)重定義

在 exposure-based model 方案中,曝光概率越高的 item,對應的樣本的置信度越高。但是它沒有處理另一個問題,那就是隱式反饋建模中的非隨機缺失(missing not at random)問題。

高曝光概率 item,一般也是高熱度的 item。通過調大它們的樣本的權重,模型將會偏向于對高熱度的 item 學習更準,而在中長尾的 item 上的學習變差。

因此,將是否曝光與曝光后是否發(fā)生顯式反饋這兩個變量進行進一步的解耦,并重新定義損失函數(shù),使之完全依賴于客觀的 user-item 相關性,是一種更進一步的思路[13]。

基于以上的動機,研究者將顯式反饋的發(fā)生解耦為“曝光”(O_u,i = 1)與“item 符合用戶偏好”(R_u,i = 1)同時發(fā)生。

分別表示 item i 曝光給用戶 u 的概率,和 item i 符合用戶 u 的偏好的概率(又稱 item 與用戶的相關性)。

如果把模型的評估指標,從擬合 click 數(shù)據(jù):

其中 δ(·)為具體的損失函數(shù)(比如交叉熵代價函數(shù));

為模型預估的用戶 u 與 item i 的相關性;

括號里的兩項分別代表 item 與用戶有相關性,或沒有相關性的預估損失。

可以證明的是,以上兩種方法(Heuristic Weighting 和 Exposure-based model)定義的損失函數(shù),都不是上述理想損失函數(shù)的無偏估計。

實際上,可以證明,理想損失函數(shù)的無偏估計的表達式為:

那么,問題就轉移到了,如何去估計 item i 對用戶 u 的曝光概率,這是一個傾向性打分的估計問題。最簡單的做法是,使用 item 的相對熱度來估算傾向性打分,即:

其中分母是正向行為次數(shù)最多的 item 對應的總次數(shù),分子是當前 item 的正向行為次數(shù)。?≤1 作為一個超參數(shù)來調節(jié)曝光概率的大小,因為相對于統(tǒng)計得到的后驗點擊率,曝光概率應當大于后驗點擊率。需要注意到,這個估算是對用戶無差別的,存在一定局限性。(文獻[13]中的做法)更多地傾向性打分的估算思路,可以參考上文“啟發(fā)式調權”。

評估指標的 debias

在樣本層面就包含了 bias 的場景中,人們把所有樣本一視同仁地加入到模型的評估指標中,也會造成評估指標的 bias,所以需要矯正評估指標當中的偏差。

一個比較直接的辦法是利用 inverse propensity score(傾向性打分的倒數(shù),下文簡稱 IPS)來矯正評估指標中的偏差[7]。從直觀上去理解 IPS 方法,即對那些頻繁出現(xiàn)的 item 降權,而對那些較少出現(xiàn)的 item 做加權。

對于推薦系統(tǒng)而言,理想情況下的評估指標都可以表達成如下的形式:

U 是用戶 u 的集合,c(·)是待評估指標的具體表達式,與指標定義有關,比如對于 AUC 來說,它的表達式為:

表示用戶對曝光的 item 發(fā)生了正向行為的 item 集合;指標的下角標 AOA 表示 Average-over-all??梢园l(fā)現(xiàn),在實際的評估指標中,指標也受曝光變量 O 的影響。

曝光變量 O_ui 即 item i 是否曝光給用戶 u,并不是無偏的,往往高熱 item 更可能曝光給用戶。具體來說,會導致

該指標被證明了在數(shù)據(jù)量 n 極大的情況下,將會收斂到

在該框架下,問題即轉換成為了如何去估計 IPS,則成為一個較為開放的問題,有相關的各種解決方案。(參考上文“啟發(fā)式調權”)

參考文獻

[1] Jiawei Chen, Hande Dong, Xiang Wang, Fuli Feng, Meng Wang, and Xiangnan He. 2020. Bias and Debias in Recommender System: A Survey and Future Directions.

[2] Huifeng Guo, Jinkai Yu, Qing Liu, Ruiming Tang, Yuzhou Zhang. 2019. PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems.

[3] Nick Craswell, Onno Zoeter, Michael Taylor, and Bill Ramsey. 2008. An experimental comparison of click position-bias models.

[4] Aman Agarwal, Kenta Takatsu, Ivan Zaitsev, and Thorsten Joachims. 2019. A general framework for counterfactual learning-to-rank.

[5] Qingyao Ai, Keping Bi, Cheng Luo, Jiafeng Guo, and W Bruce Croft. 2018. Unbiased learning to rank with unbiased propensity estimation.

[6] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback.

[7] LongqiYang, YinCui, YuanXuan, ChenyangWang, SergeBelongie, and DeborahEstrin. 2018. Unbiased offline recommender evaluation for missing-not-at-random implicit feedback.

[8] Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative filtering for implicit feedback datasets.

[9] Rong Pan and Martin Scholz. 2009. Mind the gaps: weighting the unknown in large-scale one-class collaborative filtering.

[10] Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua. 2016. Fast matrix factorization for online recommendation with implicit feedback.

[11] Yanen Li, Jia Hu, ChengXiang Zhai, and Ye Chen. 2010. Improving one-class collaborative filtering by incorporating rich user information.

[12] Dawen Liang, Laurent Charlin, James McInerney, and David M Blei. 2016. Modeling user exposure in recommendation.

[13] Yuta Saito. 2020. Unbiased Pairwise Learning from Biased Implicit Feedback.

責任編輯:未麗燕 來源: 字節(jié)跳動技術團隊
相關推薦

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領云

2017-03-07 15:13:28

Scala偏函數(shù)函數(shù)

2023-06-19 13:57:00

數(shù)據(jù)系統(tǒng)

2016-10-25 14:35:05

分布式系統(tǒng) 存儲

2021-09-04 19:04:14

配置LogbackJava

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-11-06 21:14:02

數(shù)據(jù)驅動架構數(shù)據(jù)

2019-12-17 08:16:04

JavaScriptthis編程

2020-12-21 10:38:07

大數(shù)據(jù)大數(shù)據(jù)組件大數(shù)據(jù)生態(tài)

2023-05-20 17:58:31

低代碼軟件

2023-11-27 17:35:48

ComponentWeb外層

2022-10-20 08:01:23

2022-07-26 00:00:03

語言模型人工智能

2021-12-29 18:00:19

無損網(wǎng)絡網(wǎng)絡通信網(wǎng)絡

2022-12-01 17:23:45

2022-07-05 06:30:54

云網(wǎng)絡網(wǎng)絡云原生

2018-10-18 11:00:50

人工智能機器學習模型偏差
點贊
收藏

51CTO技術棧公眾號