自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nav id="wg1io"><strong id="wg1io"><dl id="wg1io"></dl></strong></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一文讀懂推薦系統(tǒng)中的debias

原創(chuàng) 精選

作者：字節(jié)跳動技術團隊 2022-04-20 11:10:17

我們說到的 bias，一般是指一種相對不公平、偏離客觀公正的理想狀態(tài)，或者在整體的各個方面上表現(xiàn)出 unbalanced issues 的現(xiàn)象。

作者｜游戲算法-陳可

引言

我們說到的 bias，一般是指一種相對不公平、偏離客觀公正的理想狀態(tài)，或者在整體的各個方面上表現(xiàn)出 unbalanced issues 的現(xiàn)象。對于“客觀公正的理想狀態(tài)”，在各種場景中沒有一個統(tǒng)一的定義，而是在各自場景的討論中會產生一些達成共識的概念。然而，這個概念也是隨著人們認知的加深而不斷延展的。因此 bias 仍然是一個非常 open 的話題。

推薦系統(tǒng)是一個涉及到眾多環(huán)節(jié)的復雜系統(tǒng)。在系統(tǒng)中，推薦模型基于發(fā)生過的用戶行為進行學習，對用戶進行 item(視頻、文章、商品等)的展現(xiàn)，用戶對展現(xiàn)出來的 item 產生反饋，反饋的用戶行為數(shù)據(jù)繼續(xù)被模型學習。在整個鏈路中，沒有哪個環(huán)節(jié)是絕對意義上的“因”和“果”，它們是一個相互影響的關系。(見圖 1)

圖 1. 推薦系統(tǒng)中各個環(huán)節(jié)和 bias 產生的階段(來自文獻[1])

推薦系統(tǒng)的各個環(huán)節(jié)都依賴于用戶與 item 的交互，交互是有限且需要花費成本的，在某些情況下不會是客觀事實的充分反映。在此 bias 就會產生，并且對推薦系統(tǒng)的整個鏈路產生著影響。

一些比較公認的 bias 包括：

Position bias(位置偏差)：

概念解釋：用戶的精力是有限的，用戶有更大概率與展現(xiàn)在靠前位置的 item 發(fā)生交互，產生正向行為，而與 item 是否符合用戶偏好無關。
負面影響：數(shù)據(jù)中的正負例 label 不一定客觀反映用戶偏好。
典型場景：電商/文章推薦中一個頁面內有多個位置展現(xiàn)的點擊行為。

Exposure Bias(曝光偏差)：

注意：這里的 exposure 曝光，是指 item 真正被用戶注意到，而不是 item 簡單地在客戶端展現(xiàn)。下文會使用曝光一詞來代指用戶真正注意到了 item，而使用展現(xiàn)一詞來代指 item 在客戶端展現(xiàn)的埋點上報，以此作為區(qū)別。

概念解釋：存在于基于隱式反饋(implicit feedback)建模的場景中(比如 CTR 場景)，對于全量的 item，用戶只會被曝光到其中的少數(shù)一部分，并與之產生顯式正向行為。那些沒有顯式行為的 item，可能是用戶不感興趣，也可能是沒有曝光給用戶。如果簡單地將它們都處理為負例用作訓練模型，那么將會產生嚴重的偏差(一些論文將其稱為 positive-unlabeled 問題)。另一方面，在推薦結果中，熱度越高 item，會更可能曝光給用戶。對于用戶來說，一個 item 是否會產生顯式正向行為的記錄，是非隨機缺失的(missing not at random，很多論文中又簡稱為 MNAR)。這樣會導致收集到的數(shù)據(jù)分布與真實的分布是不一致的。
負面影響：沒有正向行為的 item，并非都是真實的負例，簡單粗暴處理會帶來 false negative。在曝光偏差產生的場景中，有的是將未展現(xiàn)給用戶的 item，進行隨機負采樣作為用戶的負反饋;有的是將展現(xiàn)但未產生互動行為的 item 作為用戶的負反饋，兩者都會帶來偏差。
典型場景：使用隱式反饋的電商/視頻等推薦。

Selection Bias(選擇偏差)：

概念解釋：存在于基于顯式反饋(explicit feedback)建模的場景中(比如商品評分)，用戶傾向于對喜好的 item 進行評分，并且用戶傾向于對非常好或非常壞的 item 進行評分。因此，所觀察到的評分結果的數(shù)據(jù)分布，并不是真實的全量分布。
負面影響：觀測數(shù)據(jù)的分布是有偏的。
典型場景：預測用戶對電影的評分。

還有其他的 bias 比如 Conformity Bias(人在社會環(huán)境中意見與群體趨同導致的偏差)，Popularity Bias(高熱度 item 獲得的流量遠超過合理水平，造成馬太效應)，不在該文中做更多討論。

上述 bias 的存在，給推薦系統(tǒng)的服務效果帶來了負面影響。在筆者看來，Position bias 和 Exposure Bias 是推薦系統(tǒng)中最重要和常見的兩類 bias。因此，下文針對這兩類 bias，介紹學術界過去提出的一些主流 debias(消除偏差)的解決方案。

以筆者之見，從技術方案的實現(xiàn)角度而言，Position bias 和 Exposure Bias 的主流 debias 方案可以歸類為曝光建模和樣本調權兩種思路。

曝光建模： 在理論上假設，用戶顯式行為的發(fā)生可以解耦為“item 是否曝光給用戶”和“item 是否符合用戶偏好”兩個事件。在算法設計中，顯式地對“是否曝光”進行建模，從而使模型真正地從數(shù)據(jù)樣本中，學習到 item 與用戶相關性的客觀規(guī)律。曝光建模思路的特點是，需要對“是否曝光”的依賴變量做一定假設，并且需要實際數(shù)據(jù)樣本能反映出假設的規(guī)律，因此也需要樣本量足夠充分。
樣本調權： 根據(jù)業(yè)務場景的特性，對不同的樣本賦予不同的權重，特別是對置信度較小的樣本(例如隱式反饋場景中的負例)賦予較小的權重，使得樣本層面上反映出的 bias 得到減輕。另外，根據(jù)業(yè)務場景中 bias 的產生機理，對于觀測到的樣本，重新定義損失函數(shù)，使其近似趨近于無偏的情況，也是一種 debias 的思路。由于重新定義損失函數(shù)的做法，本質上也是改變了不同樣本的權重，本文將這一思路歸類到樣本調權的思路下。樣本調權思路的特點是，需要較強的人工經(jīng)驗和業(yè)務理解。

需要注意的是，兩種思路并沒有絕對的區(qū)別。在某些方案中，建模了曝光概率，同時利用模型預估得到的曝光概率對樣本進行調權。因為這類思路依賴于對曝光的建模，本文將其歸類到曝光建模之下。

本文內容組織主要參考綜述文獻 Jiawei Chen, Hande Dong, Xiang Wang, Fuli Feng, Meng Wang, and Xiangnan He. Bias and Debias in Recommender System: A Survey and Future Directions [1].

本文后續(xù)內容安排如下:

曝光建模： 介紹曝光建模思路分別在 position bias 和 exposure bias 場景對應的具體技術方案。在每個 bias 場景標題的開頭，簡要回顧了 bias 的含義和產生機理。
樣本調權： 介紹樣本調權思路分別在 position bias 和 exposure bias 場景的方案。其中，在 exposure bias 標題下，將樣本調權的方案分為“啟發(fā)式調權”和“損失函數(shù)重定義”兩個方向進行敘述。
評估指標的 debias： 介紹在模型評估指標(即 metrics)中消除偏差的思路。

曝光建模

Position bias

位置偏差在 learning-to-rank 系統(tǒng)中是一種常見偏差，它的基本假設是展現(xiàn)在靠前位置的 item 有更大概率被用戶點擊，無論 item 是否符合用戶偏好，在廣告系統(tǒng)和搜索排序場景中都比較常見。

對 position bias 采用曝光建模來 debias，思路是，將用戶點擊行為發(fā)生的中間過程拆分出來，對中間的曝光事件進行建模，并利用這些中間過程的模型預測值進行消偏。如何去拆分點擊的中間過程，就涉及到了不同的假設，對應著不同的具體方案。

其中一個比較有影響力的方案是PAL(Position-bias Aware Learning)模型 [2]，該模型假設:

用戶(u)點擊(C，click)事件的發(fā)生，是 item(i)被用戶注意到(E，examined)且 item 有一定概率符合用戶偏好(relevant)兩者同時滿足的結果;
一旦 item 被用戶注意到(E)，那么用戶點擊(C)item 的概率，僅僅于 item 與用戶本身有關，而與位置無關;
item 被用戶注意到的概率(E)，僅僅與 item 所在的 position(p)有關, 而與 item 是否符合用戶偏好無關.

總結起來就是:

其中，r_ui 是用戶與 item 是否符合的真正概率，h_q 是僅依賴于位置的 item 被用戶注意到的概率。令模型分別建模這兩個行為，然后只取 r_ui 作為線上服務時排序的依據(jù)。

具體來說，如下圖所示，在深度學習模型中，使用位置相關的特征輸入構建一個 tower，其他特征輸入構建另一個 tower，兩個 tower 的最終輸出分別經(jīng)過 sigmoid 之后，相乘到一起(pCTR * ProbSeen)，作為一個用于計算 loss 的輸出(bCTR)。當模型訓練時，樣本 label 與 bCTR 計算得到 loss，用于梯度的反向傳播。而在線上預估服務時，僅使用 pCTR 的預估值，因為它是去除了 position 之后的消偏結果。

圖 2. PAL 模型示意圖(來自文獻[2])

另一種思路類似的方案是采用級聯(lián)模型(cascade model)[3]。該方案假設用戶從靠前位置到靠后位置，按順序逐個地瀏覽 item，那么是否點擊某個位置上的 item，就與該位置以及之前所有位置上的 item 有關。令 E_q 和 C_q 分別代表 q 位置上 item 曝光和被點擊的概率。級聯(lián)模型描述用戶行為的發(fā)生是如下的關系：

其中，第三個等式假設了用戶一旦點擊了處于 q 位置的 item，那么就會終止本次閱讀的過程，不再往下瀏覽，否則用戶還會繼續(xù)往下瀏覽。該方案也假設了在每次瀏覽過程(session)中，最多只能有一次點擊。

級聯(lián)模型建模各個位置處的 E_q 和 C_q，同樣使用消偏之后的 r_uq，i 來作為真實的排序依據(jù)。

曝光建模的思路有兩個缺點，一是對點擊行為中間過程的拆分需要大量的數(shù)據(jù)來支持模型學習，尤其是 user-item 之間的數(shù)據(jù)是較為稀疏的，在一些數(shù)據(jù)量偏少的場景中使用難度大;二是引入了人為假設，如果假設不正確，那么就會導致最終結果與預期的南轅北轍。

Exposure Bias

Exposure bias(曝光偏差)產生于需要利用用戶的隱式反饋(implicit feedback)來建模的場景中。用戶的顯式行為(比如點擊、評論、收藏)只會發(fā)生在極少數(shù)的 item 上，因為用戶只會被到少量的 item 曝光到。因此，把未觀察到互動行為的 item 都作為用戶的負反饋，會造成偏差(positive-unlabelled問題)。另一方面，高熱的 item 相對中長尾 item，獲得了更多的曝光，更可能產生顯式正向行為的樣本。因此所觀測數(shù)據(jù)中的正向行為，是非隨機缺失的(Missing-not-at-Random，MNAR問題)，與真實分布不一致。

因為 exposure bias 產生的直接原因是濫用了并非真實的負樣本，在這些負樣本中無法直接區(qū)分哪些是曝光了但用戶不感興趣了、哪些是沒有實際上曝光的。那么，如果能對 item 是否曝光進行建模，然后削弱那些曝光概率低的負樣本的權重，是會減輕 bias 的影響的。

具體地，訓練模型學習一個 item 是否曝光給用戶的概率，item 曝光的概率越高(對應地，item 在客戶端展現(xiàn)的次數(shù)越多)，那么說明 item 對應的隱式反饋樣本的置信度也就越大。因此，可以將模型學習到的曝光概率賦值給損失函數(shù)里面樣本的權重。

在早期樸素的 WMF 思路影響下，研究者考慮在矩陣分解的過程中，加入 item 是否曝光給用戶的隱變量 O_ui，通過模型學習到 O_ui，來更好地輔助損失函數(shù)里面的權重賦值[12]，被稱為ExMF(Exposure Matrix Factorization，含有曝光的矩陣分解)方法。具體地，考慮如下的概率生成過程：

其中 N 表示高斯分布，Bern 表示伯努利分布，μ_u,i 是 item i 曝光給用戶 u 的概率，U，V 分別是儲存用戶向量和 item 向量的矩陣，

代表用戶 u 對 item i 的偏好程度;

表示在用戶 u 被 item i 曝光后，是否與 item 產生顯式正向行為的變量;

都是表達高斯分布方差的超參數(shù)。

要確定用戶和 item 矩陣 U，V 以及曝光矩陣 μ，就需要采用極大似然法最大化以下概率：

由于是否曝光{o_u,i}是隱變量，需要采用一個類似 EM 的算法來不斷更新參數(shù)，最終，可以獲得 E[Ou,i|Yu,i=0]的先驗概率，來對損失函數(shù)中的樣本置信度賦值。

樣本調權

樣本調權思路，從邏輯上說是直觀的：在有 bias 的場景下，某些樣本攜帶的信息可信度小，但是不能完全丟棄它們，因此賦予較小權重，使得它們對模型整體的影響減輕;或者，同樣是展現(xiàn)給用戶的 item，某些 item 有更高的曝光幾率，它們的正反饋占比更高，因此它們的正樣本權重應當被削弱，而另外一些 item 的正樣本權重應該被增強。

Position bias

Propensity Score(傾向性打分，下文簡稱 PS)是修正位置偏差的一種通用方法[4]，在計算每條樣本的 loss 時，每條樣本基于它所在的位置被重新賦予了權重。這個權重是和位置相關的，該方案里正樣本對應的 loss 函數(shù)被修正為：

對應著在模型 f 下(u,i)這條樣本的 loss;ρ(q)是傾向性打分(即 PS)，僅僅與位置 q 有關，這也是傾向性打分這一方法中的一個重要假設。如果一個 item 展現(xiàn)的位置越靠前，它的 PS 就越高，那么這條樣本對應的 loss 被降權得越厲害。同時，那么展現(xiàn)在靠后位置的 item，它們的 loss 將可能被加權。由于傾向性打分方法做了一個非常強的假設(傾向性打分僅僅與位置相關，而與用戶和 item 無關)，因此估算各個位置上的 PS 就變得非常簡單。一個很直接的做法是 result randomization(結果隨機化)：將模型排序的結果打亂，展現(xiàn)在用戶面前，然后收集各個位置上的用戶點擊率。因為在各個位置上，item 與用戶的相關性已經(jīng)是均等的了，因此不同位置上的點擊率就是各個位置上的傾向性打分的無偏估計。但是這種做法對自然推薦的結果進行了人為干預，有損用戶體驗，并不是一個最優(yōu)的辦法。除了這種簡單粗暴的 result randomization 之外，人們也提出了一些基于模型的方法來學習各個位置上的傾向性得分。將 item 是否被用戶注意到作為一個隱變量，設計了一個包含傾向性打分模型和推薦模型的 EM 算法來求解該問題。[5,6]

Exposure Bias

在利用隱式反饋的場景中，為了提取負反饋的信息，一般會將未觀察到顯式反饋的 item 一律作為負例，然后對每個負例賦予一定的置信度。對應的損失函數(shù)表達如下：

是推薦模型 r 預估的正向行為發(fā)生概率;W_ui 是表達置信度的權重;δ 是損失函數(shù)的具體表達式(比如交叉熵代價函數(shù))。在模型訓練中的 debias 相關思路，一般是圍繞如何給隱式反饋的負例賦予恰當?shù)臋嘀貋磉M行的。

啟發(fā)式調權

對隱式反饋的負例進行調權，針對的更多是 positive-unlabeled 問題。一個早期的樸素思路是加權分解矩陣(weighted factorization matrix，簡稱 WMF)[8]。該思路采用：

的樣本降權。這種做法背后的動機是，未觀察到正向行為的樣本，無法確定用戶是否真的不喜歡，因此需要降低樣本的置信度。

在此基礎上利用更多的用戶信息或 item 信息，提出的其他方案包括：利用用戶的活躍度進行權重賦值：

因為有更多正向行為的用戶，其對應的樣本的置信度越大[9];利用 item 的熱度進行權重賦值，因為越流行的 item，有更高的幾率曝光，樣本的置信度也應當越大[10];利用用戶與 item 的特征相似度來確定權重[11]。

雖然方法眾多，啟發(fā)式調權仍然是一個有較大難度的方案，其一是用戶與 item 之間隱式反饋樣本的置信度的確定，需要大量數(shù)據(jù)與計算資源;其二是權重的設定，也引入了人為的經(jīng)驗與假設，如果人為的經(jīng)驗就是帶有偏差的，那么會加重偏差。

損失函數(shù)重定義

在 exposure-based model 方案中，曝光概率越高的 item，對應的樣本的置信度越高。但是它沒有處理另一個問題，那就是隱式反饋建模中的非隨機缺失(missing not at random)問題。

高曝光概率 item，一般也是高熱度的 item。通過調大它們的樣本的權重，模型將會偏向于對高熱度的 item 學習更準，而在中長尾的 item 上的學習變差。

因此，將是否曝光與曝光后是否發(fā)生顯式反饋這兩個變量進行進一步的解耦，并重新定義損失函數(shù)，使之完全依賴于客觀的 user-item 相關性，是一種更進一步的思路[13]。

基于以上的動機，研究者將顯式反饋的發(fā)生解耦為“曝光”(O_u,i = 1)與“item 符合用戶偏好”(R_u,i = 1)同時發(fā)生。

分別表示 item i 曝光給用戶 u 的概率，和 item i 符合用戶 u 的偏好的概率(又稱 item 與用戶的相關性)。

如果把模型的評估指標，從擬合 click 數(shù)據(jù)：

其中 δ(·)為具體的損失函數(shù)(比如交叉熵代價函數(shù));

為模型預估的用戶 u 與 item i 的相關性;

括號里的兩項分別代表 item 與用戶有相關性，或沒有相關性的預估損失。

可以證明的是，以上兩種方法(Heuristic Weighting 和 Exposure-based model)定義的損失函數(shù)，都不是上述理想損失函數(shù)的無偏估計。

實際上，可以證明，理想損失函數(shù)的無偏估計的表達式為：

那么，問題就轉移到了，如何去估計 item i 對用戶 u 的曝光概率，這是一個傾向性打分的估計問題。最簡單的做法是，使用 item 的相對熱度來估算傾向性打分，即：

其中分母是正向行為次數(shù)最多的 item 對應的總次數(shù)，分子是當前 item 的正向行為次數(shù)。?≤1 作為一個超參數(shù)來調節(jié)曝光概率的大小，因為相對于統(tǒng)計得到的后驗點擊率，曝光概率應當大于后驗點擊率。需要注意到，這個估算是對用戶無差別的，存在一定局限性。(文獻[13]中的做法)更多地傾向性打分的估算思路，可以參考上文“啟發(fā)式調權”。

評估指標的 debias

在樣本層面就包含了 bias 的場景中，人們把所有樣本一視同仁地加入到模型的評估指標中，也會造成評估指標的 bias，所以需要矯正評估指標當中的偏差。

一個比較直接的辦法是利用 inverse propensity score(傾向性打分的倒數(shù)，下文簡稱 IPS)來矯正評估指標中的偏差[7]。從直觀上去理解 IPS 方法，即對那些頻繁出現(xiàn)的 item 降權，而對那些較少出現(xiàn)的 item 做加權。

對于推薦系統(tǒng)而言，理想情況下的評估指標都可以表達成如下的形式：

U 是用戶 u 的集合，c(·)是待評估指標的具體表達式，與指標定義有關，比如對于 AUC 來說，它的表達式為：

表示用戶對曝光的 item 發(fā)生了正向行為的 item 集合;指標的下角標 AOA 表示 Average-over-all?？梢园l(fā)現(xiàn)，在實際的評估指標中，指標也受曝光變量 O 的影響。

曝光變量 O_ui 即 item i 是否曝光給用戶 u，并不是無偏的，往往高熱 item 更可能曝光給用戶。具體來說，會導致

該指標被證明了在數(shù)據(jù)量 n 極大的情況下，將會收斂到

在該框架下，問題即轉換成為了如何去估計 IPS，則成為一個較為開放的問題，有相關的各種解決方案。(參考上文“啟發(fā)式調權”)

參考文獻

[1] Jiawei Chen, Hande Dong, Xiang Wang, Fuli Feng, Meng Wang, and Xiangnan He. 2020. Bias and Debias in Recommender System: A Survey and Future Directions.

[2] Huifeng Guo, Jinkai Yu, Qing Liu, Ruiming Tang, Yuzhou Zhang. 2019. PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems.

[3] Nick Craswell, Onno Zoeter, Michael Taylor, and Bill Ramsey. 2008. An experimental comparison of click position-bias models.

[4] Aman Agarwal, Kenta Takatsu, Ivan Zaitsev, and Thorsten Joachims. 2019. A general framework for counterfactual learning-to-rank.

[5] Qingyao Ai, Keping Bi, Cheng Luo, Jiafeng Guo, and W Bruce Croft. 2018. Unbiased learning to rank with unbiased propensity estimation.

[6] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback.

[7] LongqiYang, YinCui, YuanXuan, ChenyangWang, SergeBelongie, and DeborahEstrin. 2018. Unbiased offline recommender evaluation for missing-not-at-random implicit feedback.

[8] Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative filtering for implicit feedback datasets.

[9] Rong Pan and Martin Scholz. 2009. Mind the gaps: weighting the unknown in large-scale one-class collaborative filtering.

[10] Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua. 2016. Fast matrix factorization for online recommendation with implicit feedback.

[11] Yanen Li, Jia Hu, ChengXiang Zhai, and Ye Chen. 2010. Improving one-class collaborative filtering by incorporating rich user information.

[12] Dawen Liang, Laurent Charlin, James McInerney, and David M Blei. 2016. Modeling user exposure in recommendation.

[13] Yuta Saito. 2020. Unbiased Pairwise Learning from Biased Implicit Feedback.

責任編輯：未麗燕來源：字節(jié)跳動技術團隊

bias 推薦系統(tǒng)debias

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<abbr id="4omjd"><th id="4omjd"></th></abbr>