螞蟻集團、網(wǎng)商銀行統(tǒng)一動態(tài)糾偏框架,非隨機缺失問題優(yōu)化新視角
本工作被人工智能頂級會議 NeurIPS 2024 接收。在諸如推薦系統(tǒng)、展示廣告等多數(shù)實際應(yīng)用中,所收集的數(shù)據(jù)往往包含缺失值,并且這些缺失值通常并非隨機缺失,這會使模型的預(yù)測性能變差。一些現(xiàn)有的估計量和正則化器試圖實現(xiàn)無偏估計以提升模型的預(yù)測性能。然而,當(dāng)傾向得分趨于零時,這些方法的方差和泛化誤差界通常是無界的,從而損害了它們的穩(wěn)定性和魯棒性。在本文中,我們首先從理論上揭示了正則化技術(shù)的局限性。此外,我們進一步闡明,對于廣義形式的估計器,其無偏性必然會導(dǎo)致方差和泛化誤差無界。這些一般性規(guī)律啟示我們,預(yù)估模型的設(shè)計并非僅僅關(guān)乎消除偏差、減小方差或者簡單地實現(xiàn)偏差-方差的權(quán)衡。我們基于這些理論發(fā)現(xiàn),從一個全新的視角重新審視對于非隨機缺失數(shù)據(jù)預(yù)估建模的本質(zhì)——偏差和方差的定量聯(lián)合優(yōu)化。網(wǎng)商銀行智能營銷團隊提出細(xì)粒度動態(tài)學(xué)習(xí)框架來聯(lián)合優(yōu)化偏差和方差,該框架能夠依據(jù)預(yù)先定義的目標(biāo)函數(shù)為每個用戶-商品對自適應(yīng)地選擇合適的估計器。通過這種操作,模型的泛化誤差界和方差降低并從理論層面保證了預(yù)估模型方差和泛化誤差有界,進一步提高模型在隨機缺失數(shù)據(jù)上的泛化能力。
論文題目:Fine-Grained Dynamic Framework for Bias-Variance Joint Optimization on Data Missing Not at Random
論文連接:https://openreview.net/forum?id=gLoe70Tn8V&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DNeurIPS.cc%2F2024%2FConference%2FAuthors%23your-submissions)
一、糾偏推薦背景介紹
在幾乎所有的實際應(yīng)用場景中,我們所收集的數(shù)據(jù)存在一定概率的部分缺失情況。具有相同缺失概率的特殊情形被稱為隨機缺失(MAR)。然而,在在線推薦、搜索和展示廣告領(lǐng)域,存在大量非隨機缺失(MNAR)的點擊、轉(zhuǎn)化和評級記錄,樣本缺失的概率各不相同,即存在傾向性。例如,在推薦系統(tǒng)中,用戶通常會點擊他們可能購買的物品,而對購買意愿較低的其他物品則予以忽略。因此,所觀察到的點擊和轉(zhuǎn)化數(shù)據(jù)屬于 MNAR 類型,并非代表性樣本。當(dāng)使用 MNAR 數(shù)據(jù)來訓(xùn)練模型時,該模型在 MAR 數(shù)據(jù)上的預(yù)測表現(xiàn)通常難以令人接受。這是因為 MNAR 數(shù)據(jù)給預(yù)測模型引入了樣本選擇偏差。
為了消除樣本選擇偏差,研究人員提出了許多偏差校正的估計器(如基于誤差插補的(EIB)方法、逆傾向加權(quán)(IPW/IPS)技術(shù)、雙重魯棒(DR)方法等)。然而,在幾乎所有的偏差校正方法中,較小的傾向性導(dǎo)致了高方差和泛化誤差界。因此,研究者提出了各種方法來降低估計方差并提高模型穩(wěn)定性。盡管如此,當(dāng)傾向性趨于零時,它們?nèi)匀痪哂袩o窮的方差和泛化邊誤差界,這對于模型的泛化性能會產(chǎn)生較大的影響。對于由小傾向性引起的高方差和泛化邊界,一些方法通過犧牲無偏性而采用歸一化技術(shù),例如,歸一化 IPS(SNIPS),穩(wěn)定 DR(SDR)。此外,之前的大多數(shù)工作只關(guān)注通過設(shè)計估計器或正則化器來減少方差或消除偏差,而忽視了估計器設(shè)計中偏差-方差的關(guān)系和本質(zhì)。
二、正則化技術(shù)和目前糾偏估計器的局限性
非隨機缺失數(shù)據(jù)
定義用戶集合和商品集合為 U={u_1,u_2,?,u_M }和 I={i_1,i_2,?,i_N }。所有用戶-商品對的集合表示為 D=U×I,標(biāo)簽矩陣和預(yù)估矩陣表示為 Y∈R^(M×N)和 Y ?∈R^(M×N),其中預(yù)測任務(wù)包含用戶評分預(yù)估,點擊率(CTR)預(yù)估,轉(zhuǎn)化率(CVR)預(yù)估等。Y 和 Y ? 中的每個元素〖y?u,i〗和 y ?_(u,i)為用戶 u 對商品 i 真實標(biāo)簽和預(yù)測輸出。一般情況下,標(biāo)簽矩陣 Y 不可能被全部觀測到。樣本被觀測的變量表示為 o_(u,i)∈{0,1},考慮到無缺失樣本的情況,則的預(yù)測不準(zhǔn)確度定義為:
其中,e_(u,i) 為預(yù)測誤差。預(yù)測問題的目標(biāo)是最小化上述預(yù)測不準(zhǔn)確度 L_real。事實上,只有觀測標(biāo)簽集合 Y^O 能被用于建模。樸素預(yù)估方法通過建立模型最小化如下所示的預(yù)測不準(zhǔn)確度。
如果每個樣本缺失的概率相同,那么上述的樸素預(yù)估方法是無偏的。但是,如果使用的樣本是 MNAR 的,那么上述估計器是有偏的。
考慮到 MNAR 數(shù)據(jù)帶來的樣本選擇偏差問題,研究人員提出各種無偏估計方法來克服這個問題,如:EIB,IPS/IPW,DR,以及它們的各種變體。EIB、IPS、DR 估計器的損失函數(shù)如下所示:
其中,為缺失數(shù)據(jù)的 MAE 插補誤差,
為缺失數(shù)據(jù)的MSE插補誤差,w 和 γ 為超參數(shù)。p ?_(u,i) ?(0,1) 為傾向性分?jǐn)?shù)。對于樸素估計器、EIB、IPW/IPS、DR 方法的偏差和方差公式由下表給出。
其中,,
。
通常來說,插補誤差預(yù)估模型的學(xué)習(xí)也涉及到 MNAR 問題。一些聯(lián)合學(xué)習(xí)算法,如 DR-JL 等,使用傾向模型來克服這個問題。因此,傾向性估計在無偏性和穩(wěn)健性方面具有關(guān)鍵作用。此外,很難準(zhǔn)確估計所有用戶-物品對的插補誤差,因此很難實現(xiàn) EIB 估計器的無偏性。如果傾向性估計 p ?_(u,i) 是準(zhǔn)確的,即 p ?_(u,i)=p_(u,i),那么 IPS 和 DR 估計器是無偏的。實際應(yīng)用中,對于一個新的數(shù)據(jù)集,我們無法事先知道該數(shù)據(jù)集中傾向概率的范圍。因此,一個新的數(shù)據(jù)集可能會引入極小的傾向概率導(dǎo)致 IPS 和 DR 的方差非常大,這將破壞估計器預(yù)估性能的穩(wěn)定性,尤其是對于較大的數(shù)據(jù)集。這對于實際工業(yè)場景是不可接受的。根據(jù)表格中給出的各個估計器偏差方差的表達(dá)式,傾向性越小,方差越大。當(dāng)傾向性分?jǐn)?shù)趨于零時,方差趨于無窮大。同樣,其他基于 IPS 和 DR 的無偏估計方法的方差也是無界的。另一方面,雖然在預(yù)測誤差 e_(u,i) 是有界時,樸素方法和 EIB 方法的方差是有界的,但要實現(xiàn)無偏估計卻很困難,甚至是不可能的。
正則化技術(shù)和靜態(tài)估計器的局限性
定義具有正則化的估計器的一般形式為:
其中,函數(shù) f(?,?)≠0 滿足 f(0,p ?_(u,i) )=0,g(?,?) 和 h(?,?) 是關(guān)于 o 和 p ?_(u,i) 的函數(shù)?!糒?Est〗和 L_Reg 分別是估計器和正則化器的預(yù)測不準(zhǔn)確性,對于所有的用戶-商品對,它們滿足和
。λ>0 為標(biāo)量權(quán)重。上述表達(dá)式給出的估計器的一般形式 L_Est 涵蓋了現(xiàn)有的大部分估計器,涉及 EIB、IPS、DR、MRDR、TDR、MIS、IPS/DR-SV 以及其他基于 IPS 和 DR 方法的估計器。另一方面,幾乎所有現(xiàn)有的正則化設(shè)計,包括 SV、MIS、BMSE 等正則化方法,都可以轉(zhuǎn)化為 L_Reg 給出的一般形式。在以前的工作中,正則化技術(shù)在一定程度上降低了估計器的方差并改善了泛化性能。然而,它仍然有一些不可避免的局限性(相關(guān)理論細(xì)節(jié)及其證明,參見原論文 3.1 節(jié)):
- 對于具有正則化項的一般估計器 L_(Est+Reg),在不犧牲無偏性的同時減少方差是不可能的。
- 正則化方法 L_Reg 無法保證估計器方差和泛化誤差是有界的。
根據(jù)之前的研究工作和本工作得到的理論結(jié)果,正則化技術(shù)在一定程度上可以減少方差,但不能使估計器具有有界方差和泛化誤差界?;蛘哒f,正則化技術(shù)對改善模型預(yù)測和泛化性能的影響是有限的。
對于估計器 L_Est,大量的方法追求無偏估計或者追求估計方差的減少,再或者通過手動設(shè)計估計器來實現(xiàn)偏差和方差的簡單折衷。本工作我們發(fā)現(xiàn)一般形式的估計器存在如下的局限性:
- 對于一般形式的估計器 L_Est,估計器的無偏性將不可避免地導(dǎo)致無界方差和泛化誤差界。
這說明,對于廣義形式的估計器來說,無偏性和有界方差、泛化誤差不可兼得。因此我們認(rèn)為估計器設(shè)計的核心目標(biāo)不僅僅是消除偏差、減少方差或僅僅實現(xiàn)偏差-方差的簡單折衷,而是關(guān)于偏差和方差之間的定量聯(lián)合優(yōu)化,有必要開發(fā)一個動態(tài)估計框架來實現(xiàn)定量聯(lián)合優(yōu)化,動態(tài)估計器能夠從用戶-商品對的維度選擇合適的估計器來實現(xiàn)最小化泛化誤差的目的。
三、細(xì)粒度動態(tài)框架及估計器設(shè)計準(zhǔn)則
基于 IPS 和基于 DR 的動態(tài)學(xué)習(xí)框架設(shè)計如下:
其中,f(?) 為需要設(shè)計的函數(shù),α_(u,i)∈[0,1] 為可優(yōu)化的參數(shù)。當(dāng) f(p ?_(u,i) )=p ?_(u,i) 且 ?α_(u,i)=1,D-IPS 和 D-DR 分別等價于原始的 IPS 和 DR 估計器,它們具有無偏性。當(dāng) f(p ?_(u,i) )=p ?_(u,i) 且 ?α_(u,i)=0,D-IPS 和 D-DR 分別等價 |O|/D L_naive 和 EIB 方法,它們具有有界方差和泛化誤差界。函數(shù) f(p ?_(u,i) ) 實際上是一個關(guān)于傾向性分?jǐn)?shù)的映射,f(p ?_(u,i) ) 的設(shè)計準(zhǔn)則總結(jié)如下
- (保序性)f(p ?_(u,i) )>p ?_(u,i) 單調(diào)遞增且滿足 f(0)=0,f(1)=1。
- (同階性)lim┬(p ?_(u,i)→0)?〖p ?_(u,i)/f(p ?_(u,i) ) 〗=C,其中 C>0 為正常數(shù)。
符合上述設(shè)計原則的一些具體函數(shù)表達(dá)式總結(jié)如下表所示。
D-IPS 和 D-DR 估計器的偏差和方差表達(dá)式如下所示:
偏差表達(dá)式:
其中,
方差表達(dá)式:
其中,
泛化誤差界表達(dá)式:
其中,
函數(shù) h_B^Est 和 h_V^Est 分別決定了偏差和方差的大小,我們稱函數(shù) h_B^Est 和 h_V^Est 為偏差和方差的決定因子,函數(shù) h_B^Est 和 h_V^Est 曲面如下圖所示,可以看到,h_B^Est 隨著 α_(u,i) 的增大單調(diào)遞減;h_V^Est 隨著 α_(u,i) 的增大單調(diào)遞增。
四、偏差-方差定量聯(lián)合優(yōu)化
根據(jù)函數(shù) h_B^Est 和 h_V^Est 的單調(diào)性,偏差-方差的折衷問題可以被定量形式化為如下的聯(lián)合優(yōu)化問題:
其中,w_1 和 w_2 為偏差和方差的權(quán)重??紤]到偏差和方差的決定因子,上述偏差-方差的聯(lián)合優(yōu)化問題可以被轉(zhuǎn)換為如下所示的優(yōu)化問題。
因為 f(p ?_(u,i) ) 的設(shè)計準(zhǔn)則,所以有 h_B^Est≥0 和 h_V^Est>0。因此,優(yōu)化問題可以被進一步簡化為:
有了這一步的簡化,我們就可以直接得到最優(yōu)參數(shù)的解析解,最優(yōu)參數(shù)的表達(dá)式如下所示:
我們通過優(yōu)化操作可以在不增加計算復(fù)雜度的基礎(chǔ)上實現(xiàn)偏差和方差的定量優(yōu)化,同時從理論層面保證方差和泛化誤差的有界性。
方差和泛化誤差有界性結(jié)論
- 如果動態(tài)估計器采用 α_(u,i)^opt 作為參數(shù),則對應(yīng)的方差和泛化誤差是有界的。
五、實驗結(jié)果
性能比較
實驗使用了三個具有 MNAR 和 MAR 樣本的現(xiàn)實數(shù)據(jù)集,分別是 COAT,包含 290 名用戶對 300 件外套的 4,640 個 MAR 和 6,960 個 MNAR 評分;YAHOO! R3,包含 15,400 名用戶對 1,000 首歌曲的 54,000 個 MAR 和 311,704 個 MNAR 評分;以及 KUAIREC,包含 1,411 名用戶對 3,327 個視頻的 4,676,570 條觀看比率記錄。COAT 和 YAHOO! R3 中的評分分?jǐn)?shù)在大于 3 時被二值化為 1,否則為 0。對于 KUAIREC 數(shù)據(jù)集,觀看率在小于 2 時被二值化為 0,否則為 1。提出的動態(tài)估計器和 SOTA 方法的性能對比結(jié)果如下表所示。
消融實驗
我們通過實驗研究不同權(quán)重和函數(shù)對動態(tài)估計器的影響。我們給出了四個具體的函數(shù)表達(dá)式。我們將這四個動態(tài)估計器的權(quán)重設(shè)置為 w1=1 和 w2=[0.02, 0.04, 0.06, 0.08, 1],以研究權(quán)重對性能和方差的影響。從最優(yōu)參數(shù)方程可知,最優(yōu)參數(shù)由權(quán)重比 w2/w1 決定。因此,我們只關(guān)注權(quán)重比對估計器性能和方差的影響,不同函數(shù)下,不同的權(quán)重比的模型性能由下圖給出。
(a)p ?_(u,i)^α; (b) (sin(p ?_(u,i) )/sin?2 )^α; (c) (log?(p ?_(u,i)+1)/log?2 )^α; (d) (tanh?(p ?_(u,i) )/sin?2 )^α
從上圖可以看出,對于 D-IPS、D-IPS-AT、D-DR、D-DR-JL 和 D-MRDR-JL 方法,性能隨著權(quán)重比的增加先增加后減小。同時,方差似乎在泛化性能達(dá)到最高值時達(dá)到最小值。由于權(quán)重比越小,動態(tài)估計器的偏差越小,上圖中的實驗結(jié)果表明,估計器的無偏性并不完全等價于模型性能。實際上,從給出的泛化誤差表達(dá)式來看,偏差-方差聯(lián)合優(yōu)化可以最小化估計器的泛化誤差界,從而進一步提高模型的泛化性能。對于 SNIPS,方差減少的特性可能會導(dǎo)致非直觀的性能和方差趨勢。
在相同的權(quán)重比 w2/w1=0.1 下,我們進一步討論不同函數(shù)對模型性能和方差的效果。從下表可以看出幾乎所有具有不同函數(shù)表達(dá)式的動態(tài)估計器性能都優(yōu)于相應(yīng)的原始糾偏方法。這進一步證明了所提出的動態(tài)學(xué)習(xí)機制可以極大地提高原始估計器的性能。
六、結(jié)語
據(jù)我們所知,這是第一個揭示估計器設(shè)計本質(zhì)的工作。該工作指出,估計器設(shè)計的本質(zhì)不僅僅是消除偏差、降低方差或?qū)崿F(xiàn)簡單的偏差-方差權(quán)衡,而是同時定量優(yōu)化偏差和方差。此外,該工作還闡述了通用正則化技術(shù)和靜態(tài)估計器的局限性?;谄詈头讲钪g關(guān)系的一般規(guī)律,我們提出了一種系統(tǒng)的動態(tài)學(xué)習(xí)框架,通過細(xì)粒度的偏差-方差聯(lián)合優(yōu)化方案,保證了方差和泛化誤差界的有界性。大量的實驗結(jié)果驗證了該工作的理論結(jié)果和當(dāng)前動態(tài)估計器的性能。在動態(tài)估計框架中,對目標(biāo)函數(shù)中權(quán)重的搜索以及函數(shù)的搜索仍然是一個開放問題,值得進一步探索。