自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文梳理推薦系統(tǒng)中的特征交互排序模型

系統(tǒng)
本文梳理了從LR到CAN,推薦系統(tǒng)發(fā)展過(guò)程中比較知名的特征交互排序模型。

引言

工業(yè)推薦系統(tǒng)一般包含兩個(gè)部分:召回和排序。召回階段根據(jù)用戶的興趣和歷史行為,從海量的物品庫(kù)里,快速找回小部分用戶潛在感興趣的物品。排序模型需要融入各種特征(例如用戶端的特征、物品端的特征等),使用較為復(fù)雜的模型,對(duì)召回階段輸出的物品集合進(jìn)行排序,為用戶做精準(zhǔn)的個(gè)性化推薦。排序模型融入特征不僅需要考慮單獨(dú)每一個(gè)特征,更需要考慮特征之間的交互。特征交互也叫特征組合,通過(guò)將兩個(gè)或多個(gè)特征組合起來(lái),進(jìn)行一系列操作,來(lái)實(shí)現(xiàn)對(duì)樣本空間的非線性變換,增加模型的非線性能力,以達(dá)到對(duì)于不同的特征組合都能進(jìn)行有效預(yù)測(cè)的目標(biāo)。

那么如何建模特征交互?最容易想到的方法是對(duì)所有特征的組合都枚舉一遍。但是,這種顯式地特征交互有一定的局限性:(1)非線性建模能力有限(2)更高階的特征交互計(jì)算量大,難以實(shí)現(xiàn)(3)數(shù)據(jù)稀疏性大時(shí),出現(xiàn)次數(shù)少的特征難以訓(xùn)練(4)不能自動(dòng)化實(shí)現(xiàn)特征交互,人工代價(jià)大。隨著深度學(xué)習(xí)時(shí)代的到來(lái),特征交叉方案變得更加豐富,很多工作利用深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)隱式地建模特征交互的高階關(guān)系,來(lái)解決顯式特征交互帶來(lái)的問(wèn)題。一些典型的工作例如PNN,Wide&Deep,NFM,DeepFM,xDeepFM,DIN等。

本文梳理了從LR到CAN,推薦系統(tǒng)發(fā)展過(guò)程中比較知名的32個(gè)特征交互排序模型。文章一共包含5個(gè)部分:

  1. 非深度特征交互 :LR, FM, FFM, FwFM, LorentzFM, FM^2
  2. 深度特征交互 : DNN(FNN), DeepCrossing, Wide&Deep, PNN, NFM, AFM, DeepFM, DCN, xDeepFM, FiBiNET, ONN. DCN V2
  3. 自動(dòng)特征交互 : AutoInt, AFN, AutoFIS, AIM
  4. 基于圖的特征交互 : Fi-GNN, L0-SIGN, PCF-GNN, DG-ENN
  5. 基于序列的特征交互 : DIN, DIEN, DSIN, DMR, CAN

其中,嚴(yán)格來(lái)說(shuō)3、4、5三個(gè)部分也屬于深度特征交互這一類,但因?yàn)槠涓髯杂忻黠@的特點(diǎn),因此將它們單獨(dú)歸類。讀者可以選擇自己不熟悉的方向進(jìn)行閱讀。

下圖是本文涉及到的排序模型的發(fā)展歷程,讓脈絡(luò)更加清晰。

特征交互排序模型發(fā)展歷程

1 非深度特征交互

LR

Predicting Clicks Estimating the Click-Through Rate for New Ads, WWW 2007

LR模型沒(méi)有使用特征交互的線性函數(shù),對(duì)于每一個(gè)特征使用一個(gè)參數(shù)w作為權(quán)重。它可以處理大規(guī)模的離散化特征,并且易于并行化、可解釋性強(qiáng)。同時(shí)LR有很多變種,例如支持在線實(shí)時(shí)模型訓(xùn)練(FTRL)。

FM

Factorization Machines, ICDM 2010

LR模型假設(shè)特征之間是相互獨(dú)立的,忽略了特征之間的交互,而FM則是針對(duì)這一點(diǎn)進(jìn)行改進(jìn)。FM模型融入了二階特征交互,對(duì)于每?jī)蓚€(gè)特征x_i和x_j的交互組合,用一個(gè)參數(shù)w_ij來(lái)作為權(quán)重。

為了解決了特征交互稀疏的問(wèn)題,作者對(duì)參數(shù)w_ij進(jìn)行了分解,分解為了兩個(gè)向量的點(diǎn)積:

FFM

Field-aware Factorization Machines for CTR Prediction, RecSys 2016

在FM中,每一個(gè)特征只學(xué)習(xí)一個(gè)隱向量,這篇文章的作者一些特征應(yīng)當(dāng)屬于不同的特征域,因此應(yīng)該分別建模。具體來(lái)講,F(xiàn)FM針對(duì)每個(gè)特征都會(huì)學(xué)習(xí)f個(gè)隱向量,f表示field的數(shù)量。假設(shè)樣本的 n 個(gè)特征屬于 f 個(gè)field,那么FFM的二次項(xiàng)有 nf個(gè)隱向量,而在FM模型只有有n個(gè)隱向量。

FwFM

Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, WWW 2018

FFM對(duì)不同的交互方式可以精確的建模,取得很好的效果。但是,F(xiàn)FM中的參數(shù)個(gè)數(shù)跟特征數(shù)和域數(shù)的乘積同階,在實(shí)際應(yīng)用中開(kāi)銷較大。FwFM提出帶權(quán)重的FFM,對(duì)不同域中不同的特征交互建模時(shí)更加高效。

LorentzFM

Learning Feature Interactions with Lorentzian Factorization Machine, AAAI 2020

洛倫茲因子分解機(jī)模型沒(méi)有使用深度模型的結(jié)構(gòu),但可以達(dá)到深度模型的準(zhǔn)確率,而且降低了深度模型的參數(shù)量和訓(xùn)練時(shí)間。具體來(lái)講,LorentzFM建模特征交互時(shí),利用了雙曲空間中兩個(gè)特征之間距離是否違背三角不等式來(lái)構(gòu)造特征交互,同時(shí)雙曲三角形特殊的幾何特性可以替換掉現(xiàn)在普遍使用的MLP層,達(dá)到了減少參數(shù)量的目標(biāo)。

FM^2

FM^2: Field-matrixed Factorization Machines for CTR Prediction, WWW 2021

FmFM(FM^2)可以看做FwFM的升級(jí)版,并且FM、FwFM等模型都可以統(tǒng)一到FmFM框架下,并通過(guò)embedding向量維度和中間向量緩存優(yōu)化,在模型效果持平的前提下,提升計(jì)算效率。具體來(lái)講,特征 F(i) 與特征 F(j) 交叉時(shí),引入矩陣M,特征 F(i) 對(duì)應(yīng)向量先與矩陣相乘得到中間向量,再與特征 F(j) 對(duì)應(yīng)向量點(diǎn)積。FM和FwFM可以統(tǒng)一到該框架下。FM在進(jìn)行二階特征交互時(shí),特征對(duì)應(yīng)向量直接進(jìn)行點(diǎn)積,等價(jià)于把FmFM中的M矩陣設(shè)置為單元矩陣(對(duì)角線全為1)。FwFM進(jìn)行特征交互時(shí),每對(duì)特征引入權(quán)重 ,等價(jià)于把FmFM中的轉(zhuǎn)化矩陣設(shè)置對(duì)角線全為 r 的矩陣(非對(duì)角線為0),矩陣參數(shù)可學(xué)習(xí),對(duì)角線元素相同。

2 深度特征交互

DNN(FNN)

Deep Learning over Multi-field Categorical Data, ECIR 2016

DNN模型通常由Embedding層+MLP層組成。通過(guò)Embedding層,將高維離散特征轉(zhuǎn)換為固定長(zhǎng)度的連續(xù)特征,然后通過(guò)多個(gè)全連接層,最后通過(guò)一個(gè)激活函數(shù)得到點(diǎn)擊的概率。這種方法的優(yōu)點(diǎn)在于通過(guò)神經(jīng)網(wǎng)絡(luò)擬合高階特征交互的非線性關(guān)系,同時(shí)減少了人工特征的工作量。這篇論文中提到的FNN則是用訓(xùn)練好的FM作為初始化參數(shù),再接DNN。

DeepCrossing

Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features , SIGKDD 2016

微軟于2016年提出的Deep Crossing可以說(shuō)是深度學(xué)習(xí)CTR模型的基礎(chǔ)性模型,旨在解決特征工程中特征組合的難題,降低人工特征組合的工作量。它的整體結(jié)構(gòu)與DNN類似,不同的地方在于Deep Crossing采用的MLP是由殘差網(wǎng)絡(luò)組成的(文中提到這是第一次殘差單元被用于圖像識(shí)別之外)。通過(guò)多個(gè)殘差單元,對(duì)特征向量各個(gè)維度進(jìn)行交叉組合,使模型獲得了更多的非線性特征和組合特征信息,從而提高了模型的表達(dá)能力。

Wide&Deep

Wide & Deep Learning for Recommender Systems, RecSys 2016

Wide&Deep 是由Google于2016年提出的,是推薦領(lǐng)域取得較大成功的最早深度模型。模型包括Wide和Deep兩個(gè)部分,Wide 部分為 LR,這部分對(duì)樣本中的特征與目標(biāo)有較為明顯的關(guān)聯(lián)進(jìn)行記憶性學(xué)習(xí),即對(duì)于樣本中出現(xiàn)過(guò)的高頻低階特征能夠用少量參數(shù)學(xué)習(xí),缺點(diǎn)是泛化能力差;Deep部分為DNN,旨在學(xué)習(xí)到樣本中多個(gè)特征與目標(biāo)之間的隱式關(guān)聯(lián),對(duì)于少量出現(xiàn)過(guò)的樣本甚至沒(méi)有出現(xiàn)過(guò)的樣本能做出預(yù)測(cè)。在Wide&Deep的框架下,一個(gè)優(yōu)勢(shì)是Wide部分可以沿用之前非深度特征交互的成果,尤其是特征工程部分。這一點(diǎn)也促進(jìn)了之后DeepFM等工作的誕生。

PNN

Product-based Neural Networks for User Response Prediction, ICDM 2016

傳統(tǒng)Embedding+MLP的方式并不能很好對(duì)高階交叉特征進(jìn)行獲取,同時(shí)FNN用FM初始化參數(shù)接DNN的方式也并不完美,針對(duì)這些缺點(diǎn)PNN進(jìn)行了改進(jìn),通過(guò)引入特征交互層 Product Layer,顯式的對(duì)特征進(jìn)行交互,以提升模型的表達(dá)能力。Product層利用內(nèi)積(Inner PNN)和外積(Outer PNN)兩種方式實(shí)現(xiàn)對(duì)特征的交叉組合。其中,IPNN本質(zhì)上利用共享參數(shù)來(lái)減少參數(shù)量,采用一階矩陣分解來(lái)近似矩陣結(jié)果。OPNN的時(shí)空復(fù)雜度比IPNN更高,作者使用了Sum Pooling的方式來(lái)降低復(fù)雜度,但也造成了精度的損失。 實(shí)際使用更多的是IPNN。

NFM

Neural Factorization Machines for Sparse Predictive Analytics, SIGIR 2017

NFM將FM得到的交互特征用于DNN層的輸入,并使用Bi-interaction Pooling操作對(duì)二階交叉特征進(jìn)行處理,解決傳統(tǒng)FM作為線性模型表達(dá)有限的問(wèn)題和對(duì)高階交叉特征學(xué)習(xí)不充分的問(wèn)題,公式如下:

Bi-interaction Pooling與FM相比,沒(méi)有引入額外的參數(shù),且具有線性復(fù)雜度。

AFM

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks, IJCAI 2017

與NFM類似,AFM首先利用FM解決稀疏特征問(wèn)題及淺層交互特征,同時(shí)利用深度注意力網(wǎng)絡(luò)獲取深層交互特征。模型的核心是注意力層(Attention-based Pooling Layer)通過(guò)關(guān)注不同的交叉特征和目標(biāo)之間的關(guān)系,得到不同程度的貢獻(xiàn)分?jǐn)?shù),然后加權(quán)求和。同時(shí)利用MLP進(jìn)一步處理訓(xùn)練數(shù)據(jù)中未出現(xiàn)樣本的的評(píng)估問(wèn)題,從而達(dá)到泛化模型的目的。

DeepFM

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, IJCAI 2017

將Wide&Deep模型的LR替換為FM。解決FM只能獲取二階特征,無(wú)法獲取高階特征的問(wèn)題;解決傳統(tǒng)DNN的隱式交叉方式在高稀疏特征無(wú)法很好獲取表征的問(wèn)題。DeepFM是一個(gè)端到端的深度學(xué)習(xí)模型,模型FM和DNN部分共享Embedding層。

DCN

Deep & Cross Network for Ad Click Predictions, ADKDD 2017

DCN對(duì)Wide&Deep中的Wide部分進(jìn)行了替換,提出CrossNetwork用于特征交叉。它的設(shè)計(jì)理念是通過(guò)參數(shù)共享的方式減少向量壓縮變換時(shí)產(chǎn)生參數(shù)量過(guò)多的情況,從而減少模型的過(guò)擬合,增強(qiáng)模型的泛化能力。同時(shí)Cross Network的方式會(huì)將模型復(fù)雜度降為層級(jí)線性增長(zhǎng)。

xDeepFM

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, SIGKDD 2018

使用CIN交叉網(wǎng)絡(luò)和DNN的雙路結(jié)構(gòu),同時(shí)以顯式和隱式的方式學(xué)習(xí)高階特征。其中模型的核心部分是交叉網(wǎng)絡(luò)CIN部分,由交互和壓縮兩步,通過(guò)vector-wise角度學(xué)習(xí)高階交叉特征,CIN與DNN兩個(gè)部分同時(shí)共享Embedding層。

FiBiNET

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction, RecSys 2019

結(jié)合特征重要性和雙線性特征交互進(jìn)行CTR預(yù)估。主要通過(guò)動(dòng)態(tài)學(xué)習(xí)不同特征的特征重要性權(quán)重,解決CTR預(yù)估中對(duì)不同場(chǎng)景下不同特征的權(quán)重reweight的問(wèn)題;雙線性的使用解決稀疏數(shù)據(jù)在特征交叉建模時(shí)的有效性問(wèn)題。核心結(jié)構(gòu)包括SENET Layer和Bilinear-Interaction Layer。其中 SENET Layer會(huì)對(duì)每個(gè)field用pooling操作和FC層計(jì)算特征重要性權(quán)重的Excitation;對(duì)原始每個(gè)field利用Excitation得到的特征重要性權(quán)重重新賦權(quán)。而 Bilinear-Interaction Layer 提出一種結(jié)合Inner Product和Hadamard Product方式,學(xué)習(xí)交互特征。

ONN

Operation-aware Neural Networks for user response prediction , NN 2020

目前大多數(shù)模型對(duì)于一個(gè)特征在進(jìn)行不同的操作時(shí)都使用相同的表示。但對(duì)于不同的操作,一個(gè)特征的最好的表示不總是相同的。ONN解決該問(wèn)題的一個(gè)思路是在基本的通用的Embedding+MLP結(jié)構(gòu)下,將PNN與FFM結(jié)合起來(lái),實(shí)現(xiàn)了在embedding層的每一個(gè)特征對(duì)于不同操作(內(nèi)積或者外積)有不同的表示,這對(duì)于之后進(jìn)入MLP學(xué)習(xí)高階特征交互時(shí)有更好的幫助。與PNN相比,ONN實(shí)現(xiàn)了operation-aware的embedding layer,即一個(gè)特征有多種embedding,對(duì)于不同操作可以選擇不同的特征表示。和FFM模型最大的區(qū)別在于ONN加入了MLP,深度神經(jīng)網(wǎng)絡(luò)能夠更好的挖掘特征深層次的依賴,學(xué)習(xí)到復(fù)雜的特征交互關(guān)系。

DCN V2

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems, WWW 2021

DCN V2是DCN的作者提出的一個(gè)改進(jìn)版本。核心的改進(jìn)在于cross network。

這是DCN的cross layer

這是DCN V2的cross layer

從兩幅圖的公式可以對(duì)比看出,模型最大的變化是將原來(lái)的向量w變成了矩陣W。矩陣相比向量來(lái)說(shuō),擁有更多的參數(shù)來(lái)保留高階交叉信息,提高模型的表達(dá)能力。但是引入矩陣會(huì)增加計(jì)算量,為了減少開(kāi)銷,作者提出了對(duì)W矩陣進(jìn)行低秩分解,即用兩個(gè)低秩子矩陣代替原來(lái)的矩陣,實(shí)驗(yàn)證明這種方式精度損失很低。另外,文章對(duì)deep層和cross層還嘗試了stacked(串行,cross層的輸出作為deep層的輸入)和 parallel(并行,cross層和deep層同時(shí)進(jìn)行,最后將兩部分的輸出拼接)兩種不同的組合方式,實(shí)驗(yàn)表明兩種組合方式在不同的數(shù)據(jù)集上的表現(xiàn)效果不同,沒(méi)有優(yōu)劣之分。

3 自動(dòng)特征交互

現(xiàn)有的特征交互的工作通常分為二階交互和高階交互,而且需要指定一個(gè)交互階數(shù),迭代出所有的交互特征。這樣做一方面計(jì)算量容易變得很大,不利于實(shí)際應(yīng)用;另一方面可能會(huì)潛在引入噪聲,即不重要的特征交互組合。自動(dòng)特征交互這一類工作的目標(biāo)是希望模型可以自動(dòng)學(xué)出應(yīng)該保留哪些交互的特征以及應(yīng)該進(jìn)行幾階交互。

AutoInt

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks, CIKM 2019

受Transformer的啟發(fā),模型利用帶殘差連接的多頭自注意力機(jī)制顯式的進(jìn)行交互特征的獲取,能夠自動(dòng)學(xué)習(xí)高階特征交叉。核心部分是Interacting Layer,將輸入的embedding轉(zhuǎn)換為Query、Key、Value,通過(guò)自注意力的方式計(jì)算每個(gè)特征與其他特征的相似度,加權(quán)求和得到新特征。模型也包含多個(gè)注意力層以構(gòu)造更高階的組合特征。

AFN

Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions, AAAI 2020

現(xiàn)有的特征交互的工作通常指定一個(gè)交互階數(shù),迭代出所有的交互特征,這樣做一方面計(jì)算量很大,另一方面會(huì)引入噪聲的特征組合。AFN本文借鑒了Logarithmic Neural Network (LNN)的思想,模型中的Logarithmic Transformation Layer可以自動(dòng)學(xué)習(xí)保留出應(yīng)該交互的特征以及應(yīng)該進(jìn)行幾階交互。其核心思想是引入對(duì)數(shù)mic變換,將特征對(duì)數(shù)化,再去做交叉運(yùn)算。這樣能將特征交互中每個(gè)特征的冪轉(zhuǎn)換為帶系數(shù)的乘法。

AutoFIS

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction, SIGKDD 2020

AutoFIS的目標(biāo)是自動(dòng)識(shí)別出有效的特征交互組合,避免引入噪聲特征交互。模型整體分為兩個(gè)階段: 搜索階段(檢測(cè)有效特征交互)和重訓(xùn)練階段(去除冗余的特征交互,并重新訓(xùn)練模型)。模型會(huì)為每個(gè)特征交互引入門(mén)控單元來(lái)控制是否選擇它。搜索階段門(mén)控打開(kāi),正常學(xué)習(xí)每個(gè)特征交互的權(quán)重;重訓(xùn)練階段,關(guān)閉不重要特征交互的門(mén)控,即在訓(xùn)練時(shí)丟掉這個(gè)特征交互。

AIM

AIM: Automatic Interaction Machine for Click-Through Rate Prediction, TKDE 2021

AIM是AutoFIS的擴(kuò)展版,包含三個(gè)核心組件:特征交互搜索(FIS)、交互函數(shù)搜索(IFS)和嵌入維數(shù)搜索(EDS)。其中IFS以及FIS負(fù)責(zé)特征交互搜索,EDS負(fù)責(zé)特征表示搜索。FIS負(fù)責(zé)搜索特征交互的組合,可以看到FIS的結(jié)構(gòu)與AutoFIS一致,但基本的FIS結(jié)構(gòu)只能探索特征間的二階交互,這里作者設(shè)計(jì)了 P 階特征交互的搜索算法。IFS為每個(gè)特征交互組合設(shè)計(jì)了不同的運(yùn)算選擇,具體而言,本文設(shè)計(jì)了inner,outer與kernel product三種運(yùn)算。在搜索階段,IFS與FIS同時(shí)進(jìn)行搜索,因?yàn)椴煌卣鹘M合與組合間的運(yùn)算是緊密聯(lián)系的。特征交互搜索在自底向上的搜索過(guò)程中同時(shí)完成了特征組合搜索與特征組合間的運(yùn)算搜索。EDS結(jié)構(gòu),它為特征embedding的每個(gè)值分配一個(gè)剪枝搜索權(quán)重,用來(lái)修改重參化后的embedding。最后根據(jù)搜索非0權(quán)重位置構(gòu)建embedding table的稀疏表示。

4 基于圖的特征交互

這部分主要介紹了近三年來(lái)應(yīng)用圖神經(jīng)網(wǎng)絡(luò)到CTR模型中,來(lái)建模特征交互的工作。

Fi-GNN

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction, CIKM 2019

Fi-GNN首次嘗試將GNN用于建模特征之間的復(fù)雜交互,屬于開(kāi)創(chuàng)性的工作?;舅枷胧菢?gòu)建特征圖,將特征作為圖的節(jié)點(diǎn),兩兩節(jié)點(diǎn)之間都存在一條邊,邊上的權(quán)重代表特征交互的重要程度,以此將特征之間的復(fù)雜交互轉(zhuǎn)化為特征圖的節(jié)點(diǎn)之間的交互。在Embedding層中,模型使用了多頭注意力網(wǎng)絡(luò)層得到新的field embedding,蘊(yùn)含了該field和其它特征field的高階特征交互。輸出為一個(gè)特征圖,作為后面Fi-GNN模型的輸入。Fi-GNN由多步組成。每一步會(huì)對(duì)節(jié)點(diǎn)做更新:使用注意力網(wǎng)絡(luò)聚合鄰居節(jié)點(diǎn)的信息,然后使用一個(gè)GRU單元對(duì)節(jié)點(diǎn)N進(jìn)行狀態(tài)更新。在Fi-GNN中,每個(gè)節(jié)點(diǎn)通過(guò)和鄰居節(jié)點(diǎn)交換狀態(tài)信息,以循環(huán)的方式更新自身的狀態(tài),圖網(wǎng)絡(luò)上更新的步數(shù)相當(dāng)于特征交互的階數(shù)。

L0-SIGN

Detecting Beneficial Feature Interactions for Recommender System, AAAI 2021

特征交互對(duì)于在推薦系統(tǒng)中實(shí)現(xiàn)高精度推薦至關(guān)重要。然而,一些特征交互可能與推薦結(jié)果無(wú)關(guān),可能會(huì)引入噪聲并降低推薦精度。處理組合問(wèn)題一個(gè)很好的數(shù)據(jù)結(jié)構(gòu)就是圖。為了充分利用特征交互,L0-SIGN構(gòu)造了特征圖,所有的特征當(dāng)成圖的頂點(diǎn),圖中有沒(méi)有邊來(lái)表示兩個(gè)節(jié)點(diǎn)之間有沒(méi)有交互,邊的權(quán)重表示特征交互的重要性。同時(shí)文章提出了一種帶有L0激活正則化的邊預(yù)測(cè)模型,來(lái)自動(dòng)檢測(cè)那些在推薦準(zhǔn)確性方面有益的特征交互,從而過(guò)濾掉帶來(lái)噪聲的特征交互。

PCF-GNN

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction, SIGIR 2021

和Fi-GNN用端到端建模不一樣,PCF-GNN是一個(gè)兩階段的模型。第一階段是GNN的預(yù)訓(xùn)練:通過(guò)構(gòu)建一種基于特征共現(xiàn)關(guān)系的GNN,節(jié)點(diǎn)表示每一個(gè)特征,邊的權(quán)重為特征共現(xiàn)度,顯式地建模特征共現(xiàn)目標(biāo)。進(jìn)行相應(yīng)的預(yù)訓(xùn)練(沒(méi)有像Fi-GNN一樣用多頭注意力機(jī)制學(xué)習(xí)節(jié)點(diǎn)初始表示),顯式地預(yù)測(cè)和輸出特征的交互關(guān)系,對(duì)于沒(méi)有出現(xiàn)過(guò)的新的交互,也可泛化預(yù)測(cè)。第二階段是下游的應(yīng)用:GNN可以固定參數(shù),作為交互特征提取器,在應(yīng)用的階段首先推斷出交互特征的值,然后和其余特征拼接在一起作為后面DNN的輸入;也可以做預(yù)訓(xùn)練的范式,在下游CTR模型訓(xùn)練過(guò)程中微調(diào)GNN,更新每個(gè)特征的表示。

DG-ENN

Dual Graph enhanced Embedding Neural Network for CTR Prediction, SIGKDD 2021

現(xiàn)有工作存在兩個(gè)主要的問(wèn)題:特征稀疏性,特征交互依賴于特征之間的共現(xiàn)信息,稀疏特征在訓(xùn)練集很少出現(xiàn),因此很難訓(xùn)練充分;行為稀疏性,用戶行為呈長(zhǎng)尾分布,大部分用戶的交互行為比較稀少。

針對(duì)特征稀疏性,參考前面兩篇工作,引入特征圖來(lái)自動(dòng)建模特征交互,high-degree的特征能夠輔助鄰近的low-degree稀疏特征的表示學(xué)習(xí),緩解特征共現(xiàn)帶來(lái)的偏差和不置信。針對(duì)行為稀疏性,可以構(gòu)建user-item的交互圖,這樣能夠利用其它用戶行為中蘊(yùn)含的協(xié)同信息來(lái)解決目標(biāo)用戶行為稀疏的問(wèn)題。最終模型把增強(qiáng)的用戶表示、物品表示、屬性表示、上下文表示做調(diào)整,輸入到DNN中。

5 基于序列的特征交互

DIN

Deep Interest Network for Click-Through Rate Prediction, SIGKDD 2018

在傳統(tǒng)的特征交互模型中,不同維度的Embedding在拼接后輸入到MLP中以擬合高階非線性關(guān)系,但這種框架下用戶的Embedding是不變的,很難獲取用戶的多興趣。本文的動(dòng)機(jī)是模型上如何建模用戶的多峰興趣。DIN創(chuàng)新性地加入了Attention機(jī)制,把target item作為query在動(dòng)態(tài)聚合user的歷史行為,這樣在不同場(chǎng)景中,用戶不同的瀏覽歷史會(huì)構(gòu)建出不同的用戶表示。另外,這篇文章還有一些其他重大的創(chuàng)新,例如dice激活函數(shù),group_auc指標(biāo)等。

DIEN

Deep Interest Evolution Network for Click-Through Rate Prediction, AAAI 2019

在推薦場(chǎng)景下,用戶的興趣會(huì)隨著時(shí)間和空間的變化而發(fā)生變化,只通過(guò)用戶歷史數(shù)據(jù)中的興趣因素,而不關(guān)注興趣的變化,使得現(xiàn)有的一些模型無(wú)法很好的在CTR預(yù)估任務(wù)中對(duì)用戶興趣的變化進(jìn)行刻畫(huà)捕捉。DIEN利用雙層GRU對(duì)用戶興趣序列進(jìn)行刻畫(huà)。Behavior Layer將用戶瀏覽過(guò)的商品按照瀏覽時(shí)間轉(zhuǎn)換成對(duì)應(yīng)的embedding。Interest Extractor Layer利用GRU提取用戶興趣特征。具體加入一個(gè)二分類模型來(lái)計(jì)算興趣抽取的準(zhǔn)確性,用輔助網(wǎng)絡(luò)得到預(yù)測(cè)結(jié)果。Interest Evolution Layer中利用Attention(局部關(guān)注)配合 GRU(序列學(xué)習(xí))的形式,從時(shí)序特征中構(gòu)建與目標(biāo)物品相關(guān)的興趣演化特征。

DSIN

Deep Session Interest Network for Click-Through Rate Prediction, IJCAI 2019

DSIN通過(guò)將用戶的歷史點(diǎn)擊行為劃分為不同session,然后利用Transformer對(duì)每個(gè)Session進(jìn)行學(xué)習(xí)得到興趣向量后,使用BiLSTM學(xué)習(xí)用戶在多個(gè)Session之間的興趣變化。Session Division Layer完成對(duì)用戶歷史點(diǎn)擊行為的劃分,得到多個(gè)Sessions;Session Interest Extractor Layer使用Bias Encoding的方式表征不同Session間的順序,同時(shí)考慮到用戶興趣可能來(lái)自不同因素,利用多頭注意力機(jī)制對(duì)每個(gè)session 建模得到興趣向量表示;Session Interest Interacting Layer在得到用戶的興趣向量表征之后,利用Bi-LSTM學(xué)習(xí)不同Session之間的由順序帶來(lái)的興趣變化;Session Interest Activating Layer利用注意力機(jī)制學(xué)習(xí)不同Session和Item之間的相關(guān)性,混合上下文信息的興趣信息之后,對(duì)距離較近的Session賦予更大的權(quán)重。

DMR

Deep Match to Rank Model for Personalized Click-Through Rate Prediction, AAAI 2020

現(xiàn)有工作主要集中在用戶表示上,很少關(guān)注用戶和物品之間的相關(guān)性。本文提出了一種深度匹配排名方法(DMR),將協(xié)同過(guò)濾與匹配的思想相結(jié)合,用于CTR預(yù)測(cè)中的排名任務(wù)。模型分為user-to-item網(wǎng)絡(luò)和item-to-item網(wǎng)絡(luò)兩部分。在user-to-item網(wǎng)絡(luò)中,借助協(xié)同過(guò)濾的思想,通過(guò)embedding空間中相應(yīng)表示的內(nèi)積直接計(jì)算用戶與物品之間的相關(guān)性,從用戶行為中提取用戶表示??紤]到最近的行為可以更好地反映用戶的時(shí)間興趣,使用注意力機(jī)制來(lái)自適應(yīng)地了解每種行為在行為序列中的位置的權(quán)重。本文也提出了一個(gè)輔助匹配網(wǎng)絡(luò),幫助更好地訓(xùn)練user-to-item網(wǎng)絡(luò)。輔助匹配網(wǎng)絡(luò)可看作是一種匹配方法,其任務(wù)是根據(jù)用戶的歷史行為來(lái)預(yù)測(cè)下一個(gè)要點(diǎn)擊的項(xiàng)目,DMR需要同時(shí)訓(xùn)練匹配模型和排名模型。在item-to-item網(wǎng)絡(luò),與DIN類似,通過(guò)包含位置信息的注意力機(jī)制,計(jì)算用戶交互物品與目標(biāo)物品之間的物品之間相似度,然后進(jìn)行聚合,以獲得另一種形式的用戶與物品的相關(guān)性表示。

CAN

CAN: Feature Co-Action for Click-Through Rate Prediction, WSDM 2022

CAN主要以一種新的方式重新思考高階特征交互。本文首先提出co-action的概念,指出特征交互對(duì)最終預(yù)測(cè)的影響。如果原始特征的co-action信息建模本身有用,那么笛卡爾積就是建模co-action最直接的方式。最直接的使用二維笛卡爾積的方式來(lái)顯式做co-action建模會(huì)帶讓參數(shù)量急劇上升。為了解決這個(gè)問(wèn)題,本文提出了Co-Action Unit使用模型化的方案建模特征之間的交互。具體來(lái)講:Co-action Unit的輸入包含兩部分——希望建模交互關(guān)系的兩個(gè)特征,一端信息作為輸入,另一端信息作為MLP的參數(shù),用MLP的輸出來(lái)表達(dá)Co-action信息。

對(duì)序列做DIN/DIEN類似的聚合,在co-action的視角下可以看做是對(duì)原始行為序列的embedding做一個(gè)純量的修正,item的表示只有一套。而CAN是用向量來(lái)建模的,并且使用的新的embedding和原始序列的embedding完全獨(dú)立,因此模型自由度和容量更大。

CAN提供了一種新的特征交互思路,在特征工程上手動(dòng)特征交叉和模型上自動(dòng)特征交叉之間做了折衷,也是記憶性和泛化性的互補(bǔ)??梢钥醋魇翘卣鹘换サ囊环N新范式。

責(zé)任編輯:張燕妮 來(lái)源: 知乎
相關(guān)推薦

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2022-09-16 15:25:25

模型效率

2019-04-17 08:55:45

2018-10-18 11:00:50

人工智能機(jī)器學(xué)習(xí)模型偏差

2018-11-01 09:46:02

推薦系統(tǒng)架構(gòu)

2022-07-26 00:00:03

語(yǔ)言模型人工智能

2021-03-17 11:25:06

系統(tǒng)緩存架構(gòu)

2022-03-01 20:41:00

機(jī)器學(xué)習(xí)特征人工智能

2023-10-04 00:02:00

本文將從入門(mén)到精通,冒泡排序

2017-08-07 10:08:29

深度學(xué)習(xí)分類體系信息檢索

2023-12-27 14:03:48

2024-05-11 08:18:49

2023-04-10 11:35:31

評(píng)估模型業(yè)務(wù)流程

2022-07-03 08:25:09

OSITCP/IP

2025-04-07 08:40:00

開(kāi)源Llama 4大模型

2018-10-08 15:22:36

IO模型

2024-09-04 16:19:06

語(yǔ)言模型統(tǒng)計(jì)語(yǔ)言模型

2022-10-28 13:48:24

Notebook數(shù)據(jù)開(kāi)發(fā)機(jī)器學(xué)習(xí)

2023-07-04 08:56:07

指針類型Golang

2017-12-01 12:36:54

LDA模型機(jī)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)