一文總結(jié)特征增強(qiáng)&個性化在CTR預(yù)估中的經(jīng)典方法和效果對比
在CTR預(yù)估中,主流都采用特征embedding+MLP的方式,其中特征非常關(guān)鍵。然而對于相同的特征,在不同的樣本中,表征是相同的,這種方式輸入到下游模型,會限制模型的表達(dá)能力。
為了解決這個問題,CTR預(yù)估領(lǐng)域提出了一系列相關(guān)工作,被稱為特征增強(qiáng)模塊。特征增強(qiáng)模塊根據(jù)不同的樣本,對embedding層的輸出結(jié)果進(jìn)行一次矯正,以適應(yīng)不同樣本的特征表示,提升模型的表達(dá)能力。
最近,復(fù)旦大學(xué)和微軟亞研院聯(lián)合發(fā)布了一篇特征增強(qiáng)工作的總結(jié),對比了不同特征增強(qiáng)模塊實現(xiàn)方法的效果。下面給大家介紹一下幾種特征增強(qiáng)模塊的實現(xiàn)方法,以及本文進(jìn)行的相關(guān)對比實驗。
論文標(biāo)題:A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction
下載地址:https://arxiv.org/pdf/2311.04625v1.pdf
1.特征增強(qiáng)建模思路
特征增強(qiáng)模塊,旨在提升CTR預(yù)估模型中Embedding層的表達(dá)能力,實現(xiàn)相同特征在不同樣本下的表征差異化。特征增強(qiáng)模塊可以用下面這個統(tǒng)一公式表達(dá),輸入原始的Embedding,經(jīng)過一個函數(shù)后,生成這個樣本個性化的Embedding。
這類方法的大致思路為,在得到初始的每個特征的embedding后,使用樣本本身的表征,對特征embedding做一個變換,得到當(dāng)前樣本的個性化embedding。下面給大家介紹一些經(jīng)典的特征增強(qiáng)模塊建模方法。
2.特征增強(qiáng)經(jīng)典方法
An Input-aware Factorization Machine for Sparse Prediction(IJCAI 2019)這篇文章在embedding層之后增加了一個reweight層,將樣本初始embedding輸入到一個MLP中得到一個表征樣本的向量,使用softmax進(jìn)行歸一化。Softmax后的每個元素對應(yīng)一個特征,代表這個特征的重要程度,使用這個softmax結(jié)果和每個對應(yīng)特征的初始embedding相乘,實現(xiàn)樣本粒度的特征embedding加權(quán)。
FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction(RecSys 2019)也是類似的思路,為每個樣本學(xué)習(xí)一個特征的個性化權(quán)重。整個過程分為squeeze、extraction、reweight三個步驟。在squeeze中,將每個特征embedding通過pooling得到一個其對應(yīng)的統(tǒng)計標(biāo)量。在extraction中,將這些標(biāo)量輸入到MLP中,得到每個特征的權(quán)重。最后,使用這個權(quán)重和每個特征embedding向量相乘,得到加權(quán)后的embedding結(jié)果,相當(dāng)于在樣本粒度做一個特征重要性篩選。
A Dual Input-aware Factorization Machine for CTR Prediction(IJCAI 2020)和上一篇文章類似,也是利用self-attention對特征進(jìn)行一層增強(qiáng)。整體分為vector-wise和bit-wise兩個模塊。Vector-wise將每個特征的embedding當(dāng)成序列中的一個元素,輸入到Transformer中得到融合后的特征表示;bit-wise部分使用多層MLP對原始特征進(jìn)行映射。兩部分的輸入結(jié)果相加后,得到每個特征元素的權(quán)重,乘到對應(yīng)的原始特征的每一位上,得到增強(qiáng)后的特征。
GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction(2020)利用每個特征的初始embedding過一個MLP和sigmoid函數(shù)生成其獨(dú)立的特征權(quán)重分,同時也使用MLP對所有特征進(jìn)行映射生成bit-wise的權(quán)重分,兩者融合對輸入特征進(jìn)行加權(quán)。除了特征層外,在MLP的隱層,也利用類似的方法,對每個隱層的輸入進(jìn)行加權(quán)。
Interpretable Click-Through Rate Prediction through Hierarchical Attention(WSDM 2020)也是利用self-attention實現(xiàn)特征的轉(zhuǎn)換,但是增加了高階特征的生成。這里面使用層次self-attention,每一層的self-attention以上一層sefl-attention的輸出作為輸入,每一層增加了一階高階特征組合,實現(xiàn)層次多階特征提取。具體來說,每一層進(jìn)行self-attention后,將生成的新特征矩陣經(jīng)過softmax得到每個特征的權(quán)重,根據(jù)權(quán)重對原始特征加權(quán)新的特征,再和原始特征進(jìn)行一次點積,實現(xiàn)增加一階的特征交叉。
ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2021)也是類似的做法,使用一個MLP將所有特征映射成一個每個特征embedding尺寸的維度,對原始特征做一個縮放,文中針對每個特征使用了個性化的MLP參數(shù)。通過這種方式,利用樣本中的其他特征作為上下位增強(qiáng)每個特征。
Enhancing CTR Prediction with Context-Aware Feature Representation Learning(SIGIR 2022)采用了self-attention進(jìn)行特征增強(qiáng),對于一組輸入特征,每個特征對于其他特征的影響程度是不同的,通過self-attention,對每個特征的embedding進(jìn)行一次self-attention,實現(xiàn)樣本內(nèi)特征間的信息交互。除了特征間的交互,文中也利用MLP進(jìn)行bit級別的信息交互。上述生成的新embedding,會通過一個gate網(wǎng)絡(luò),和原始的embedding進(jìn)行融合,得到最終refine后的特征表示。
3.實驗效果
文中進(jìn)行了各類特征增強(qiáng)方法的效果對比,整體結(jié)論為,在眾多特征增強(qiáng)模塊中,GFRL、FRNet-V、FRNetB 表現(xiàn)的最好,并且效果要優(yōu)于其他的特征增強(qiáng)方法。
