自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題

發(fā)布于 2024-7-30 00:56
瀏覽
0收藏

今天這篇文章給大家介紹一下推薦系統(tǒng)中預(yù)估模型的one-epoch問(wèn)題,以及相應(yīng)的解法。主要來(lái)源于兩項(xiàng)工作,一個(gè)是由阿里發(fā)表的論文Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models(2022)中提出的one-epoch問(wèn)題這一現(xiàn)象,另一是由快手發(fā)表的論文Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction(2024)中提出的one-epoch問(wèn)題的解法。

1.One-epoch現(xiàn)象

工業(yè)界的CTR預(yù)估模型存在一種one-epoch現(xiàn)象,即模型只能訓(xùn)練一輪,超過(guò)一輪就會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致預(yù)測(cè)效果大幅下降。在Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models(2022)中第一次將這個(gè)現(xiàn)象整理成論文發(fā)表出來(lái),引起了工業(yè)界推薦系統(tǒng)領(lǐng)域的關(guān)注。

下圖是該文進(jìn)行的實(shí)驗(yàn),通過(guò)觀察模型訓(xùn)練過(guò)程測(cè)試集上的auc可以發(fā)現(xiàn),模型在第一輪訓(xùn)練結(jié)束達(dá)到最優(yōu)效果,第二輪開(kāi)始效果馬上劇烈下跌。文中在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),都是相類(lèi)似的現(xiàn)象。

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

文中為了驗(yàn)證one-epoch現(xiàn)象產(chǎn)生的原因,從模型參數(shù)量、激活函數(shù)類(lèi)型、優(yōu)化算法等多個(gè)維度進(jìn)行對(duì)比實(shí)驗(yàn)分析。最終,驗(yàn)證了one-epoch現(xiàn)象出現(xiàn)的原因主要是特征稀疏性導(dǎo)致的。特征稀疏性指的是,某個(gè)特征的id數(shù)量很多,導(dǎo)致每個(gè)id對(duì)應(yīng)的數(shù)據(jù)量比較少。文中通過(guò)減小特征稀疏性來(lái)做對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)特征稀疏性是導(dǎo)致one-epoch現(xiàn)象的重要原因。通過(guò)對(duì)稀疏id替換成默認(rèn)值、減小hash表(導(dǎo)致一些id映射到同一個(gè)embedding)等方式,減小數(shù)據(jù)集的特征稀疏問(wèn)題,對(duì)比訓(xùn)練過(guò)程中的測(cè)試集auc。如下圖,當(dāng)數(shù)據(jù)中特征稀疏性問(wèn)題減小時(shí),one-epoch現(xiàn)象逐漸消失了。

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

2.One-epoch解決方法

快手近期發(fā)表的文章Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction(2024)中,提出了一種解決one-epoch問(wèn)題的方法,核心是削弱Embedding和數(shù)據(jù)之間信息的相關(guān)性。

本文承接上一篇文章的分析,認(rèn)為ID Embedding在推薦系統(tǒng)中的稀疏性是導(dǎo)致one-epoch現(xiàn)象的原因。推薦系統(tǒng)中的ID都很稀疏,比如user id,量級(jí)很大,但是每個(gè)id只有少量數(shù)據(jù),這樣相同的數(shù)據(jù)重復(fù)更新,很容易導(dǎo)致過(guò)擬合問(wèn)題。

為了突破該問(wèn)題,本文提出一個(gè)假設(shè):這種ID特征稀疏性造成過(guò)擬合更進(jìn)一步的原因,是Embedding經(jīng)過(guò)一輪的訓(xùn)練,其參數(shù)包含的信息和數(shù)據(jù)集太接近了。如果能讓Embedding表征和數(shù)據(jù)集分布差異拉大,就能緩解這個(gè)問(wèn)題。因此,文中提出了一種簡(jiǎn)單的策略:每輪訓(xùn)練時(shí),都將Embedding隨機(jī)初始化一次。詳細(xì)的算法如下表:

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

這個(gè)做法中,一個(gè)疑問(wèn)是Embedding每輪都隨機(jī)初始化,那MLP網(wǎng)絡(luò)不是白訓(xùn)練了嗎?文中通過(guò)實(shí)驗(yàn)驗(yàn)證表明,MLP參數(shù)是可以很快適應(yīng)新的Embedding參數(shù)的,即使每輪訓(xùn)練時(shí)Embedding變化很大,也不會(huì)影響MLP的能力。這里將Embedding和MLP的關(guān)系,理解為Embedding是輸入數(shù)據(jù),MLP網(wǎng)絡(luò)是模型,每次重新隨機(jī)初始化Embedding再訓(xùn)練,相當(dāng)于是在做數(shù)據(jù)增強(qiáng),進(jìn)而提升MLP網(wǎng)絡(luò)的泛化性。

上述方法適用于非連續(xù)訓(xùn)練的情況,即單個(gè)數(shù)據(jù)集訓(xùn)練多輪。文中也對(duì)多個(gè)數(shù)據(jù)集連續(xù)訓(xùn)練的場(chǎng)景,設(shè)計(jì)了類(lèi)似的Embedding初始化策略,其核心都是用某種方式削弱Embedding參數(shù)和當(dāng)前數(shù)據(jù)集的相關(guān)性。

3.實(shí)驗(yàn)效果

對(duì)比一般的多輪訓(xùn)練,和本文提出的隨機(jī)初始化Embedding訓(xùn)練方法,可以看出,多輪訓(xùn)練的test auc在第二輪很快過(guò)擬合,而引入本文的訓(xùn)練方式,隨著訓(xùn)練輪數(shù)的增加,test auc會(huì)逐漸提升,驗(yàn)證了本文提出方法的有效性。

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

從train和test的auc和loss來(lái)看,一般的多輪訓(xùn)練在train auc和loss上會(huì)有效果提升,表明了過(guò)擬合問(wèn)題,而引入本文方法后過(guò)擬合現(xiàn)象明顯緩解。

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

簡(jiǎn)單策略解決CTR模型訓(xùn)練一輪過(guò)擬合問(wèn)題-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦