自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總

發(fā)布于 2024-12-4 12:03
瀏覽
0收藏

在大廠的推薦系統(tǒng)建模中,多場(chǎng)景建模是一個(gè)非常常見的業(yè)務(wù)場(chǎng)景。在很多app中,不同的場(chǎng)景都需要建模點(diǎn)擊率、轉(zhuǎn)化率等目標(biāo),以此進(jìn)行排序給用戶展現(xiàn)最感興趣或最可能成交的候選。一種最簡(jiǎn)單的建模方法是每個(gè)場(chǎng)景分別訓(xùn)練一套模型,但是這種方式無法充分利用各個(gè)場(chǎng)景數(shù)據(jù)的共性信息,并且維護(hù)起來也非常麻煩。因此,如何有效聯(lián)合多場(chǎng)景數(shù)據(jù)進(jìn)行建模,或者進(jìn)行多場(chǎng)景之間的知識(shí)遷移,是工業(yè)界推薦系統(tǒng)近兩年研究的焦點(diǎn)。

今天這篇文章,給大家匯總了4篇2024年多場(chǎng)景建模的大廠頂會(huì)工作,詳細(xì)梳理阿里、美團(tuán)、騰訊等大廠在頂會(huì)發(fā)表的多場(chǎng)景聯(lián)合建模工作。

1.高效的多場(chǎng)景建模方法—MLoRA

MLoRA是阿里發(fā)表于RecSys 2024的多場(chǎng)景建模工作MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction,核心是提出了一種基于LoRA的多場(chǎng)景建??蚣?,實(shí)現(xiàn)低參數(shù)量、高效率的多場(chǎng)景聯(lián)合建模。下圖對(duì)比例如MLoRA相比其他方法的核心優(yōu)化點(diǎn),主要是在每個(gè)domain的特有tower上,使用了LoRA的分解結(jié)構(gòu),顯著減少了模型參數(shù)量。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

具體實(shí)現(xiàn)細(xì)節(jié)上,由于CTR預(yù)估模型的Dense層參數(shù)每層寬度是不一樣的,因此矩陣分解的維度如果像NLP模型設(shè)置成一樣的會(huì)導(dǎo)致各層信息壓縮比例不匹配的問題,因此文中針對(duì)每一層Dense根據(jù)其寬度設(shè)定個(gè)性化的壓縮比例。在訓(xùn)練過程中,現(xiàn)在基礎(chǔ)數(shù)據(jù)上訓(xùn)練多領(lǐng)域共享的參數(shù),單后再在各個(gè)領(lǐng)域數(shù)據(jù)上finetune LoRA部分,并凍結(jié)住預(yù)訓(xùn)練部分參數(shù)。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

2.冷啟場(chǎng)景優(yōu)化—SwAN

SwAN是美團(tuán)在RecSys 2024發(fā)表的工作Scene-wise Adaptive Network for Dynamic Cold-start Scenes Optimization in CTR Prediction,重點(diǎn)解決頻繁更新的多場(chǎng)景建模業(yè)務(wù)問題。在美團(tuán)的場(chǎng)景中,經(jīng)常會(huì)出現(xiàn)場(chǎng)景的切換,比如春天和冬天的推薦場(chǎng)景就不同,每次更新場(chǎng)景數(shù)據(jù)分布差異都很大,都需要重新訓(xùn)練模型,這個(gè)過程中就面臨著嚴(yán)重的冷啟問題。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

為了解決上述問題,SwAN在數(shù)據(jù)輸入層面和模型結(jié)構(gòu)層面都提出了優(yōu)化。在數(shù)據(jù)輸入層面,核心思路是將冷啟的場(chǎng)景和其他已經(jīng)有數(shù)據(jù)的場(chǎng)景關(guān)聯(lián)起來,一方面采用統(tǒng)計(jì)方法,將和冷啟場(chǎng)景商品基礎(chǔ)信息(如價(jià)格等屬性)最相似的其他場(chǎng)景作為可參考的對(duì)象。另一方面構(gòu)建了Similarity Attention Network,將冷啟場(chǎng)景,上一步找到的其他相似場(chǎng)景的特征,以及user信息輸入到該網(wǎng)絡(luò)中,進(jìn)行更細(xì)粒度的場(chǎng)景間關(guān)系學(xué)習(xí),通過softmax生成一個(gè)冷啟場(chǎng)景到各個(gè)潛在相似場(chǎng)景的關(guān)聯(lián)打分,再加權(quán)融合成冷啟場(chǎng)景的底層表征。在模型結(jié)構(gòu)層面,采用了類似MMoE的結(jié)構(gòu),通過上一步輸出的多場(chǎng)景相似性表征,選擇激活那些expert用于后續(xù)預(yù)測(cè)。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

3.對(duì)比學(xué)習(xí)提升user特征平衡性—UCLR

UCLR是阿里在WWW 2024發(fā)表的一篇工作Not All Embeddings are Created Equal: Towards Robust Cross-domain Recommendation via Contrastive Learning,重點(diǎn)解決多場(chǎng)景下user embedding的學(xué)習(xí)問題。本文提出的核心問題在于,不同場(chǎng)景下,不同用戶的交互次數(shù)差異很大,就導(dǎo)致每個(gè)場(chǎng)景每個(gè)用戶的數(shù)據(jù)分布很不平衡。那些在某個(gè)場(chǎng)景數(shù)據(jù)量較少的用戶,其embedding學(xué)習(xí)不充分,就導(dǎo)致預(yù)測(cè)效果不佳。

為了解決這個(gè)問題,文中首先借助所有場(chǎng)景數(shù)據(jù)預(yù)訓(xùn)練一個(gè)全局的user embedding。接下來,為了讓這個(gè)user表征學(xué)習(xí)更充分,引入了一個(gè)重構(gòu)任務(wù),對(duì)user embedding進(jìn)行30%的mask,替換成全0的向量,并基于autoencoder并進(jìn)行還原,通過這個(gè)過程挖掘用戶之間的協(xié)同信號(hào),利用豐富數(shù)據(jù)user的表征輔助數(shù)據(jù)稀疏user的表征。Encoder的中間編碼結(jié)果相當(dāng)于是一個(gè)embedding的embedding。對(duì)于這個(gè)中間embedding,使用對(duì)比學(xué)習(xí)進(jìn)行表示學(xué)習(xí),并且根據(jù)user的交互數(shù)據(jù)量定義對(duì)比學(xué)習(xí)的溫度系數(shù),讓數(shù)據(jù)量較少的user也能學(xué)習(xí)充分。Decoder生成的embedding用來還原原始embedding。通過上述的對(duì)比學(xué)習(xí)+autoencoder的優(yōu)化方法,實(shí)現(xiàn)對(duì)user表征的進(jìn)一步優(yōu)化。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

4.User相似度對(duì)齊的遷移約束—CUT

CUT是騰訊在SIGIR 2024發(fā)表的工作Aiming at the Target: Filter Collaborative Information for Cross-Domain Recommendation中提出的建模方法。這篇文章的核心優(yōu)化點(diǎn)在于,跨域的遷移不一定都是正向的。比如在一個(gè)domain中,2個(gè)user的興趣相似,可以進(jìn)行信息的協(xié)同過濾,但是在另一個(gè)domain中這兩個(gè)user的興趣可能不同,直接遷移會(huì)帶來跨域負(fù)遷移的問題。

為了解決上述問題,本文提出基于user相似度進(jìn)行跨域遷移的約束。具體來說,先用目標(biāo)域數(shù)據(jù)訓(xùn)練一個(gè)基礎(chǔ)模型,用這個(gè)基礎(chǔ)模型的user embedding計(jì)算兩兩user之間的相似度,并根據(jù)一個(gè)閾值劃定兩個(gè)用戶是否相似(1或者0),形成一個(gè)相似關(guān)系矩陣。這個(gè)矩陣衡量了在目標(biāo)域兩個(gè)用戶之間是否相似。接下來,使用目標(biāo)域和源域同時(shí)訓(xùn)練最終模型,使用一個(gè)MLP網(wǎng)絡(luò)將源域的user表征進(jìn)行一步映射,作為額外信息提供給目標(biāo)域網(wǎng)絡(luò)。這個(gè)MLP表征映射網(wǎng)絡(luò),基于前面的user相似關(guān)系矩陣進(jìn)行約束,要求源域映射后的user embedding,仍然滿足經(jīng)過目標(biāo)域user embedding計(jì)算的user相似度,以此實(shí)現(xiàn)對(duì)負(fù)遷移問題的緩解。

推薦系統(tǒng)多場(chǎng)景預(yù)估建模2024大廠工作匯總-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦