擴(kuò)散模型也能推薦短視頻!港大騰訊提出新范式DiffMM
想象一下你在刷短視頻,系統(tǒng)想要推薦你可能會喜歡的內(nèi)容。
但是,如果系統(tǒng)只知道你過去看過什么,而不了解你喜歡視頻的哪些方面(比如是畫面、文字描述還是背景音樂),那么推薦可能就不會那么精準(zhǔn)。
對此,來自港大和騰訊的研究人員推出了全新多模態(tài)推薦系統(tǒng)范式——DiffMM。
簡單來說,DiffMM創(chuàng)建了一個(gè)包含用戶和視頻信息的圖,這個(gè)圖會考慮視頻的各種元素。
然后它通過一種特殊的方法(圖擴(kuò)散)來增強(qiáng)這個(gè)圖,讓模型更好地理解用戶和視頻之間的關(guān)系。
最后,它使用一種叫做對比學(xué)習(xí)的技術(shù),來確保不同元素(比如視覺和聲音)之間的一致性,這樣推薦系統(tǒng)就能更好地理解用戶的喜好。
為了測試效果,團(tuán)隊(duì)在三個(gè)公共數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果證明DiffMM相比于各種競爭性基線模型均達(dá)到SOTA。
目前相關(guān)論文已公開,代碼也已開源。
模型方法
DiffMM的總體框架圖如下所示,主要包含三個(gè)部分:
- 多模態(tài)圖擴(kuò)散模型,通過生成擴(kuò)散模型實(shí)現(xiàn)多模態(tài)信息引導(dǎo)的模態(tài)感知用戶-物品圖生成;
- 多模態(tài)圖聚合,通過在生成的模態(tài)感知用戶-物品圖上進(jìn)行圖卷積操作以實(shí)現(xiàn)多模態(tài)信息聚合;
- 跨模態(tài)對比增強(qiáng),通過對比學(xué)習(xí)的方式來利用不同模態(tài)下用戶-物品交互模式的一致性,進(jìn)一步增強(qiáng)模型的性能。
多模態(tài)圖擴(kuò)散
受到擴(kuò)散模型在保留其生成輸出中的基本數(shù)據(jù)模式方面的成功的啟發(fā),DiffMM框架提出了一種新穎的多模態(tài)推薦系統(tǒng)方法。
具體而言,作者引入了一個(gè)多模態(tài)圖擴(kuò)散模塊,用于生成包含模態(tài)信息的用戶-物品交互圖,從而增強(qiáng)對用戶偏好的建模。
該框架專注于解決多模態(tài)推薦系統(tǒng)中無關(guān)或噪聲模態(tài)特征的負(fù)面影響。
為實(shí)現(xiàn)這一目標(biāo),作者使用模態(tài)感知去噪擴(kuò)散概率模型將用戶-物品協(xié)同信號與多模態(tài)信息統(tǒng)一起來。
具體而言,作者逐步破壞原始用戶-物品圖中的交互,并通過概率擴(kuò)散過程進(jìn)行迭代學(xué)習(xí)來恢復(fù)原始交互。
這種迭代去噪訓(xùn)練有效地將模態(tài)信息納入用戶-物品交互圖的生成中,同時(shí)減輕了噪聲模態(tài)特征的負(fù)面影響。
此外,為實(shí)現(xiàn)模態(tài)感知的圖生成,作者提出了一種新穎的模態(tài)感知信號注入機(jī)制,用于指導(dǎo)交互恢復(fù)過程。這個(gè)機(jī)制在有效地將多模態(tài)信息納入用戶-物品交互圖的生成中起到了關(guān)鍵作用。
通過利用擴(kuò)散模型的能力和模態(tài)感知信號注入機(jī)制,DiffMM框架為增強(qiáng)多模態(tài)推薦器提供了一個(gè)強(qiáng)大而有效的解決方案。
圖概率擴(kuò)散范式
在用戶-物品交互上進(jìn)行圖擴(kuò)散包含兩個(gè)關(guān)鍵工程。
第一個(gè)過程稱為前向過程,它通過逐步引入高斯噪聲來破壞原始的用戶-物品圖。這一步驟逐漸破壞了用戶和物品之間的交互,模擬了噪聲模態(tài)特征的負(fù)面影響。
第二個(gè)過程稱為逆向過程,它專注于學(xué)習(xí)和去噪受損的圖連接結(jié)構(gòu)。這個(gè)過程旨在通過逐步改進(jìn)受損的圖來恢復(fù)用戶和物品之間的原始交互。
對于前向圖擴(kuò)散過程,考慮用戶??和物品集合??中每個(gè)物品的交互,定義為 ????=[,
,…,
],這里
等于0或1表示用戶??是否和物品??有發(fā)生交互。首先將擴(kuò)散過程進(jìn)行初始化: ??0= ????,這個(gè)前向過程之后在??步中逐漸添加高斯噪聲,以馬爾可夫鏈的形式構(gòu)建??1:??。
具體而言,從??t-1到??t的過程參數(shù)化為:
當(dāng)??→∞時(shí),狀態(tài)????逐漸趨向于一個(gè)標(biāo)準(zhǔn)的高斯分布。作者使用重參數(shù)技巧以及獨(dú)立高斯噪聲可相加的性質(zhì),直接從??0得到??t:
對于逆向圖擴(kuò)散過程,DiffMM旨在消除從??t引入的噪聲,逐步恢復(fù)??t-1。這個(gè)過程使得多模態(tài)擴(kuò)散能夠有效地捕捉復(fù)雜的生成過程中的微小變化。從????開始,去噪過程逐步恢復(fù)用戶-物品交互,逆向過程展開如下:
作者使用參數(shù)為??的神經(jīng)網(wǎng)絡(luò)來生成一個(gè)高斯分布的均值????(??t,t)和協(xié)方差 ????(??t,t)。
模態(tài)感知的圖擴(kuò)散優(yōu)化
擴(kuò)散模型的優(yōu)化目標(biāo)是引導(dǎo)逆向圖擴(kuò)散過程。為了實(shí)現(xiàn)這一目標(biāo),應(yīng)優(yōu)化??0的負(fù)對數(shù)似然的Evidence Lower Bound (ELBO):
對于??t,有三種情況:
這里,??0是??0的負(fù)重建誤差;????是一個(gè)在優(yōu)化中可以忽略的常量項(xiàng),因?yàn)樗话蓛?yōu)化的參數(shù);????(t?{1,2,…,T-1})旨在通過KL離散度使分布????(??t-1|??t)和可計(jì)算的分布q(??t-1|??t,??0)對齊。
為了實(shí)現(xiàn)圖擴(kuò)散的優(yōu)化,作者設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò),以在反向過程中進(jìn)行去噪處理。根據(jù)貝葉斯法則,q(??t-1|??t,??0)可被表示為如下近似表達(dá):
更進(jìn)一步,??t可以表示為:
這里,(??t,t)是基于??t和時(shí)間t預(yù)測的??0,作者使用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)它。具體而言,作者使用一個(gè)多層感知器(MLP)來實(shí)現(xiàn)
,該MLP以??t和時(shí)間t的嵌入表示作為輸入來預(yù)測??0。對于??0,可以被表示為:
在實(shí)際實(shí)現(xiàn)中,作者從 {1,2,…,??} 中均勻采樣來得到時(shí)間步t:
多模態(tài)圖擴(kuò)散的目標(biāo)是通過模態(tài)感知的用戶-物品圖來增強(qiáng)推薦系統(tǒng)。
為此,作者設(shè)計(jì)了一種模態(tài)感知信號注入(MSI)機(jī)制,引導(dǎo)擴(kuò)散模塊生成帶有相應(yīng)模態(tài)的多個(gè)用戶-物品圖。
具體而言,作者將對齊的物品模態(tài)特征與預(yù)測的模態(tài)感知用戶-物品交互概率進(jìn)行聚合。
同時(shí),作者還將物品id嵌入????與觀察到的用戶-物品交互??0進(jìn)行聚合。
最后,計(jì)算上述兩個(gè)聚合嵌入之間的均方誤差損失,并與??e??bo一起進(jìn)行優(yōu)化。形式化地,模態(tài)??的均方誤差損失如下所示:
跨模態(tài)對比增強(qiáng)
在多模態(tài)推薦場景中,不同物品模態(tài)(例如:視覺、文本和音頻)上的用戶交互模式存在一定程度的一致性。
例如,在短視頻的情況下,其視覺和音頻特征可以共同吸引用戶觀看。
因此,用戶的視覺偏好和音頻偏好可能以復(fù)雜的方式交織在一起。為了捕捉和利用這種模態(tài)相關(guān)的一致性來提高推薦系統(tǒng)的性能,作者設(shè)計(jì)了兩種基于不同錨點(diǎn)的模態(tài)感知對比學(xué)習(xí)范式。
一種范式以不同的模態(tài)視圖作為錨點(diǎn),另一種范式則以主視圖(協(xié)同過濾)作為錨點(diǎn)。
模態(tài)感知的對比視圖
為了生成特定模態(tài)的用戶/物品嵌入表示作為對比視圖,作者使用了基于GNN的表示學(xué)習(xí)方法。
具體而言,在圖擴(kuò)散模型生成的模態(tài)感知用戶-物品圖上進(jìn)行消息傳遞。
首先,作者將物品原始模態(tài)信息轉(zhuǎn)化為相同維度的物品模態(tài)特征:
接下來,對用戶嵌入和物品模態(tài)特征進(jìn)行信息聚合,得到聚合的模態(tài)感知嵌入??m∈?d:
這里,??m∈???×??表示通過圖擴(kuò)散模型生成的模態(tài)感知圖。為了獲得多模態(tài)感知的高階協(xié)同信息,作者進(jìn)一步在原始用戶-物品交互圖??進(jìn)行了迭代的消息傳遞:
模態(tài)感知的對比增強(qiáng)
通過模態(tài)感知的對比視圖,作者采用了兩種不同的對比方法。
其中一種利用不同的模態(tài)視圖作為錨點(diǎn),而另一種則使用主視圖作為錨點(diǎn)。
前者的思想是基于用戶在不同模態(tài)中的行為模式具有關(guān)聯(lián)性,而后者則希望用戶在不同模態(tài)中的行為模式可以引導(dǎo)及提升主視圖的偏好表達(dá)。這里的主視圖指通過GNN在多個(gè)模態(tài)感知圖上聚合再進(jìn)一步融合得到的用戶與物品表達(dá)。兩種對比方法的對比損失(InfoNCE loss)分別如下所示。
模態(tài)視圖作為錨點(diǎn):
主視圖作為錨點(diǎn):
多模態(tài)圖聚合
為了生成最終的用戶(物品)表示以進(jìn)行預(yù)測,作者首先對所有的模態(tài)感知嵌入和相應(yīng)的模態(tài)感知用戶-物品圖進(jìn)行聚合:
之后通過一個(gè)可學(xué)習(xí)的參數(shù)化向量Km控制各個(gè)模態(tài)的權(quán)重,以求和的方式融合各個(gè)模態(tài)的表示:
之后在原始的用戶-物品交互圖??上進(jìn)行消息傳遞,以利用高階的協(xié)同信號:
多任務(wù)模型訓(xùn)練
DiffMM的訓(xùn)練包含兩個(gè)部分:對于推薦任務(wù)的訓(xùn)練和對于多模態(tài)圖擴(kuò)散模型的訓(xùn)練。
對于擴(kuò)散模型的聯(lián)合訓(xùn)練,也包括兩個(gè)部分:ELBO損失和MSI損失。對于模態(tài)??的擴(kuò)散模型去噪網(wǎng)絡(luò)的優(yōu)化損失如下:
對于推薦任務(wù)的訓(xùn)練,作者引入了經(jīng)典的貝葉斯個(gè)性化排名(BPR)損失和多模態(tài)對比增強(qiáng)損失??c??,BPR損失定義如下:
推薦任務(wù)的聯(lián)合優(yōu)化目標(biāo)如下:
實(shí)驗(yàn)結(jié)果
作者在三個(gè)公開數(shù)據(jù)集上對比了多個(gè)類型最新的基線模型,包括傳統(tǒng)的協(xié)同過濾方法,基于GNN的方法,生成擴(kuò)散推薦方法,自監(jiān)督推薦方法以及SOTA的多模態(tài)推薦方法。
通過廣泛而充分的實(shí)驗(yàn),結(jié)果表明提出的DiffMM在總體性能上具有最優(yōu)的性能。
為了驗(yàn)證所提出方法各個(gè)模塊的有效性,作者進(jìn)行了細(xì)致的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的各個(gè)子組件均有提升推薦效果的功能:
作者進(jìn)一步探索了DiffMM在數(shù)據(jù)稀疏問題上的表現(xiàn),實(shí)驗(yàn)結(jié)果表明DIffMM中的跨模態(tài)對比學(xué)習(xí)方式可以有效緩解數(shù)據(jù)稀疏的問題,它通過使用圖擴(kuò)散模型生成的模態(tài)感知用戶-物品圖來獲得高質(zhì)量的自監(jiān)督信號。
對于所提出的DiffMM,作者對一些重要的超參數(shù)進(jìn)行了分析,包括多模態(tài)圖聚合模塊中的超參數(shù)、模態(tài)感知擴(kuò)散模型中的MSI權(quán)重、以及多模態(tài)對比增強(qiáng)范式中的溫度系數(shù)等:
為了更直觀地評估所提出的模態(tài)感知圖擴(kuò)散模型對推薦系統(tǒng)性能的影響,作者研究了模態(tài)感知用戶-物品圖(由DiffMM生成)和通過邊丟棄進(jìn)行隨機(jī)增強(qiáng)的用戶-物品圖之間的融合比率對于自監(jiān)督增強(qiáng)對比視圖構(gòu)建的影響。
融合比率為0表示僅使用模態(tài)感知的用戶-物品圖來構(gòu)建對比視圖,而融合比率為1則表示僅使用隨機(jī)增強(qiáng)方法。
結(jié)果明確表明,在兩個(gè)數(shù)據(jù)集中,融合比率的增加導(dǎo)致模型性能的下降。
這一發(fā)現(xiàn)表明模態(tài)感知的圖擴(kuò)散模型通過提供模態(tài)感知的對比視圖而不是隨機(jī)增強(qiáng)視圖來增強(qiáng)跨模態(tài)對比學(xué)習(xí)的優(yōu)越性。這個(gè)優(yōu)勢可以歸因于基于圖擴(kuò)散的生成方法對潛在交互模式的有效建模,以及通過精心設(shè)計(jì)的生成機(jī)制將多模態(tài)上下文納入到用戶-物品交互圖的擴(kuò)散過程中。
總結(jié)
本文介紹了一種新的多模態(tài)推薦模型DiffMM,它通過結(jié)合模態(tài)意識豐富了概率擴(kuò)散范式。
該方法利用多模態(tài)圖擴(kuò)散模型重構(gòu)了模態(tài)感知的用戶-項(xiàng)目圖,同時(shí)利用跨模態(tài)數(shù)據(jù)增強(qiáng)模塊的優(yōu)勢提供有價(jià)值的自監(jiān)督信號。
為了評估DiffMM的有效性,作者進(jìn)行了大量的實(shí)驗(yàn),并將其與幾種競爭基線模型進(jìn)行了比較,結(jié)果證明了DiffMM在推薦性能方面的優(yōu)越性。
論文:https://arxiv.org/abs/2406.11781
代碼:https://github.com/HKUDS/DiffMM