自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擴(kuò)散模型也能推薦短視頻!港大騰訊提出新范式DiffMM

人工智能 新聞
本文介紹了一種新的多模態(tài)推薦模型DiffMM,它通過結(jié)合模態(tài)意識豐富了概率擴(kuò)散范式。

想象一下你在刷短視頻,系統(tǒng)想要推薦你可能會喜歡的內(nèi)容。

但是,如果系統(tǒng)只知道你過去看過什么,而不了解你喜歡視頻的哪些方面(比如是畫面、文字描述還是背景音樂),那么推薦可能就不會那么精準(zhǔn)。

對此,來自港大和騰訊的研究人員推出了全新多模態(tài)推薦系統(tǒng)范式——DiffMM。

圖片

簡單來說,DiffMM創(chuàng)建了一個(gè)包含用戶和視頻信息的圖,這個(gè)圖會考慮視頻的各種元素。

然后它通過一種特殊的方法(圖擴(kuò)散)來增強(qiáng)這個(gè)圖,讓模型更好地理解用戶和視頻之間的關(guān)系。

最后,它使用一種叫做對比學(xué)習(xí)的技術(shù),來確保不同元素(比如視覺和聲音)之間的一致性,這樣推薦系統(tǒng)就能更好地理解用戶的喜好。

為了測試效果,團(tuán)隊(duì)在三個(gè)公共數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果證明DiffMM相比于各種競爭性基線模型均達(dá)到SOTA

圖片

目前相關(guān)論文已公開,代碼也已開源。

模型方法

DiffMM的總體框架圖如下所示,主要包含三個(gè)部分:

  1. 多模態(tài)圖擴(kuò)散模型,通過生成擴(kuò)散模型實(shí)現(xiàn)多模態(tài)信息引導(dǎo)的模態(tài)感知用戶-物品圖生成;
  2. 多模態(tài)圖聚合,通過在生成的模態(tài)感知用戶-物品圖上進(jìn)行圖卷積操作以實(shí)現(xiàn)多模態(tài)信息聚合;
  3. 跨模態(tài)對比增強(qiáng),通過對比學(xué)習(xí)的方式來利用不同模態(tài)下用戶-物品交互模式的一致性,進(jìn)一步增強(qiáng)模型的性能。

圖片

多模態(tài)圖擴(kuò)散

受到擴(kuò)散模型在保留其生成輸出中的基本數(shù)據(jù)模式方面的成功的啟發(fā),DiffMM框架提出了一種新穎的多模態(tài)推薦系統(tǒng)方法。

具體而言,作者引入了一個(gè)多模態(tài)圖擴(kuò)散模塊,用于生成包含模態(tài)信息的用戶-物品交互圖,從而增強(qiáng)對用戶偏好的建模。

該框架專注于解決多模態(tài)推薦系統(tǒng)中無關(guān)或噪聲模態(tài)特征的負(fù)面影響。

為實(shí)現(xiàn)這一目標(biāo),作者使用模態(tài)感知去噪擴(kuò)散概率模型將用戶-物品協(xié)同信號與多模態(tài)信息統(tǒng)一起來。

具體而言,作者逐步破壞原始用戶-物品圖中的交互,并通過概率擴(kuò)散過程進(jìn)行迭代學(xué)習(xí)來恢復(fù)原始交互。

這種迭代去噪訓(xùn)練有效地將模態(tài)信息納入用戶-物品交互圖的生成中,同時(shí)減輕了噪聲模態(tài)特征的負(fù)面影響。

此外,為實(shí)現(xiàn)模態(tài)感知的圖生成,作者提出了一種新穎的模態(tài)感知信號注入機(jī)制,用于指導(dǎo)交互恢復(fù)過程。這個(gè)機(jī)制在有效地將多模態(tài)信息納入用戶-物品交互圖的生成中起到了關(guān)鍵作用。

通過利用擴(kuò)散模型的能力和模態(tài)感知信號注入機(jī)制,DiffMM框架為增強(qiáng)多模態(tài)推薦器提供了一個(gè)強(qiáng)大而有效的解決方案。

圖概率擴(kuò)散范式

在用戶-物品交互上進(jìn)行圖擴(kuò)散包含兩個(gè)關(guān)鍵工程。

第一個(gè)過程稱為前向過程,它通過逐步引入高斯噪聲來破壞原始的用戶-物品圖。這一步驟逐漸破壞了用戶和物品之間的交互,模擬了噪聲模態(tài)特征的負(fù)面影響。

第二個(gè)過程稱為逆向過程,它專注于學(xué)習(xí)和去噪受損的圖連接結(jié)構(gòu)。這個(gè)過程旨在通過逐步改進(jìn)受損的圖來恢復(fù)用戶和物品之間的原始交互。

對于前向圖擴(kuò)散過程,考慮用戶??和物品集合??中每個(gè)物品的交互,定義為 ????=[圖片,圖片,…,圖片],這里圖片等于0或1表示用戶??是否和物品??有發(fā)生交互。首先將擴(kuò)散過程進(jìn)行初始化: ??0= ????,這個(gè)前向過程之后在??步中逐漸添加高斯噪聲,以馬爾可夫鏈的形式構(gòu)建??1:??。

具體而言,從??t-1到??t的過程參數(shù)化為:

圖片

當(dāng)??→∞時(shí),狀態(tài)????逐漸趨向于一個(gè)標(biāo)準(zhǔn)的高斯分布。作者使用重參數(shù)技巧以及獨(dú)立高斯噪聲可相加的性質(zhì),直接從??0得到??t

圖片

對于逆向圖擴(kuò)散過程,DiffMM旨在消除從??t引入的噪聲,逐步恢復(fù)??t-1。這個(gè)過程使得多模態(tài)擴(kuò)散能夠有效地捕捉復(fù)雜的生成過程中的微小變化。從????開始,去噪過程逐步恢復(fù)用戶-物品交互,逆向過程展開如下:

圖片

作者使用參數(shù)為??的神經(jīng)網(wǎng)絡(luò)來生成一個(gè)高斯分布的均值????(??t,t)和協(xié)方差 ????(??t,t)。

模態(tài)感知的圖擴(kuò)散優(yōu)化

擴(kuò)散模型的優(yōu)化目標(biāo)是引導(dǎo)逆向圖擴(kuò)散過程。為了實(shí)現(xiàn)這一目標(biāo),應(yīng)優(yōu)化??0的負(fù)對數(shù)似然的Evidence Lower Bound (ELBO):

圖片

對于??t,有三種情況

圖片

這里,??0是??0的負(fù)重建誤差;????是一個(gè)在優(yōu)化中可以忽略的常量項(xiàng),因?yàn)樗话蓛?yōu)化的參數(shù);????(t?{1,2,…,T-1})旨在通過KL離散度使分布????(??t-1|??t)和可計(jì)算的分布q(??t-1|??t,??0)對齊。

為了實(shí)現(xiàn)圖擴(kuò)散的優(yōu)化,作者設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò),以在反向過程中進(jìn)行去噪處理。根據(jù)貝葉斯法則,q(??t-1|??t,??0)可被表示為如下近似表達(dá):

圖片

更進(jìn)一步,??t可以表示為:

圖片

這里,圖片(??t,t)是基于??t和時(shí)間t預(yù)測的??0,作者使用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)它。具體而言,作者使用一個(gè)多層感知器(MLP)來實(shí)現(xiàn)圖片,該MLP以??t和時(shí)間t的嵌入表示作為輸入來預(yù)測??0。對于??0,可以被表示為:

圖片

在實(shí)際實(shí)現(xiàn)中,作者從 {1,2,…,??} 中均勻采樣來得到時(shí)間步t:

圖片

多模態(tài)圖擴(kuò)散的目標(biāo)是通過模態(tài)感知的用戶-物品圖來增強(qiáng)推薦系統(tǒng)

為此,作者設(shè)計(jì)了一種模態(tài)感知信號注入(MSI)機(jī)制,引導(dǎo)擴(kuò)散模塊生成帶有相應(yīng)模態(tài)的多個(gè)用戶-物品圖。

具體而言,作者將對齊的物品模態(tài)特征與預(yù)測的模態(tài)感知用戶-物品交互概率進(jìn)行聚合

同時(shí),作者還將物品id嵌入????與觀察到的用戶-物品交互??0進(jìn)行聚合。

最后,計(jì)算上述兩個(gè)聚合嵌入之間的均方誤差損失,并與??e??bo一起進(jìn)行優(yōu)化。形式化地,模態(tài)??的均方誤差損失如下所示:

圖片

跨模態(tài)對比增強(qiáng)

在多模態(tài)推薦場景中,不同物品模態(tài)(例如:視覺、文本和音頻)上的用戶交互模式存在一定程度的一致性。

例如,在短視頻的情況下,其視覺和音頻特征可以共同吸引用戶觀看。

因此,用戶的視覺偏好和音頻偏好可能以復(fù)雜的方式交織在一起。為了捕捉和利用這種模態(tài)相關(guān)的一致性來提高推薦系統(tǒng)的性能,作者設(shè)計(jì)了兩種基于不同錨點(diǎn)的模態(tài)感知對比學(xué)習(xí)范式。

一種范式以不同的模態(tài)視圖作為錨點(diǎn),另一種范式則以主視圖(協(xié)同過濾)作為錨點(diǎn)。

模態(tài)感知的對比視圖

為了生成特定模態(tài)的用戶/物品嵌入表示作為對比視圖,作者使用了基于GNN的表示學(xué)習(xí)方法。

具體而言,在圖擴(kuò)散模型生成的模態(tài)感知用戶-物品圖上進(jìn)行消息傳遞。

首先,作者將物品原始模態(tài)信息轉(zhuǎn)化為相同維度的物品模態(tài)特征:

圖片

接下來,對用戶嵌入和物品模態(tài)特征進(jìn)行信息聚合,得到聚合的模態(tài)感知嵌入??m∈?d

圖片

這里,??m∈???×??表示通過圖擴(kuò)散模型生成的模態(tài)感知圖。為了獲得多模態(tài)感知的高階協(xié)同信息,作者進(jìn)一步在原始用戶-物品交互圖??進(jìn)行了迭代的消息傳遞:

圖片

模態(tài)感知的對比增強(qiáng)

通過模態(tài)感知的對比視圖,作者采用了兩種不同的對比方法。

其中一種利用不同的模態(tài)視圖作為錨點(diǎn),而另一種則使用主視圖作為錨點(diǎn)。

前者的思想是基于用戶在不同模態(tài)中的行為模式具有關(guān)聯(lián)性,而后者則希望用戶在不同模態(tài)中的行為模式可以引導(dǎo)及提升主視圖的偏好表達(dá)。這里的主視圖指通過GNN在多個(gè)模態(tài)感知圖上聚合再進(jìn)一步融合得到的用戶與物品表達(dá)。兩種對比方法的對比損失(InfoNCE loss)分別如下所示。

模態(tài)視圖作為錨點(diǎn):

圖片

主視圖作為錨點(diǎn):

圖片

多模態(tài)圖聚合

為了生成最終的用戶(物品)表示以進(jìn)行預(yù)測,作者首先對所有的模態(tài)感知嵌入和相應(yīng)的模態(tài)感知用戶-物品圖進(jìn)行聚合:

圖片

之后通過一個(gè)可學(xué)習(xí)的參數(shù)化向量Km控制各個(gè)模態(tài)的權(quán)重,以求和的方式融合各個(gè)模態(tài)的表示:

圖片

之后在原始的用戶-物品交互圖??上進(jìn)行消息傳遞,以利用高階的協(xié)同信號:

圖片

多任務(wù)模型訓(xùn)練

DiffMM的訓(xùn)練包含兩個(gè)部分:對于推薦任務(wù)的訓(xùn)練和對于多模態(tài)圖擴(kuò)散模型的訓(xùn)練。

對于擴(kuò)散模型的聯(lián)合訓(xùn)練,也包括兩個(gè)部分:ELBO損失和MSI損失。對于模態(tài)??的擴(kuò)散模型去噪網(wǎng)絡(luò)的優(yōu)化損失如下:

圖片

對于推薦任務(wù)的訓(xùn)練,作者引入了經(jīng)典的貝葉斯個(gè)性化排名(BPR)損失和多模態(tài)對比增強(qiáng)損失??c??,BPR損失定義如下:

圖片

推薦任務(wù)的聯(lián)合優(yōu)化目標(biāo)如下:

圖片

實(shí)驗(yàn)結(jié)果

作者在三個(gè)公開數(shù)據(jù)集上對比了多個(gè)類型最新的基線模型,包括傳統(tǒng)的協(xié)同過濾方法,基于GNN的方法,生成擴(kuò)散推薦方法,自監(jiān)督推薦方法以及SOTA的多模態(tài)推薦方法。

通過廣泛而充分的實(shí)驗(yàn),結(jié)果表明提出的DiffMM在總體性能上具有最優(yōu)的性能。

圖片

為了驗(yàn)證所提出方法各個(gè)模塊的有效性,作者進(jìn)行了細(xì)致的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的各個(gè)子組件均有提升推薦效果的功能:

圖片

作者進(jìn)一步探索了DiffMM在數(shù)據(jù)稀疏問題上的表現(xiàn),實(shí)驗(yàn)結(jié)果表明DIffMM中的跨模態(tài)對比學(xué)習(xí)方式可以有效緩解數(shù)據(jù)稀疏的問題,它通過使用圖擴(kuò)散模型生成的模態(tài)感知用戶-物品圖來獲得高質(zhì)量的自監(jiān)督信號。

圖片
對于所提出的DiffMM,作者對一些重要的超參數(shù)進(jìn)行了分析,包括多模態(tài)圖聚合模塊中的超參數(shù)、模態(tài)感知擴(kuò)散模型中的MSI權(quán)重、以及多模態(tài)對比增強(qiáng)范式中的溫度系數(shù)等:

圖片

為了更直觀地評估所提出的模態(tài)感知圖擴(kuò)散模型對推薦系統(tǒng)性能的影響,作者研究了模態(tài)感知用戶-物品圖(由DiffMM生成)和通過邊丟棄進(jìn)行隨機(jī)增強(qiáng)的用戶-物品圖之間的融合比率對于自監(jiān)督增強(qiáng)對比視圖構(gòu)建的影響。

融合比率為0表示僅使用模態(tài)感知的用戶-物品圖來構(gòu)建對比視圖,而融合比率為1則表示僅使用隨機(jī)增強(qiáng)方法。

結(jié)果明確表明,在兩個(gè)數(shù)據(jù)集中,融合比率的增加導(dǎo)致模型性能的下降

圖片

這一發(fā)現(xiàn)表明模態(tài)感知的圖擴(kuò)散模型通過提供模態(tài)感知的對比視圖而不是隨機(jī)增強(qiáng)視圖來增強(qiáng)跨模態(tài)對比學(xué)習(xí)的優(yōu)越性。這個(gè)優(yōu)勢可以歸因于基于圖擴(kuò)散的生成方法對潛在交互模式的有效建模,以及通過精心設(shè)計(jì)的生成機(jī)制將多模態(tài)上下文納入到用戶-物品交互圖的擴(kuò)散過程中。

總結(jié)

本文介紹了一種新的多模態(tài)推薦模型DiffMM,它通過結(jié)合模態(tài)意識豐富了概率擴(kuò)散范式。

該方法利用多模態(tài)圖擴(kuò)散模型重構(gòu)了模態(tài)感知的用戶-項(xiàng)目圖,同時(shí)利用跨模態(tài)數(shù)據(jù)增強(qiáng)模塊的優(yōu)勢提供有價(jià)值的自監(jiān)督信號。

為了評估DiffMM的有效性,作者進(jìn)行了大量的實(shí)驗(yàn),并將其與幾種競爭基線模型進(jìn)行了比較,結(jié)果證明了DiffMM在推薦性能方面的優(yōu)越性。

論文:https://arxiv.org/abs/2406.11781
代碼:https://github.com/HKUDS/DiffMM

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-04 09:35:00

2023-11-17 23:02:38

模型學(xué)習(xí)

2022-02-14 10:16:29

AI模型編碼

2024-05-10 07:58:03

2024-07-15 07:30:00

自動(dòng)駕駛AI

2025-01-20 08:35:00

模型生成AI

2025-02-18 09:27:20

2024-05-27 12:05:23

2023-08-15 08:36:20

ChatGPT模型

2024-09-29 10:40:00

數(shù)據(jù)模型

2021-08-18 11:31:48

低代碼阿里云云原生

2025-01-07 08:40:00

視頻生成AI

2023-06-27 09:53:11

論文AI

2022-08-08 07:03:08

推薦系統(tǒng)架構(gòu)

2023-04-13 15:40:59

模型論文

2025-01-14 10:30:00

3D生成AI

2022-03-04 18:55:37

3D模型開源

2024-04-29 11:06:53

GDR語言模型

2023-12-28 09:49:19

AI工具模型

2025-02-05 09:30:00

圖像模型生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號