推薦系統(tǒng)何去何從,經典ID范式要被顛覆?
- 鏈接: https://arxiv.org/abs/2303.13835
- 代碼: https://github.com/westlake-repl/IDvs.MoRec
研究背景 [純 ID 推薦系統(tǒng) vs 純模態(tài)推薦系統(tǒng)]
自矩陣分解問世以來,使用 ID embedding 來建模物品的協(xié)同過濾算法已經成為推薦系統(tǒng)最主流的范式,主導了整個推薦系統(tǒng)社區(qū)長達 15 年。經典的雙塔架構、CTR 模型、會話和序列推薦、Graph 網絡無不采用 ID embedding 來對物品進行建模,整個推薦系統(tǒng)現(xiàn)有的 SOTA 體系也幾乎都是采用基于 ID 特征的建模手段。
然而,近年來 NLP、CV 和多模態(tài)預訓練大模型技術蓬勃發(fā)展,取得了一系列革命性成果,預訓練大模型(又稱為基礎模型)對多模態(tài)(文本和圖像)建模能力越來越強,知名的基礎模型包括 BERT,GPT, Vision Transformer,CLIP 等。隨著基礎模型對物品的模態(tài)特征的建模和理解能力的增強,一個自然的問題出現(xiàn)了:使用最先進的模態(tài)編碼器表征物品是否能取代經典的 itemID embedding 范式?論文稱此類模型為 MoRec,MoRec 是否能和經典的純 ID 范式(IDRec)硬剛,超過或者取代 IDRec?
實際上這一問題在 10 年前就被廣泛調查過,然而,當時受制于 NLP 和 CV 技術不足,IDRec 在效率和效果上都可以輕松碾壓 MoRec。但是該結論在十年后的今天是否仍然成立?論文認為需要重新思考這一問題。其中一個重要原因是,論文認為基于 ID 的經典范式是與當近大模型技術嚴重背離的。因為 ID 在不同的推薦業(yè)務無法共享,這一特性導致推薦系統(tǒng)模型難以在不同的業(yè)務進行有效遷移,更無法實現(xiàn) NLP 和 CV 領域的 one model for all(one4all)范式。
值得注意的是,雖然近幾年有不少文獻嘗試將 NLP、CV 預訓練模型引入推薦系統(tǒng)的領域,但這些文獻往往關注于冷啟動和新物品場景,而這種場景下 IDRec 的效果自然是不理想的,這也是普遍接受的。但是對于常規(guī)場景,也就是非冷啟動,甚至是熱 item 場景,IDRec 仍是非常強的基線,在這種場景下 MoRec 與 IDRec 哪個更好仍然是未知的。論文特別指出,現(xiàn)有的很多 MoRec 文獻雖然聲稱取得了 SOTA 結果,但是并沒有顯式地比較 IDRec 與 MoRec。這里作者認為要做到公平比較是指:IDRec 與 MoRec 至少應該采用相同的骨架推薦模型和實驗設置(例如,采樣和損失函數(shù)保持一致)。也就是除了 item 的表示方式,其他部分都應該保持一致或者公平。
論文認為 MoRec 與 IDRec 的公平比較是非常重要的,如果在熱場景下 MoRec 也能打敗 IDRec,那么推薦系統(tǒng)將有望迎來經典范式的變革。這一觀點來自于 MoRec 完全基于物品的模態(tài)信息,此類內容信息天生具有遷移能力,這證明了 MoRec 有潛力實現(xiàn)通用大模型。因此,只要 MoRec 在各種場景下都能打敗 IDRec,或者只需要做到跟 IDRec 具有相當?shù)耐扑]效果,那么 IDRec 就有望被推翻。換言之,one4all 推薦模型一旦實現(xiàn),未來的推薦系統(tǒng)只需要在一個或者幾個通用大模型上進行微調,甚至做零樣本遷移即可。如果實現(xiàn)這一理想,那么推薦系統(tǒng)領域無疑會發(fā)生近 10 年最大的變革,無數(shù)的推薦系統(tǒng)工程師重復性的勞動都有望被釋放。
除此以外,文章還驗證了 2 個重要的問題:(1)對于 MoRec,現(xiàn)有的 NLP 和 CV 領域取得的進展,也就是更強大的(多)模態(tài)編碼器能否能夠直接帶來推薦系統(tǒng)效果的直接提升;如果這個問題得到肯定答案,那么 MoRec 范式無疑是更加有潛力的,隨著更強的 NLP 和 CV 表征模型的產生,MoRec 也將越強;(2)NLP 和 CV 預訓練大模型,如 BERT 和 Vision Transformer,產生的物品表征應該如何使用?工業(yè)界最常用的手段是直接將這些表征當做離線特征來加入推薦或 CTR 模型,這種方法是不是最優(yōu)的;換言之,這種大模型產生的物品表征是否具有一定的通用性,是否必須要在推薦系統(tǒng)數(shù)據集上進行重新適應?最后論文提供 MoRec 發(fā)展的四個挑戰(zhàn),這些問題大多在現(xiàn)有的文獻沒有被明確提出。
論文也指出,想要徹調查清楚這一問題,甚至是顛覆 IDRec,緊靠一篇文章是遠遠不夠的,將需要整個推薦系統(tǒng)社區(qū)一同努力。
實驗設置
網絡架構
該文章為了驗證設想,對推薦系統(tǒng)社區(qū)兩種最具有代表性的推薦架構進行了評估,分別是最經典的雙塔 DSSM 模型(代表 CTR 范式)和 SASRec 模型(代表時序或者會話推薦)。SASRec 采用最為流行的 Transformer 架構。
為了保證公平比較,MoRec 和 IDRec 唯一的不同之處是使用預訓練的模態(tài)編碼器來替代 IDRec 中的 ID embedding 向量。考慮到相同推薦網絡架構下的 MoRec 需要比 IDRec 多出一個參數(shù)量巨大的預訓練模態(tài)編碼器網絡,在調參過程中很難極限地對 MoRec 進行超參數(shù)搜索。為此,本文只對 IDRec 進行較大范圍的網格參數(shù)搜索,定位 IDRec 的最優(yōu)參數(shù)后直接應用到 MoRec,然后在對應的較小調參空間做簡單搜索。這樣的調參方式可以保證 IDRec 達到最優(yōu),但 MoRec 可能沒有達到性能上限??紤]到搜參的困難,作者認為僅僅 MoRec 的調參就可以作為一個非常重要的研究方向,下文 MoRec 面臨的幾個挑戰(zhàn)也再次印證了超參數(shù)對于 MoRec 非常重要。
數(shù)據集
論文使用了 3 個數(shù)據集,用戶規(guī)模在 40-60 萬,商品規(guī)模在 8-12 萬,分別是文本信息主導的新聞推薦數(shù)據集 MIND,商品圖片信息主導的 HM 和視頻推薦數(shù)據集 Bili。這些數(shù)據集均含有商品的原始模態(tài)信息。MIND 和 HM 都是公開數(shù)據集,作者已將實驗所用數(shù)據集公布在 Github(鏈接見上),Bili 數(shù)據集來自于未發(fā)表的論文,可通過郵件獲取,詳情可見 Github。
可以看出,Bili 和 HM 數(shù)據集中的圖片和 CV 領域用于預訓練的數(shù)據集(ImageNet)存在一定差異,在 ImageNet 上預訓練得到的圖片編碼器在推薦系統(tǒng)是否具有足夠的泛化能力仍然是一個未知的問題。對于該問題,論文在后面進行了實驗探究。
實驗探究
問題 1:MoRec 和 IDRec 性能對比,尤其是在常規(guī)場景和熱 item 場景。
論文在常規(guī)推薦、冷啟動推薦、熱門物品推薦三個場景下,對 MoRec 和 IDRec 的效果做了周全的對比,結果如下:
首先在常規(guī)推薦下,無論是 IDRec 還是 MoRec,DSSM 的性能總是大大低于 SASRec。這與之前的很多研究是一致的:使用用戶的交互的 item 序列來代表用戶,往往比把它們作為單獨的用戶 ID 來處理更有效 [1, 2]。同時,MoRec 與 IDRec 的對比在 DSSM 和 SASRec 之間也存在巨大的性能差異,論文發(fā)現(xiàn)在 DSSM 架構下,MoRec 在所有三個數(shù)據集中的表現(xiàn)都比 IDRec 差很多。這種差距會讓人對 MoRec 完全喪失信心,例如在 HM 和 Bili 數(shù)據集上,IDRec 比 MoRec 高出一倍以上。相比之下,在 SASRec 架構下,MoRec 在文本推薦數(shù)據集 MIND 上使用三個文本編碼器中的任何一個都能取得比 IDRec 更好的結果,在圖像數(shù)據集 Bili 和 HM 上也基本做到了可比較的效果,例如,當使用 Swin Transformer (Base) 版本,MoRec 甚至能比 IDRec 略好一些,當使用 ResNet 時候,MoRec 仍然略遜于 IDRec。這種比較結果意味著 MoRec 需要一個強大的推薦骨干(SASRec 優(yōu)于 DSSM)和訓練方法(seq2seq 優(yōu)于 <u,i> pair)才能激發(fā)基于模態(tài)的項目編碼器的優(yōu)勢,而 DSSM 范式似乎很難很好的激發(fā)模態(tài)編碼器的潛力。鑒于 MoRec 在 DSSM 的結果太不理想,論文后續(xù)主要關注 SASRec 的架構。
MoRec 很自然地適用于冷物品推薦,因為它們的模態(tài)編碼器是專門為物品的原始模式特征建模而開發(fā)的,無論它們的流行度如何都可以進行物品表征。MoRec 在所有三個數(shù)據集上對文本和視覺推薦的冷啟動場景都有大幅度超過 IDRec,該現(xiàn)象符合社區(qū)的廣泛認知,因此論文把相應的結果只放在附錄。
在熱門商品推薦方面,打敗 IDRec 無疑是非常困難的,論文展示了相應的結果。通過選擇不同熱度的 item 進行驗證可以發(fā)現(xiàn)在熱門程度一般的 warm-20 數(shù)據集中,MoRec 還可以比 IDRec 略好,而在熱門程度劇烈的 warm-200 中(數(shù)據集所有物品均出現(xiàn) 200 次以上),MoRec 在文本和視覺推薦上效果都略差于 IDRec。這是因為 IDRec 在對流行項目進行建模方面非常有優(yōu)勢 [3, 4, 5]。但即使在這些熱啟動設置中,MoRec 仍然可以與 IDRec 效果相當。
結論 1:對于時序推薦架構 SASRec,在常規(guī)場景(既有熱 item 也有一部分冷 item),MoRec 在文本上明顯優(yōu)于 IDRec,而在圖片上則和 IDRec 效果相當。在冷啟動場景,MoRec 大幅優(yōu)于 IDRec,在熱門商品推薦場景,MoRec 和 IDRec 效果相當。這些積極的特性很吸引人,因為這些特性表明,推薦系統(tǒng)很有可能采用 MoRec 替代 IDRec, 另外,考慮到 MoRec 在遷移學習或跨域推薦中具有天然的優(yōu)勢,一旦推薦系統(tǒng)由 IDRec 轉向 MoRec,那么大型 MoRec 模型很有可能成為一個像 BERT 和 ChatGPT 一樣的基礎推薦模型 [6, 7],從而實現(xiàn) "一個模型適用于所有推薦場景" 的宏偉目標 [6, 8]。
問題 2:NLP、CV 領域的技術進展能否同步推動 MoRec 的發(fā)展?
論文進行了大量實驗,分別從更大參數(shù)量和更優(yōu)的編碼器兩方面調查了 NLP、CV 中預訓練模型的進展是否能同步提高 MoRec 推薦的準確性。
如圖所示,一個較大的視覺項目編碼器一般總是能實現(xiàn)更好的視覺推薦準確率。在文本方面基本結論也基本一致,唯一區(qū)別是基于 BERTbase 的 MoRec 并不優(yōu)于基于 BERT small 的 MoRec,盡管后者參數(shù)量小很多。論文的結論是,一般來說來自 NLP 和 CV 的更大和更強大的模態(tài)編碼器往往會提高推薦的準確性,但這可能并不嚴格適用于所有的情況。
同時,論文探究了更優(yōu)的編碼器網絡。例如,人們認識到 RoBERTa 優(yōu)于 BERT,而 BERT 在大多數(shù) NLP 理解(但不是生成)任務,在相似的模型規(guī)模下,可能優(yōu)于 GPT。Swin Transformer 在許多 CV 任務中常常優(yōu)于 ResNet。此外,這些現(xiàn)代預訓練文本大模型很容易超過大約十年前開發(fā)的著名的輕量級模型 TexTCNN 和 GloVe,如圖所示,在更優(yōu)的模型架構上,MoRec 的性能改變與 NLP 和 CV 的研究結果基本保持一致。
第三,論文研究了有預訓練參數(shù)的模態(tài)編碼器是否比在推薦場景下從頭訓練(即隨機初始化)的模態(tài)編碼器有更高的推薦精度。在較大規(guī)模的數(shù)據集,和較小規(guī)模的圖片數(shù)據集上,經過預訓練的 MoRec 獲得了明顯更好的最終結果,這也與 NLP 和 CV 領域的發(fā)現(xiàn)一致。
結論 2:MoRec 為推薦系統(tǒng)和 NLP、CV 等多模態(tài)社區(qū)建立了聯(lián)系,而且一般來說,可以很好的繼承 NLP 和 CV 領域的最新進展。這意味著一旦未來在相應的研究領域有新的突破,MoRec 有更多的機會和更大的改進空間。
問題 3:對于推薦場景,NLP、CV 的預訓練模型產生的表征有足夠的通用能力嗎?我們應該怎樣使用預訓練模型生成的表征?
NLP 和 CV 預訓練大模型其中一個目標是實現(xiàn)通用的文本或者視覺表征,可以直接在 zero-shot 設置下用于下游任務。然而,這些預訓練編碼器只在一些傳統(tǒng) NLP 和 CV 任務中被評估,如圖像和文本分類。論文認為,在推薦系統(tǒng)場景下預測主觀的用戶偏好比 NLP、CV 本身的下游任務更具挑戰(zhàn)性。
論文探究了兩種訓練 MoRec 的方式:1. Two-stage:預先用模態(tài)編碼器提取離線模態(tài)特征,然后將其加入到推薦模型中。由于實際業(yè)務中推薦系統(tǒng)通常有數(shù)百萬乃至千萬的商品,Two-stage 在工業(yè)界特別受歡迎。2. 采用 End2end 的方式同時優(yōu)化用戶和物品編碼器(上述所有實驗均匯報的是 End2end 的結果),這種方式會將預訓練物品編碼器在推薦數(shù)據集上進行重新適應。
如表所示,與 IDRec 和基于 End2end 的 MoRec 相比,基于 Two-stage 的 MoRec 顯示出糟糕的結果,其效果比前兩者差很多,特別是對于視覺推薦能達到 50% 以上的差距。結果表明,由 NLP 和 CV 的預訓練任務學習的模態(tài)表征對于推薦問題來說仍然不夠通用,與在新數(shù)據上 End2end 重新訓練相比推薦結果差距較大。
結論 3:工業(yè)界流行的 Two-stage 離線特征提取推薦方式會導致 MoRec 性能顯著下降(特別是對于視覺推薦),這在實踐中不應該被忽視。同時,盡管多模態(tài)領域的預訓練模型在近年來取得了革命性的成功,但其表征還沒有做到通用性和泛化性,至少對于推薦系統(tǒng)是這樣。
主要挑戰(zhàn)
推薦系統(tǒng)社區(qū)基于 End2end 的 MoRec 研究比較少,特別是對于視覺推薦。論文提出了幾個關鍵的挑戰(zhàn)和一些社區(qū)可能不知道的發(fā)現(xiàn)。
訓練成本
具有較大模態(tài)編碼器的 MoRec 往往表現(xiàn)更好,然而,訓練的計算量、時間和 GPU 內存消耗也會增加,特別是對于具有很長交互序列的基于 seq2seq 的架構。MoRec(用 SASRec 作為用戶編碼器,Swin-Base 作為商品編碼器)比 IDRec 需要 100 倍以上的計算和訓練時間。這可能是之前沒有論文將 seq2seq 用戶編碼器和 End2end 訓練的模態(tài)編碼器結合起來用于 MoRec 的原因,特別是用于視覺推薦。
額外的預訓練
論文探究了使用下游數(shù)據集對模態(tài)編碼器進行第二輪預訓練的效果,這種技術經常被應用于 NLP 和 CV 領域。二次預訓練將采用和預訓練相同的訓練策略,如 MLM。論文發(fā)現(xiàn)對于文本數(shù)據集來說,二次預訓練對 Two-stage 和 End2end 兩種 MoRec 都有提升。但在視覺數(shù)據集上,則只提升了 HM 數(shù)據集中的 Two-stage,對于 HM 的 End2end 和 Bili 的 MoRec 都沒有提升。論文給出的結論是二次預訓練的有效性取決于個別數(shù)據集。
結合 ID 和模態(tài)特征
鑒于 IDRec 和基于 E2E 的 MoRec 都運作良好,一個自然的想法是在一個模型中結合這兩個特征(即 ID 和模態(tài))。論文采用 2 種融合方法:add 和 concate 對此進行了評估。
令人驚訝的是,論文發(fā)現(xiàn)通過添加 ID 特征,基于 End2end 的 MoRec 表現(xiàn)甚至比純 IDRec 和純 MoRec 更差。這里的結果與一些已發(fā)表的論文有些不一致。原因之一可能是在常規(guī)設置中,基于 End2end 的 MoRec 和 IDRec 都是從用戶 - 項目交互數(shù)據中學習用戶偏好,所以它們不能相互補充;而對于基于 Two-stage 的 MoRec,由于 ID 嵌入比凍結的模態(tài)特征好太多,它們的組合也不能改善結果。第二個原因可能是在結合 ID 和模態(tài)特征時需要更先進的技術。
事實上,從另一個角度看,帶有 ID 特征的 MoRec 將失去 MoRec 的許多優(yōu)勢。例如,使用 ID 特征的 MoRec 不適合建立基礎推薦模型,因為由于隱私和不同平臺間用戶、商品難以重疊的問題,ID 不容易遷移。
模型崩潰
論文發(fā)現(xiàn)在沒有適當?shù)某瑓?shù)(主要是學習率)的情況下訓練 MoRec,很容易導致模型崩潰,有時需要為模態(tài)編碼器和其他模塊設置不同的學習率??赡茉蚴且呀涱A訓練好的編碼器的學習步調需要與其他隨機初始化開始訓練的網絡保持不同。
總結
論文調查了一個富有潛力但未被充分探索的問題,即 MoRec 是否有機會結束 IDRec 在推薦系統(tǒng)領域的主導地位。顯然,這個問題不可能在一篇論文中得到完全的回答,它需要 Recsys 甚至 NLP 和 CV 社區(qū)的更多研究和努力。然而,這里的一個主要發(fā)現(xiàn)是,在 End2end 訓練的 SOTA 模態(tài)編碼器的加持下,現(xiàn)代 MoRec 已經可以在典型的推薦架構(即 Transformer 骨干)下表現(xiàn)得與 IDRec 相當或更好,即便是在非冷啟動和熱 item 推薦的設置中。此外,MoRec 在很大程度上可以從 NLP 和 CV 領域的技術進步中獲益,這意味著它在未來有更大的性能提升空間。
論文期待激發(fā)社區(qū)中更多關于 MoRec 的研究,例如,開發(fā)更強大的推薦架構,更有表現(xiàn)力和通用的模態(tài)編碼器,更好的物品表征和用戶表征的融合策略,以及更有效的優(yōu)化策略以減少計算和時間成本。論文拋出一個設想:從長遠來看,當商品的模態(tài)信息可用時,推薦系統(tǒng)的主流范式可能有機會從 IDRec 轉向 MoRec,從而與 NLP、CV 緊密結合,互相促進發(fā)展。
論文還提到了自身的局限性:(1)只考慮了文本和視覺的推薦場景,而 MoRec 在語音和視頻下的效果仍然是未知的;(2) 只考慮了單模態(tài)場景,多模態(tài)場景的效果是未知的;(3) 論文所用的數(shù)據集屬于中等規(guī)模,擴展到 100 倍或 1000 倍的訓練數(shù)據后(如在真實的工業(yè)系統(tǒng)中)論文關鍵的發(fā)現(xiàn)是否成立,仍是未知的。