解碼智能推薦:多模態(tài)大模型在網(wǎng)易云音樂的創(chuàng)新應(yīng)用
一、背景介紹
1. 背景
大語言模型作為人工智能領(lǐng)域的前沿技術(shù),近年來取得了顯著進展,并且在眾多領(lǐng)域得到了廣泛應(yīng)用。除了主打文本形態(tài)的大語言模型之外,能夠處理文本、圖像、音頻和視頻等多種模態(tài)數(shù)據(jù)的多模態(tài)大模型,正以其強大的內(nèi)容理解與個性化生成等能力引領(lǐng)著行業(yè)變革,也為音樂領(lǐng)域的不斷優(yōu)化創(chuàng)造了更多可能。
在音樂推薦場景中,包含了豐富的多模態(tài)數(shù)據(jù),比如歌詞文本、專輯圖片、音頻,都是天然的應(yīng)用大模型的陣地。目前云音樂推薦的核心場景包括:
- 每日推薦:是列表式推薦,主要的推薦形式是每日更新。
- 私人漫游:是流式推薦,是一種實時更新的推薦形式。
- UGC 歌單:屬于歌單推薦類型,UGC 歌單是基于用戶生產(chǎn),歌單中的內(nèi)容是千人一面的;MGC 歌單是機器生產(chǎn),其內(nèi)容千人千面,不同的用戶會看到不同的結(jié)果。
除了上述場景,還有私人定制、心動模式等其它一些場景。
云音樂推薦場景是云音樂的核心業(yè)務(wù),是促進用戶增長、提升用戶粘性的核心手段。同時,場景眾多,可控占比高,因此對推薦系統(tǒng)提出了更高的要求,也帶來了一些挑戰(zhàn)。
首先是馬太效應(yīng)的問題,1% 的歌曲占據(jù)用戶大部分的播放歌曲 PV 量,存在嚴重的數(shù)據(jù)傾斜。推薦系統(tǒng)是基于用戶行為去進行建模的,因此數(shù)據(jù)傾斜會導(dǎo)致對長尾歌曲分發(fā)的打壓,形成一個不好的推薦生態(tài)。
另外,新內(nèi)容的冷啟動,以及新歌的分發(fā)效率也面臨挑戰(zhàn)。云音樂每天會生產(chǎn)大量的新歌,這些新歌都是沒有用戶播放行為的,對于個性化的分發(fā)系統(tǒng)來說,也同樣天然會去打壓這些新內(nèi)容,因此如何去做好新內(nèi)容的冷啟動,以及如何提升新歌的分發(fā)效率,也是需要解決的問題。
針對上述問題,大模型的興起與發(fā)展提供了比較好的解決方案。首先,音樂中包含了大量的多模態(tài)特征,比如專輯封面圖片、歌曲歌詞,還有歌曲的基礎(chǔ)屬性(如歌曲名、歌手語種、曲風(fēng)、樂器和獎項),還有用戶的一些熱門評論,以及音頻信息,這些信息都可以通過多模態(tài)大模型進行多模態(tài)表征的抽取,并應(yīng)用到推薦系統(tǒng)中去。
基于大模型的多模態(tài)音樂表征能為推薦系統(tǒng)帶來的最大幫助就是提效。
- 首先,可以全方位地生成音樂內(nèi)容表征,來加深推薦系統(tǒng)對音樂的理解能力。
- 第二,可以緩解馬太效應(yīng),提升長尾歌曲的分發(fā)效率,讓更多優(yōu)質(zhì)的長尾歌曲能夠分發(fā)給用戶。
- 第三,緩解新歌的冷啟動,能夠讓新歌能夠及時被分發(fā)出來展示給用戶,以此來改善云音樂的推薦生態(tài)。
2. 難點
在推薦系統(tǒng)中基于大模型進行多模態(tài)表征的抽取,主要面臨以下難點:
- 基于 LLM 的多模態(tài)表征生產(chǎn)方面的難點主要集中在兩部分,一是 prompt 的設(shè)計以及構(gòu)造;二是基于大模型的多模態(tài)表征穩(wěn)定生產(chǎn)鏈路的搭建,實現(xiàn)天級別的多模態(tài)表征的抽取,以及天級別的覆蓋新歌的多模態(tài)表征。
- 大模型知識與推薦領(lǐng)域?qū)R方面,多模態(tài)表征和推薦系統(tǒng)的 ID-base 的表征是存在差異的,所以將多模態(tài)表征與 ID 表征對齊也是非常重要的一項工作。
3. 成果總結(jié)
基于多模態(tài)大模型的多模態(tài)表征抽取已應(yīng)用于推薦系統(tǒng)中的核心推薦場景,包括每日推薦、私人漫游、歌單推薦、長音頻推薦等。目前在各項指標上取得了顯著效果,人均播放時長增長 3%,點擊率增長 3%,歌單分發(fā)數(shù)量增加 50%,新歌分發(fā)效率提升了 3%,長音頻曝光人均播放時長提升了 4%。
二、整體框架設(shè)計
1. 系統(tǒng)框架
系統(tǒng)框架的關(guān)鍵詞為:自底向上,協(xié)同統(tǒng)一。整體分為三層:數(shù)據(jù)層、特征層、應(yīng)用層。
數(shù)據(jù)層又分為兩部分,首先是天級別定時調(diào)度更新歌曲的基礎(chǔ)屬性,比如用戶的評論、專輯封面、歌詞、音頻等一系列信息。然后基于基礎(chǔ)屬性設(shè)計 prompt 的構(gòu)造,包括歌曲文本的 prompt 的構(gòu)造,依賴于歌曲基礎(chǔ)屬性、用戶的評論以及歌詞信息。
特征層:通過模型倉庫中對大模型的選擇來實現(xiàn)多模態(tài)表征的特征抽取,并進一步去做數(shù)據(jù)降維,最后進行 faiss 離線的數(shù)據(jù)校驗,保證數(shù)據(jù)降維之后的 embedding 表征的正確性。
應(yīng)用層:提取并降維后的 embedding 目前主要應(yīng)用在召回側(cè)和統(tǒng)一精排模型中。召回主要側(cè)重于新歌以及長尾歌曲的分發(fā);統(tǒng)一多場景的精排模型能夠及時地覆蓋到全場景,主要設(shè)計的就是多模態(tài)的對齊模塊,目前是已經(jīng)覆蓋到包括音樂推薦、歌單推薦、長音頻推薦等一系列核心業(yè)務(wù)。
2. 基于大模型的多模態(tài)表征抽取
下圖中展示了多模態(tài)表征的生產(chǎn)鏈路,主要通過 Hugging Face 下載大模型,比如 LLaMA、Baichuan 等,然后依賴于底層的數(shù)據(jù)調(diào)度,并行處理多模態(tài) embedding 表征的提取,接著進行離線數(shù)據(jù)降維,再進行數(shù)據(jù)驗證,最后提供給線上使用。
3. 模型架構(gòu)
模型架構(gòu)采用基于 LLM 的開放世界知識空間與推薦領(lǐng)域的端到端的對齊方式。在大模型的知識空間下的表征和私有推薦領(lǐng)域下的表征是存在空間差異的,所以對齊模塊是主要需要去做的工作。
以下結(jié)構(gòu)圖是在歌單中的一個精排模型的多模態(tài)融合的架構(gòu)。第一個是通過語言大模型對于歌單文本的簡單抽取 embedding 的表征;第二個是通過視覺大模型對于圖片的表征抽取,獲取到多模態(tài)表征 embedding 來表征用戶在歌單行為的興趣,然后同時建模到統(tǒng)一歌單精排模型中。
三、技術(shù)方案
接下來介紹一些技術(shù)方案的細節(jié)。
1. Prompt 構(gòu)造
首先是基于大模型的多模態(tài)表征抽取。以一首歌曲為例,歌曲文本的 prompt 構(gòu)造主要包括以下幾部分:
- instruction:歌曲的簡介,包括歌曲的基礎(chǔ)屬性,如曲風(fēng)、語種等一系列信息。
- 用戶的樂評以及樂器,比如小提琴、鋼琴。
- 歌詞信息。
- 歌曲的圖片特征和音頻特征
這些都作為大模型的輸入。
2. 特征抽取
使用多 worker 的方式并行處理數(shù)據(jù),加速推理速度。目前使用 Baichuan 大模型進行文本抽取,使用 Vit-base-patch 進行封面抽取,使用 MERT 進行音頻抽取,應(yīng)用到排序模型以及召回中去做新歌和長尾歌曲的分發(fā)。
3. 離線驗證
接下來介紹一些離線驗證的 case。首先是基于文本的百川語言大模型提取的召回結(jié)果,通過對用傳統(tǒng)的基于行為的協(xié)同過濾的召回結(jié)果和傳統(tǒng)的 NLP 模型關(guān)聯(lián)出來的結(jié)果去做對比,發(fā)現(xiàn)傳統(tǒng)的 NLP 模型更多偏向于字符的匹配和文字的相似度,而大模型召回的結(jié)果則會更多地抓住文字中對情緒的感受。對于情感的理解,在推薦系統(tǒng)中,特別是音樂推薦系統(tǒng)中是非常重要的。
第二個 case 展示了大模型在世界知識上的能力,能夠更好地捕捉到與“節(jié)假日”的相似度,檢索的歌單的效果要好于經(jīng)典的協(xié)同過濾算法以及傳統(tǒng)的 NLP 召回的結(jié)果。LLM 相比傳統(tǒng)的語言模型,能夠運用世界知識和推理,更好地產(chǎn)生廣泛的關(guān)聯(lián)性的構(gòu)建,比如對情緒、詩意、民俗的理解,對于推薦系統(tǒng)的精排模型是非常有價值的。
另一個 case 是針對視覺大模型的召回結(jié)果,基于傳統(tǒng)的協(xié)同過濾召回的結(jié)果,直觀上來看和召回源是非常不相似的,更多是基于用戶行為的召回。而基于視覺模態(tài)特征關(guān)聯(lián)出來的結(jié)果,不管在曲風(fēng)上,還是圖片的相似度上,都做到了更高相似度的召回。
4. 大模型與推薦域空間對齊
多模態(tài)融合精排對齊建模,主要工作如下:
- 融合精排建模:基于多模態(tài)表征的用戶行為序列的興趣建模,多模態(tài)表征是不參與到精排模型的梯度更新的。
- 多模態(tài)表征映射層:引入了多模態(tài)表征映射層來實現(xiàn)多模態(tài)表征與推薦系統(tǒng)的 ID 表征的空間對齊。
- 構(gòu)建輔助網(wǎng)絡(luò):通過構(gòu)建輔助 loss 的方式來實現(xiàn)更好的對齊。
- 對比對齊方式:使用對比學(xué)習(xí)的方式來實現(xiàn)構(gòu)建 user-user、item-item 的對齊方式。
- 二階段建模:解決在預(yù)訓(xùn)練多模態(tài)對齊中模型訓(xùn)練不充分以及多模態(tài)表征融合和篩選的問題。
四、LLM 助力音樂推薦業(yè)務(wù)
接下來介紹一下 LLM 助力云音樂推薦業(yè)務(wù)的進展。
1. 歌曲推薦
云音樂首頁中的封面推薦場景(主要是日推封面和私人漫游封面)對于模塊點擊是非常重要的,引入封面的多模態(tài)數(shù)據(jù)可以有效助力首頁模塊的點擊率提升。
歌曲基礎(chǔ)信息、樂評、樂器、獎項、歌詞、音頻信息可以助力歌曲的多樣性分發(fā)以及新歌分發(fā),進而優(yōu)化整個推薦生態(tài)。
在精排側(cè)基于多模態(tài)大模型的特征增強,可顯著提升個性化服務(wù)水平。
以下簡單介紹一下融合的方式:
- 構(gòu)建多模態(tài)特征行為序列:基于歌曲的基礎(chǔ)屬性、歌詞、評論等數(shù)據(jù)融合成內(nèi)容文本表征,基于歌曲封面抽取圖片表征,再加上音頻表征,綜合這些多模態(tài)表征,從多維度構(gòu)建 user emb。
- 輔助網(wǎng)絡(luò)下的 user/item 的多模態(tài)與 ID 特征對齊:基于多模態(tài)表征的用戶興趣向量,結(jié)合輔助網(wǎng)絡(luò)來實現(xiàn)多模態(tài)表征與用戶行為序列的 ID 表征的特征對齊。包括參數(shù)共享,以及輔助網(wǎng)絡(luò)輸出的中間向量,輸入到推薦的主塔中,以此來進一步加深多模態(tài)信息和精排推薦模型的信息融合。
這些工作已全量更新到核心推薦業(yè)務(wù)中,對人均播放時長、首頁 UCTR 以及新歌分發(fā)效率均有顯著提升。
2. 歌單推薦
另外一塊核心業(yè)務(wù)是歌單推薦??梢苑浅V庇^地看到,推薦歌單的封面和標題文本都是由用戶自主選擇和創(chuàng)作的,蘊含了豐富的個性化信息,是用戶情感和審美的體現(xiàn)。因此在歌單場景下使用多模態(tài)大模型對封面和文本進行提取,可以更好地獲取用戶的情感和審美的特征,從而提升個性化能力和新歌單分發(fā)能力。
歌單推薦系統(tǒng)融合多模態(tài)表征,與歌曲建模其實是異曲同工的,基于統(tǒng)一的歌單的推薦精排大模型,在構(gòu)建好多模態(tài)輔助網(wǎng)絡(luò)后,也快速應(yīng)用到了各類歌單推薦場景,顯著提升了歌單的分發(fā)數(shù)量。
3. 長音頻推薦
長音頻推薦包括寶藏播客、有聲書模塊、音樂播客模塊等,含有豐富的多模態(tài)信息,比如圖片、聲音、長音頻聲音的簡介等等。
通過上述由多模態(tài)大模型實現(xiàn)的多模態(tài)表征抽取應(yīng)用到統(tǒng)一精排長音頻的推薦系統(tǒng)中,使人均播放時長、長音頻的分發(fā)效率和長音頻的分發(fā)數(shù)都得到了顯著的提升。多模態(tài)表征和推薦系統(tǒng)中的 ID 表征的對齊模塊,也是參考了歌曲推薦系統(tǒng)的對齊模塊,實現(xiàn)了復(fù)用。
五、未來展望
最后介紹一下未來將開展的主要工作。
- 空間對齊方式的進一步探索
引入對比學(xué)習(xí)的方式實現(xiàn)對比對齊,構(gòu)建 user-user、item- item 的對齊方式,結(jié)合精排端到端的進一步探索。 - 二階段建模
預(yù)訓(xùn)練多模態(tài)對齊模型解決訓(xùn)練不充分等問題;多模態(tài)數(shù)據(jù)對線上負擔(dān)較大,因此需要提升多模態(tài)表征融合與篩選的能力。 - 更多多模態(tài)大模型的應(yīng)用探索
比如利用 LLAVA,同時輸入多模態(tài)數(shù)據(jù),直接實現(xiàn)表征的融合。
目前,多模態(tài)表征已深入融合到了我們的統(tǒng)一精排模型中,未來將進一步深入挖掘多模態(tài)表征,加強對多模態(tài)音樂內(nèi)容的理解,并融合入推薦系統(tǒng)中,使推薦系統(tǒng)個性化分發(fā)能力得到更大的提升,建設(shè)更好的音樂推薦生態(tài)。