自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【LLM】大語言模型在用戶興趣探索中的應(yīng)用

發(fā)布于 2024-6-5 09:42
瀏覽
0收藏

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

一、結(jié)論寫在前面

傳統(tǒng)的推薦系統(tǒng)通過學(xué)習(xí)和強(qiáng)化過去的用戶-物品交互形成強(qiáng)烈的反饋循環(huán),這反過來限制了新用戶興趣的發(fā)現(xiàn)。

為了解決這一問題,論文引入了一種結(jié)合大型語言模型(LLMs)和經(jīng)典推薦模型的混合層次框架,用于用戶興趣探索。該框架通過“興趣集群”控制LLMs和經(jīng)典推薦模型之間的接口,集群的粒度可以由算法設(shè)計(jì)者明確確定。該方法結(jié)合了LLMs在推理和泛化方面的優(yōu)勢(shì),以及經(jīng)典推薦模型的基礎(chǔ)。它首先使用語言表示“興趣集群”,并利用經(jīng)過微調(diào)的LLM生成嚴(yán)格屬于這些預(yù)定義集群的新興趣描述。在低層次上,它通過限制經(jīng)典推薦模型(在這種情況下是一個(gè)基于Transformer的序列推薦器)返回屬于高層次生成的新集群的物品,將這些生成的興趣具體化為物品級(jí)別的策略。    

論文在一個(gè)服務(wù)于數(shù)十億用戶的工業(yè)級(jí)商業(yè)平臺(tái)上展示了這種方法的有效性。實(shí)時(shí)實(shí)驗(yàn)表明,新興趣的探索和用戶對(duì)平臺(tái)的整體享受度都有顯著提升。未來的工作將重點(diǎn)關(guān)注考慮長期效應(yīng),以進(jìn)一步改進(jìn)使用LLMs進(jìn)行推薦系統(tǒng)的分層規(guī)劃。


二、論文的簡單介紹

2.1 論文的背景


推薦系統(tǒng)在幫助用戶導(dǎo)航如今網(wǎng)絡(luò)上龐大且不斷增長的內(nèi)容方面不可或缺。然而,這些系統(tǒng)往往受到強(qiáng)烈的反饋循環(huán)的影響,推薦與用戶過去行為相似的物品。經(jīng)典推薦系統(tǒng)根據(jù)用戶的歷史交互推斷其下一個(gè)興趣。雖然這對(duì)短期參與可能有效,但它限制了用戶發(fā)現(xiàn)新興趣,導(dǎo)致內(nèi)容疲勞。最近的研究強(qiáng)調(diào)了用戶興趣探索的重要性,旨在引入超出用戶歷史偏好的多樣化內(nèi)容。然而,由于興趣空間的廣闊和用戶對(duì)先前未見興趣的親和力的高度不確定性,有效地向用戶引入新興趣是具有挑戰(zhàn)性的。


近期在大語言模型(LLMs)和其他基礎(chǔ)模型方面的突破為革新推薦系統(tǒng)提供了機(jī)遇。這些模型中預(yù)訓(xùn)練的世界知識(shí)有可能通過引入多樣化和偶然的推薦來打破推薦反饋循環(huán),解決用戶興趣探索的挑戰(zhàn)。盡管先前的工作已經(jīng)展示了通過將推薦問題轉(zhuǎn)化為自然語言處理任務(wù)來使用LLMs進(jìn)行推薦的潛力,但在現(xiàn)實(shí)世界的工業(yè)推薦系統(tǒng)中部署這些方法仍然極其挑戰(zhàn),原因如下:

(1) 與領(lǐng)域特定的推薦模型不同,LLMs缺乏對(duì)工業(yè)規(guī)模在線平臺(tái)上大規(guī)模且快速演變的物品庫(例如,YouTube每分鐘上傳超過500小時(shí)的內(nèi)容,Spotify每秒上傳一首新曲目[18])的深入了解;

(2) 現(xiàn)成的LLMs不了解用戶的協(xié)作信號(hào),無法捕捉領(lǐng)域特定的用戶行為;    

(3) 為每個(gè)用戶請(qǐng)求服務(wù)的LLMs的延遲和成本巨大,無法滿足工業(yè)推薦平臺(tái)預(yù)期的O(100ms)響應(yīng)時(shí)間和生產(chǎn)查詢每秒(QPS)要求。

為了克服上述挑戰(zhàn),論文引入了一種結(jié)合LLMs和經(jīng)典推薦模型的混合層次規(guī)劃范式(如圖1所示),用于大規(guī)模推薦系統(tǒng)中的用戶興趣探索。             

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

              圖1:基于LLM的混合層次規(guī)劃圖,用于用戶興趣探索

為了表示動(dòng)態(tài)用戶興趣并將昂貴的LLM推理轉(zhuǎn)移到離線階段,使其可行地在線提供LLM生成的新的興趣轉(zhuǎn)換。

2.2 論文的方法

這里論文將介紹混合層次規(guī)劃范式以及為實(shí)現(xiàn)受控生成和用戶行為對(duì)齊而設(shè)計(jì)的LLM微調(diào)過程,以將LLMs應(yīng)用于現(xiàn)實(shí)世界的大規(guī)模推薦系統(tǒng)中。             

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

              圖2:當(dāng)K=2時(shí)的新興趣預(yù)測(cè)提示    

2.2.1 預(yù)備知識(shí)

在線平臺(tái)上物品數(shù)量龐大且新物品不斷涌入,使得在個(gè)體物品層面進(jìn)行LLM規(guī)劃變得不可行。因此,論文利用LLM在物品興趣層面的規(guī)劃能力來縮小規(guī)劃空間。高效層次規(guī)劃的前提是一組高質(zhì)量的物品興趣集群,其中每個(gè)集群內(nèi)的物品在主題上是一致的。遵循與[6]相同的程序,論文根據(jù)物品的主題一致性將其分組為N個(gè)流量加權(quán)的等尺寸集群,這種方法已被證明能很好地?cái)U(kuò)展到論文問題的規(guī)模。

為了創(chuàng)建這些集群,論文首先根據(jù)物品的元數(shù)據(jù)(標(biāo)題、標(biāo)簽等)和內(nèi)容(幀和音頻)將其表示為256維嵌入。然后,論文根據(jù)相似性在圖中連接物品并將其聚類為流量平衡的集群。這個(gè)聚類過程重復(fù)多次以創(chuàng)建一個(gè)4級(jí)樹結(jié)構(gòu),每個(gè)物品與不同的樹級(jí)相關(guān)聯(lián)。更高級(jí)別的集群代表更廣泛的主題,而更低級(jí)別的集群代表更具體的主題。

2.2.2 混合層次規(guī)劃

混合方法結(jié)合了LLM產(chǎn)生語言策略,生成高層級(jí)的新興趣,以及經(jīng)典推薦模型產(chǎn)生物品策略,將這些基于語言的興趣落實(shí)到低層級(jí)的物品空間。這種混合方法結(jié)合了LLM在推理和泛化方面的優(yōu)勢(shì),以及領(lǐng)域特定的推薦模型在處理物品動(dòng)態(tài)和增強(qiáng)個(gè)性化方面的能力。

高級(jí)語言策略。鑒于歷史用戶興趣按語言進(jìn)行表示,論文首先使用大型語言模型(LLM)來學(xué)習(xí)一個(gè)高級(jí)語言策略,該策略能夠生成新穎的用戶興趣。論文不再使用物品描述來代表用戶,而是提出采用集群描述(即一組關(guān)鍵詞)來代表用戶消費(fèi)歷史,即用戶的過往興趣被表示為其最近K次交互的獨(dú)特集群序列,每個(gè)集群由其描述來表示。具體而言,根據(jù)用戶先前消費(fèi)的獨(dú)特集群,論文可以要求LLM根據(jù)圖2所示的提示生成下一個(gè)新穎興趣。               

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

                圖3:標(biāo)簽(即由微調(diào)后的LLM生成)分布:X軸表示標(biāo)簽頻率;Y軸表示每個(gè)頻率范圍內(nèi)標(biāo)簽的百分比    

實(shí)際應(yīng)用意義。將LLM部署到工業(yè)規(guī)模的推薦系統(tǒng)中的一個(gè)主要挑戰(zhàn)在于其高昂的推理成本無法滿足延遲和QPS要求。根據(jù)經(jīng)驗(yàn),論文發(fā)現(xiàn)依賴少量歷史集群來代表每個(gè)用戶可以有效平衡表示粒度和計(jì)算效率。在論文的實(shí)驗(yàn)中,二級(jí)聚類產(chǎn)生了761個(gè)集群。因此,論文可以枚舉所有761 * 761 = 579,121個(gè)集群對(duì),并在幾小時(shí)內(nèi)使用LLM進(jìn)行批量推理,以獲取每個(gè)集群對(duì)的創(chuàng)新興趣。這些創(chuàng)新興趣連同輸入的集群對(duì)可以存儲(chǔ)在一張表中。在線服務(wù)期間,當(dāng)有新用戶請(qǐng)求時(shí),論文首先通過從其觀看歷史中抽樣【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)個(gè)項(xiàng)目來表示用戶,并將它們轉(zhuǎn)換為集群對(duì)以進(jìn)行查找,以確定推薦的創(chuàng)意興趣集群。

低級(jí)項(xiàng)目策略。一旦獲取了基于語言的新用戶興趣,下一步就是將其轉(zhuǎn)換為項(xiàng)目級(jí)別的推薦策略。一個(gè)直接的方法是依賴搜索引擎根據(jù)新興趣的關(guān)鍵詞檢索最相關(guān)的項(xiàng)目。然而,搜索結(jié)果往往缺乏個(gè)性化,因?yàn)檫@些基于語言的新興趣可能仍然廣泛且缺乏特異性。為了增強(qiáng)個(gè)性化,論文建議重用特定領(lǐng)域的推薦模型,特別是基于Transformer的序列推薦模型[8, 27],但將項(xiàng)目限制在由基于語言的新興趣指定的集群中。具體來說,論文遵循以下兩個(gè)步驟:(i) 將生成的新興趣映射到集群ID空間,(ii) 在這些集群ID上限制原始項(xiàng)目級(jí)別的softmax策略,以僅從這些集群中檢索項(xiàng)目。

受控生成。剩余的挑戰(zhàn)是如何指定LLM生成興趣的粒度,并將生成的新興趣映射到集群ID。LLM的自由格式響應(yīng)可能是任意的,不太可能直接匹配預(yù)定義的集群描述。論文通過層次聚類和選擇集群級(jí)別來控制生成的粒度。此外,適當(dāng)微調(diào)使LLM能夠使用興趣集群的語言,生成恰好匹配預(yù)定義集群之一的集群描述。               

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

表4 (a) 模型微調(diào)過程。(b) 和 (c) 不同推薦系統(tǒng)在實(shí)際實(shí)驗(yàn)中的對(duì)比。

2.2.3 用戶行為對(duì)齊的微調(diào)

在大規(guī)模公開互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的LLMs包含了豐富的全球知識(shí),然而它缺乏以下能力:1) 受控生成(即在興趣集群空間內(nèi)生成)和2) 特定領(lǐng)域用戶行為對(duì)齊。論文建議通過使用商業(yè)平臺(tái)上真實(shí)用戶觀看歷史精心策劃的數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),注入這些特定領(lǐng)域的知識(shí)。因此,用于微調(diào)的數(shù)據(jù)質(zhì)量對(duì)其成功至關(guān)重要。

多樣化的數(shù)據(jù)策劃。以K=2為例,每個(gè)微調(diào)數(shù)據(jù)樣本,包含一個(gè)集群對(duì)以形成提示,以及隨后的新集群作為微調(diào)標(biāo)簽。這些樣本隨后按其標(biāo)簽分組,并針對(duì)每個(gè)標(biāo)簽選擇出現(xiàn)頻率最高的10個(gè)集群對(duì),形成最終的多樣化數(shù)據(jù)樣本,覆蓋所有標(biāo)簽。通過這些步驟,論文獲得761 * 10 = 7,610個(gè)數(shù)據(jù)樣本(每個(gè)標(biāo)簽集群10個(gè)),并使用這些樣本對(duì)LLM進(jìn)行監(jiān)督微調(diào)。

在圖3中,論文展示了經(jīng)過微調(diào)的大型語言模型(LLM)在579,121個(gè)上下文集群對(duì)上生成的興趣集群分布。當(dāng)使用多樣性較低的微調(diào)數(shù)據(jù)時(shí),論文從初始的25萬個(gè)數(shù)據(jù)中隨機(jī)選取7,610個(gè)轉(zhuǎn)換及其對(duì)應(yīng)的后續(xù)集群來構(gòu)成數(shù)據(jù)集,微調(diào)后的LLM生成的興趣呈現(xiàn)出高度偏斜,少數(shù)生成的集群具有非常高的頻率(如圖中區(qū)域B所示)。當(dāng)論文增加微調(diào)數(shù)據(jù)的多樣性時(shí),這些主導(dǎo)標(biāo)簽消失,生成集群中頻率非常低的數(shù)量(如圖中區(qū)域A所示)也減少。確保微調(diào)數(shù)據(jù)均勻覆蓋所有集群,使論文能夠解決模型生成集群中的長尾分布問題。這種處理不僅減輕了行為數(shù)據(jù)中的反饋循環(huán)效應(yīng),而且提高了整體用戶滿意度。

控制生成能力與用戶行為對(duì)齊。微調(diào)步驟的數(shù)量決定了LLM的全球知識(shí)與任務(wù)特定知識(shí)之間的平衡。論文的微調(diào)過程主要有兩個(gè)目標(biāo):(1) 控制LLM生成,使其語言與興趣集群相符。論文評(píng)估微調(diào)后LLM生成的匹配率,以確定輸出是否與集群描述完全匹配;(2) 與真實(shí)世界用戶轉(zhuǎn)換對(duì)齊,通過比較微調(diào)和測(cè)試集中微調(diào)后LLM的輸出與成功的用戶興趣轉(zhuǎn)換來計(jì)算召回率。較高的召回率表明LLM從微調(diào)數(shù)據(jù)中學(xué)習(xí)到領(lǐng)域特定的創(chuàng)新轉(zhuǎn)換,并與用戶行為對(duì)齊。

在圖4(a)中,當(dāng)批量大小為16時(shí),論文展示了匹配率和召回率隨著微調(diào)步驟進(jìn)展而發(fā)生的變化。論文注意到,格式化學(xué)習(xí),即學(xué)習(xí)感興趣集群的語言,首先啟動(dòng),在約2,000步達(dá)到峰值。在高匹配率(超過99%)的情況下,論文能有效地將生成內(nèi)容映射到集群ID空間,并限制在這些集群上對(duì)原始項(xiàng)級(jí)softmax策略的應(yīng)用。隨后,模型開始與用戶行為對(duì)齊,導(dǎo)致在微調(diào)集上的召回率顯著增加。此外,論文發(fā)現(xiàn),在過渡對(duì)齊之后,獨(dú)立測(cè)試集的召回率也隨之增加,在約3,000步達(dá)到峰值后逐漸下降。因此,論文選擇微調(diào)了3,000步的模型。需要注意的是,測(cè)試集上的召回率遠(yuǎn)低于微調(diào)集,表明LLM仍然嚴(yán)重依賴其全局知識(shí),而不是在生成新興趣時(shí)記憶日志中的興趣過渡。    

2.3 論文的效果

2.3.1 實(shí)驗(yàn)設(shè)置

論文在一個(gè)服務(wù)于數(shù)十億用戶的商業(yè)短視頻推薦平臺(tái)上進(jìn)行了一系列現(xiàn)場(chǎng)實(shí)驗(yàn)。論文的實(shí)驗(yàn)使用Gemini-Pro 進(jìn)行,但同樣的微調(diào)過程和流程可以輕松適應(yīng)其他LLM。論文為LLM推理設(shè)定了歷史集群數(shù)量K = 2,然而它很容易在未來的迭代中通過稀疏表擴(kuò)展以適應(yīng)更大的數(shù)量。

基準(zhǔn)模型。論文將所提出的方法與現(xiàn)有的生產(chǎn)模型進(jìn)行比較:(1)探索導(dǎo)向模型包括:一種新穎性增強(qiáng)的序列推薦器[9],該推薦器使用來自正樣本和以前未在用戶消費(fèi)歷史中出現(xiàn)的聚類中的新穎物品的標(biāo)簽進(jìn)行訓(xùn)練;基于3.1節(jié)介紹的分層聚類的分層上下文強(qiáng)盜,通過基于樹的LinUCB探索用戶的興趣以獲取下一個(gè)聚類,然后使用序列模型將檢索限制在物品上。盡管這些模型旨在探索用戶興趣,但它們是在系統(tǒng)中存在的興趣轉(zhuǎn)移上訓(xùn)練的,因此仍然受到反饋循環(huán)的影響。(2)利用導(dǎo)向模型包括常規(guī)的雙塔模型[34]和基于Transformer的[8, 27]序列模型,這些模型是根據(jù)所有正向用戶反饋進(jìn)行訓(xùn)練的。論文的實(shí)時(shí)實(shí)驗(yàn)結(jié)果表明,與這些現(xiàn)有模型相比,所提出的方法能夠帶來更具新穎性和更高品質(zhì)的推薦。

2.3.2 結(jié)果與分析

新穎性與質(zhì)量。在圖4(b)中,論文將所提出的方法與當(dāng)前生產(chǎn)中的各種基準(zhǔn)模型進(jìn)行了比較。以分層上下文強(qiáng)盜的性能為參考,論文衡量了其他模型的改進(jìn)。具體來說,論文繪制了新穎印象比例的增加(僅考慮用戶從未交互過的興趣聚類中的印象)以突出推薦的新穎性(x軸),以及正向反饋率的增加以展示推薦的質(zhì)量(y軸)。所提出的方法相比所有基準(zhǔn)方法推薦了更多新穎的物品(x軸右側(cè))。此外,它在質(zhì)量上遠(yuǎn)超現(xiàn)有的探索導(dǎo)向方法,與利用導(dǎo)向方法相當(dāng)(x軸上較高)。換句話說,所提出的方法提供了一種有效的方式,向用戶介紹對(duì)其有吸引力的新穎興趣。

用戶興趣探索。為衡量推薦系統(tǒng)是否鼓勵(lì)用戶探索新興趣,論文采用了一項(xiàng)指標(biāo)UCI@N,該指標(biāo)追蹤過去7天內(nèi)消費(fèi)過來自N個(gè)獨(dú)特聚類興趣項(xiàng)的用戶數(shù)量。較高的UCI@N意味著更多用戶正在消費(fèi)N個(gè)興趣。通過監(jiān)測(cè)不同N值(20至200)下的UCI@N,論文能評(píng)估系統(tǒng)在用戶興趣探索方面的有效性。圖4(c)總結(jié)了論文的方法相較于分層上下文 bandits 在用戶興趣探索方面的改進(jìn),以評(píng)估其效果。值得注意的是,與當(dāng)前生產(chǎn)中部署的顯著探索模型相比,論文提出的方法在不同N值下展現(xiàn)出了非常顯著的改進(jìn)。    

用戶增長。同時(shí),論文監(jiān)測(cè)了總體觀看時(shí)間的增長以及活躍用戶數(shù)量(總觀看時(shí)間≥10分鐘),以衡量短視頻平臺(tái)上用戶的增長情況(見圖5)。x軸代表實(shí)驗(yàn)周期(具體日期已隱去),y軸顯示實(shí)驗(yàn)組與對(duì)照組之間的相對(duì)百分比差異,對(duì)照組排除了所提出的系統(tǒng)。論文的方法通過推薦多樣且新穎的內(nèi)容成功拓寬了用戶興趣,促進(jìn)了用戶增長。這突顯了推薦的新穎內(nèi)容的質(zhì)量和相關(guān)性。                

【LLM】大語言模型在用戶興趣探索中的應(yīng)用-AI.x社區(qū)

                圖5:所提出的方法驅(qū)動(dòng)用戶增長


論文標(biāo)題:LLMs for User Interest Exploration: A Hybrid Approach

論文鏈接:??https://arxiv.org/pdf/2405.16363?


本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦