自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華為諾亞解析:推薦系統(tǒng)的技術(shù)演進(jìn)及大模型應(yīng)用實(shí)踐

人工智能
本文將分享推薦系統(tǒng)在過(guò)去十年中的發(fā)展歷程,以及在大模型時(shí)代的發(fā)展趨勢(shì)。推薦系統(tǒng)是通過(guò)分析用戶(hù)的歷史行為數(shù)據(jù),包括評(píng)分、瀏覽、購(gòu)買(mǎi)和歷史點(diǎn)擊等,訓(xùn)練模型去學(xué)習(xí)用戶(hù)的興趣愛(ài)好和偏好,并最終提供所需的個(gè)性化服務(wù)。

一、推薦系統(tǒng)問(wèn)題和背景

首先來(lái)簡(jiǎn)要介紹一下個(gè)性化推薦系統(tǒng)。

實(shí)際上,我們每個(gè)人每天都在與眾多推薦系統(tǒng)進(jìn)行交互。例如,購(gòu)買(mǎi)衣物、閱讀新聞或聆聽(tīng)音樂(lè)時(shí),我們打開(kāi)的每一個(gè)應(yīng)用程序或網(wǎng)頁(yè),其展示的內(nèi)容即為推薦系統(tǒng)所呈現(xiàn)。由于每個(gè)人的需求和偏好各不相同,這正是個(gè)性化推薦算法的體現(xiàn)。

從根本上講,推薦系統(tǒng)是通過(guò)分析用戶(hù)的歷史行為數(shù)據(jù),包括評(píng)分、瀏覽、購(gòu)買(mǎi)和歷史點(diǎn)擊等,訓(xùn)練模型去學(xué)習(xí)用戶(hù)的興趣愛(ài)好和偏好,并最終提供所需的個(gè)性化服務(wù)。因此,推薦系統(tǒng)的基本原理是幫助用戶(hù)以最小的交互成本獲得最多的有效信息,即用戶(hù)無(wú)需明確表達(dá)需求即可找到他們最喜歡的內(nèi)容。

圖片

推薦系統(tǒng)有兩種主要的產(chǎn)品形態(tài):

  • 一種是列表式推薦,這是我們?nèi)粘W畛R?jiàn)的形式。在這種形態(tài)下,每個(gè)應(yīng)用程序的推薦結(jié)果通常以縱向或橫向的列表形式展示,其中排名靠前的通常是推薦算法認(rèn)為用戶(hù)可能更喜歡的內(nèi)容。
  • 另一種是對(duì)話(huà)式推薦系統(tǒng),這種形式最近越來(lái)越受歡迎。在這種模式下,用戶(hù)與一個(gè)助手進(jìn)行自然語(yǔ)言的多輪交互,助手在交互過(guò)程中向用戶(hù)推薦可能感興趣的內(nèi)容。

圖片

本次分享將圍繞這兩種交互模式展開(kāi)。

二、推薦系統(tǒng)發(fā)展趨勢(shì)圖

下圖展示了推薦系統(tǒng)的發(fā)展趨勢(shì),其橫軸表示人工智能技術(shù)的演進(jìn),包括三個(gè)關(guān)鍵技術(shù)里程碑:深度學(xué)習(xí)(deep learning)、大語(yǔ)言模型(LLM)和 LLM 智能體??v軸則區(qū)分了兩種推薦系統(tǒng)的產(chǎn)品形態(tài):下方為列表式靜態(tài)推薦,上方為對(duì)話(huà)式交互推薦,后者通常更為實(shí)時(shí)且支持多輪交互。圖中的每個(gè)交點(diǎn)均代表了該領(lǐng)域的代表性工作,后文中將簡(jiǎn)要概述這些工作背后的主要原理,并展示推薦系統(tǒng)隨時(shí)間發(fā)展的路徑。

圖片

按照時(shí)間順序,從早期的傳統(tǒng)列表式推薦系統(tǒng)作為起點(diǎn),發(fā)展出兩種產(chǎn)品形態(tài):一是以自然語(yǔ)言為主的多輪交互,另一種則是沿著靜態(tài)列表式交互。我們期望達(dá)到的終極目標(biāo)是實(shí)現(xiàn)個(gè)性化的人工智能代理,理想狀態(tài)下,用戶(hù)無(wú)需或僅需提供極少的輸入,模型便能自動(dòng)挖掘用戶(hù)的潛在意圖,并推薦用戶(hù)所需的內(nèi)容。在整個(gè)發(fā)展過(guò)程中,用戶(hù)獲取的有效信息逐漸增加,而獲取信息的交互成本逐漸降低,這兩條路徑最終匯聚于一點(diǎn),即我們的最終目標(biāo)。本圖也指導(dǎo)了我們今天討論的主要內(nèi)容。

三、深度學(xué)習(xí)時(shí)代

讓我們首先回顧深度學(xué)習(xí)時(shí)代的早期發(fā)展。

1. 列表式推薦

首先關(guān)注的是列表式推薦系統(tǒng)。這一系統(tǒng)為大家所熟知,它經(jīng)歷了最長(zhǎng)時(shí)間的發(fā)展歷程,并創(chuàng)造了巨大的商業(yè)價(jià)值。在這一領(lǐng)域中,具有代表性的研究成果包括華為諾亞實(shí)驗(yàn)室的 DeepFM,該模型廣為人知;Google 的 DCN 模型至今仍被使用;阿里巴巴的 DIN 模型也是其中之一。這些研究成果至今仍被眾多商業(yè)推薦系統(tǒng)所采用,原因在于它們的簡(jiǎn)潔性和有效性,能夠真正挖掘出用戶(hù)的喜好,并將相應(yīng)的內(nèi)容推薦給用戶(hù)。

圖片

在深度學(xué)習(xí)時(shí)代,一些具有代表性的或典型的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)際上都是在一種典型的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行了演進(jìn)和優(yōu)化。這種典型的網(wǎng)絡(luò)結(jié)構(gòu)大致如下:其輸入包括用戶(hù)行為,如前所述,涉及點(diǎn)擊、瀏覽、加入購(gòu)物車(chē)等,以及用戶(hù)特征和物品特征。這些特征主要是類(lèi)別性特征,因此會(huì)通過(guò)一個(gè)獨(dú)熱編碼層,將其編碼成稀疏的 01 表示向量。接下來(lái),由于特征向量過(guò)長(zhǎng),可能需要通過(guò)一個(gè)嵌入層,將每個(gè)特征映射到一個(gè)低維的連續(xù)向量中。隨后是特征交互層,這是整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中非常關(guān)鍵的部分,涉及到特征與特征之間的相互影響和交互,這也是深度學(xué)習(xí)時(shí)代主要的研究方向之一。最后,通過(guò)一個(gè)輸出層,得出當(dāng)前用戶(hù)喜歡該物品的概率,即一個(gè)介于 0 到 1 之間的預(yù)測(cè)值。推薦系統(tǒng)的深度推薦網(wǎng)絡(luò)大致都遵循這種結(jié)構(gòu),不同之處可能在于特征交互層或輸入層的變動(dòng)。接下來(lái),將詳細(xì)探討特征交互學(xué)習(xí),這是一個(gè)重要的研究模塊。

圖片

特征交互學(xué)習(xí)是指用戶(hù)和物品特征之間的具體交互方式,主要分為三類(lèi):

  • 第一類(lèi)是乘法操作,這是一種比較典型的方法。例如,華為諾亞實(shí)驗(yàn)室的 DeepFM 模型采用了簡(jiǎn)單的因子分解機(jī)(FM)結(jié)構(gòu),結(jié)合二階特征交互和深層的全連接層(DNN),以學(xué)習(xí)特征之間的深度交互。Google 的 DCN 模型則通過(guò)將層與層之間的權(quán)重進(jìn)行乘積,來(lái)建模高階特征交互。
  • 第二類(lèi)是卷積操作,用于建模兩個(gè)特征之間的鄰接位置關(guān)聯(lián)關(guān)系,例如使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)或圖神經(jīng)網(wǎng)絡(luò)(GNN)進(jìn)行特征交互建模。
  • 第三類(lèi)是注意力機(jī)制,它能夠動(dòng)態(tài)地建模特征與特征之間的交互權(quán)重,因此效果相對(duì)較好。近期的網(wǎng)絡(luò)結(jié)構(gòu),如 AutoInt 和 FiBiNet,基本上都是基于注意力機(jī)制構(gòu)建的。

圖片

在當(dāng)前階段,一個(gè)重要的研究方向是如何對(duì)用戶(hù)行為進(jìn)行建模。本質(zhì)上,推薦系統(tǒng)的核心在于分析用戶(hù)行為。早期的傳統(tǒng)用戶(hù)行為建模主要針對(duì)簡(jiǎn)單的單行為序列,由于模型的表達(dá)能力有限,這些序列通常較短。例如,阿里巴巴的 DIN 和 CAN 模型,它們基于簡(jiǎn)單的注意力機(jī)制,直接根據(jù)目標(biāo)物品學(xué)習(xí)用戶(hù)行為中哪些物品對(duì)當(dāng)前目標(biāo)物品的預(yù)測(cè)更為重要,這是一種傳統(tǒng)的注意力機(jī)制,即“conventional behavior”。

從這一傳統(tǒng)行為建模出發(fā),近期的研究發(fā)展呈現(xiàn)出三個(gè)方向:一是建模超長(zhǎng)的用戶(hù)行為序列。在互聯(lián)網(wǎng)推薦系統(tǒng)中,這種需求日益增多,例如阿里巴巴在進(jìn)行雙十一推薦時(shí),可能會(huì)參考用戶(hù)過(guò)去幾年的行為數(shù)據(jù)。如何建模這些超長(zhǎng)的行為序列成為一個(gè)挑戰(zhàn)。例如,阿里巴巴可能會(huì)采用類(lèi)似于 SIM 的方法,加入檢索模塊,從長(zhǎng)序列中通過(guò) BM25 或相似度檢索等技術(shù)篩選出最相關(guān)的一小部分物品,然后進(jìn)行目標(biāo)物品與這些物品的特征交互,即 SIM。另一種方法是 ETA,它使用 LSH 和漢明距離進(jìn)行檢索,背后的邏輯是相同的,即從長(zhǎng)序列中找到最相關(guān)的物品。

第二個(gè)發(fā)展方向是多行為序列建模。早期的研究只關(guān)注點(diǎn)擊序列,但現(xiàn)在越來(lái)越多的研究開(kāi)始考慮除點(diǎn)擊序列之外的其他行為,如加入購(gòu)物車(chē)、瀏覽和收藏序列。這些序列之間存在相互關(guān)系,可以通過(guò)統(tǒng)一建模為一個(gè)較長(zhǎng)的序列,并設(shè)計(jì)相應(yīng)的注意力機(jī)制網(wǎng)絡(luò)來(lái)解決這一問(wèn)題。

第三個(gè)發(fā)展方向是多屬性序列建模。早期的用戶(hù)行為建模僅使用ID特征,但近期的研究顯示,可以將所有特征納入考慮,形成三維張量。例如,SC-CNN 工作,它們使用 CNN 網(wǎng)絡(luò)來(lái)卷積整個(gè)三維向量,以建模目標(biāo)物品與整個(gè)歷史序列之間的交互。

圖片

深度學(xué)習(xí)時(shí)代的研究方向主要分為兩大塊,我們已經(jīng)簡(jiǎn)要回顧了這些內(nèi)容。然而,這些研究方向也存在一定的局限性。首先,深度學(xué)習(xí)模型所依賴(lài)的反饋信號(hào),如用戶(hù)的點(diǎn)擊或?yàn)g覽行為,屬于隱式反饋,這類(lèi)信號(hào)通常噪聲較大、較為稀疏,難以準(zhǔn)確捕捉用戶(hù)的真實(shí)潛在興趣。此外,這些反饋信號(hào)容易受到位置偏差、用戶(hù)誤操作以及自動(dòng)播放等因素的影響,導(dǎo)致正例標(biāo)簽并不一定真實(shí)反映用戶(hù)對(duì)物品的喜好。其次,深度學(xué)習(xí)模型缺乏語(yǔ)義信號(hào)的支持,而語(yǔ)義信息在推薦系統(tǒng)中是非常重要的。例如,全麥面包和牛角包在語(yǔ)義上非常相似,但傳統(tǒng)推薦系統(tǒng)難以捕捉這種語(yǔ)義關(guān)系。這些局限性導(dǎo)致了深度推薦模型發(fā)展的兩個(gè)分支:一是通過(guò)多輪交互直接獲取用戶(hù)的顯式反饋,從而發(fā)展出對(duì)話(huà)式推薦模型;二是強(qiáng)化語(yǔ)義理解,引入大語(yǔ)言模型等具有強(qiáng)大語(yǔ)義理解能力的模型到推薦系統(tǒng)中。

圖片

下面,我們將探討深度學(xué)習(xí)時(shí)代的對(duì)話(huà)式推薦系統(tǒng)這一分支。

2. 對(duì)話(huà)式推薦

以自然語(yǔ)言為媒介的對(duì)話(huà)式推薦系統(tǒng),其核心優(yōu)勢(shì)在于能夠通過(guò)多輪交互獲取用戶(hù)的顯式反饋。以音樂(lè)推薦為例,在傳統(tǒng)的列表式推薦系統(tǒng)中,用戶(hù)只能通過(guò)點(diǎn)擊或“喜歡”按鈕來(lái)表達(dá)對(duì)歌曲的喜好。然而,在對(duì)話(huà)式推薦系統(tǒng)中,用戶(hù)可以直接用語(yǔ)言表達(dá)自己的喜好,例如說(shuō)“換一首吧?這首歌我聽(tīng)了太多遍了”,這直接表達(dá)了對(duì)當(dāng)前歌曲的不喜歡,或者表示“好啊,我挺喜歡的”,明確表達(dá)了對(duì)歌曲的喜愛(ài)。這種喜好或不喜好的表達(dá)是非常明確的,因此它是一種更直接且實(shí)時(shí)的反饋。用戶(hù)一旦給出這樣的反饋,系統(tǒng)便能立即知曉用戶(hù)對(duì)特定內(nèi)容的喜好,這是對(duì)話(huà)式推薦系統(tǒng)與傳統(tǒng)列表式推薦系統(tǒng)的主要區(qū)別。

圖片

為了更有效地構(gòu)建對(duì)話(huà)式推薦系統(tǒng),相關(guān)工作基本上可以分為兩大類(lèi)別。一類(lèi)是基于物品或?qū)傩缘膶?duì)話(huà)推薦,其目標(biāo)是在最少的輪次內(nèi)找到用戶(hù)當(dāng)前感興趣的物品?;谶@一目標(biāo),我們可以將此類(lèi)任務(wù)建模為一個(gè)序列決策問(wèn)題,即馬爾可夫決策過(guò)程(MDP)問(wèn)題,其中涉及到探索(exploration)與利用(exploitation)之間的權(quán)衡。具體而言,系統(tǒng)需要決定是探索用戶(hù)可能喜歡的物品,還是直接推薦用戶(hù)肯定會(huì)喜歡的物品。例如,微軟的 PMF 是一個(gè)早期基于物品或?qū)傩赃M(jìn)行對(duì)話(huà)推薦的工作,它將整個(gè)問(wèn)題建模為一個(gè)多臂賭博機(jī)問(wèn)題,并優(yōu)化以找到最優(yōu)物品的輪次,使用的是基于概率矩陣分解的模型進(jìn)行推薦。然而,這類(lèi)問(wèn)題在實(shí)際應(yīng)用中并不十分適用,因?yàn)橄到y(tǒng)不斷詢(xún)問(wèn)用戶(hù)是否喜歡某個(gè)物品會(huì)讓用戶(hù)感到不自然。

另一種更為自然的對(duì)話(huà)式推薦任務(wù)是基于生成式的對(duì)話(huà)推薦,其目標(biāo)是提升用戶(hù)對(duì)整個(gè)對(duì)話(huà)過(guò)程的滿(mǎn)意度。在這一過(guò)程中,存在兩個(gè)潛在需要解決的問(wèn)題:一是物品推薦,因此會(huì)涉及到一個(gè)物品推薦器。

第二項(xiàng)任務(wù)可能涉及閑聊和意圖引導(dǎo),這通常隱藏在對(duì)話(huà)生成器的子任務(wù)中。例如,微軟的一個(gè)代表性工作名為 Redial,許多后續(xù)工作都遵循了這一工作的方法。Redial 利用了編碼器-解碼器結(jié)構(gòu)來(lái)訓(xùn)練其端到端的物品推薦和對(duì)話(huà)生成能力。

圖片

以下是 Redial 網(wǎng)絡(luò)結(jié)構(gòu)的描述,盡管線(xiàn)條連接可能顯得有些混亂,但結(jié)構(gòu)本身是清晰的。該模型分為三大部分:

  • 最下方的是對(duì)話(huà)生成器,其功能是將用戶(hù)與助手之間的先前對(duì)話(huà)上下文編碼成一個(gè)表示向量。
  • 上方部分是物品推薦器,其功能是使用一個(gè)解碼器,將之前提及的所有物品(例如 AT123 或 AT934,均為物品 ID)進(jìn)行映射,并預(yù)測(cè)用戶(hù)下一個(gè)可能喜歡的物品,輸出為用戶(hù)可能喜歡的物品的 ID,類(lèi)似于序列推薦。
  • 最后是解碼器,其輸入是編碼后的對(duì)話(huà)表示和當(dāng)前可能喜歡的物品,解碼器通過(guò)解碼直接生成對(duì)用戶(hù)應(yīng)反饋的話(huà)語(yǔ),這可能是閑聊,也可能是直接推薦物品。閑聊或推薦的選擇是由整個(gè)解碼器學(xué)習(xí)得出的,這是一個(gè)端到端訓(xùn)練的過(guò)程。

圖片

然而,當(dāng)我們重新審視對(duì)話(huà)式推薦系統(tǒng)時(shí),可以發(fā)現(xiàn)它也存在一定的局限性。首先,用戶(hù)需要通過(guò)自然語(yǔ)言進(jìn)行表達(dá),這相較于簡(jiǎn)單的點(diǎn)擊操作來(lái)說(shuō),用戶(hù)需要付出更多的努力,因此交互成本相對(duì)較高。其次,對(duì)話(huà)式推薦系統(tǒng)可能依賴(lài)于一些不良案例或強(qiáng)化學(xué)習(xí)算法,這些算法在理解用戶(hù)背后的真實(shí)意圖方面能力有限。這些局限性最終導(dǎo)致對(duì)話(huà)式推薦系統(tǒng)在商業(yè)化應(yīng)用場(chǎng)景中相對(duì)于列表式推薦系統(tǒng)來(lái)說(shuō)較為有限。

圖片

四、大語(yǔ)言模型時(shí)代

1. 列表式推薦

在討論完深度學(xué)習(xí)時(shí)代之后,我們轉(zhuǎn)向一個(gè)當(dāng)前最熱門(mén)的話(huà)題——大語(yǔ)言模型,并探討其在推薦系統(tǒng)中的潛在應(yīng)用。推薦系統(tǒng)中的大語(yǔ)言型模型,由于在互聯(lián)網(wǎng)級(jí)別的語(yǔ)料上進(jìn)行訓(xùn)練,因此具備強(qiáng)大的通用知識(shí)和邏輯推理能力,這是傳統(tǒng)推薦系統(tǒng)所不具備的,實(shí)際上有助于提升推薦效果。

在此,我們對(duì)傳統(tǒng)推薦系統(tǒng)與大語(yǔ)言模型進(jìn)行了簡(jiǎn)單對(duì)比:傳統(tǒng)推薦模型相對(duì)較小,模型輕量,能夠?qū)崟r(shí)服務(wù)于上億級(jí)別的用戶(hù)響應(yīng),且在每個(gè)具體的領(lǐng)域上進(jìn)行訓(xùn)練,因此具有較好的協(xié)同信號(hào)。然而,它缺乏一些通用的常識(shí)性知識(shí),例如社會(huì)風(fēng)俗、文化等,以及最新新聞、季節(jié)性影響因子等。

與此相對(duì)應(yīng),大語(yǔ)言型模型恰好能夠彌補(bǔ)傳統(tǒng)推薦模型的這些局限性。它擁有豐富的開(kāi)放世界知識(shí),具備強(qiáng)大的邏輯推理能力,能夠推斷出用戶(hù)當(dāng)前可能喜歡的內(nèi)容。同時(shí),它還具備非常豐富的語(yǔ)言理解能力。然而,由于模型規(guī)模較大,推理實(shí)驗(yàn)成本較高,且可能缺乏特定領(lǐng)域的知識(shí)。

圖片

我們觀(guān)察到大語(yǔ)言模型實(shí)際上并未利用個(gè)性化數(shù)據(jù),這是其與傳統(tǒng)推薦系統(tǒng)的不同之處。因此,我們的目標(biāo)是將大語(yǔ)言模型應(yīng)用于推薦領(lǐng)域。

具體應(yīng)用在何處,這是我們需要回答的第一個(gè)問(wèn)題。我們將整個(gè)推薦流程劃分為一系列環(huán)節(jié):首先是用戶(hù)交互,通過(guò)此環(huán)節(jié)收集數(shù)據(jù),然后進(jìn)行特征工程和特征映射。如前所述,這一環(huán)節(jié)涉及到經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),即生成密集型的特征嵌入(embedding),隨后進(jìn)行特征交互和排序。實(shí)際上,在每個(gè)步驟中都可以利用大語(yǔ)言模型。

最終,灰色的環(huán)代表流程控制器,它負(fù)責(zé)調(diào)度各個(gè)子模塊。有研究工作探討了使用語(yǔ)言模型來(lái)調(diào)度這些子模塊,但由于篇幅限制,在此不作贅述。感興趣的讀者可以查閱我們?nèi)ツ臧l(fā)表在 TOIS 上的綜述論文,論文標(biāo)題為“How Can Recommendation Systems Benefit from Large Language Models: A Survey”,其中詳細(xì)梳理并介紹了相關(guān)工作。

圖片

接下來(lái)的問(wèn)題是如何將大語(yǔ)言模型(LLM)應(yīng)用于推薦領(lǐng)域。在此過(guò)程中,需要做出兩個(gè)決策,我們將現(xiàn)有工作按照兩個(gè)維度分為四個(gè)象限。橫軸代表一個(gè)決策,即我們是否需要對(duì)大語(yǔ)言模型進(jìn)行微調(diào),這也是許多公司和學(xué)術(shù)機(jī)構(gòu)在初步?jīng)Q策時(shí)需要考慮的問(wèn)題。選擇不微調(diào)的工作直接將大語(yǔ)言模型作為 API 使用,而選擇微調(diào)的工作則利用推薦領(lǐng)域的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換成自然語(yǔ)言文本以微調(diào)語(yǔ)言模型。縱軸代表另一個(gè)決策,即在推理時(shí)是否需要依賴(lài)傳統(tǒng)推薦系統(tǒng)。上半部分的工作決定在推理時(shí)仍需借助傳統(tǒng)推薦系統(tǒng),而下半部分的工作則直接使用大語(yǔ)言模型進(jìn)行推理,直接輸出推薦結(jié)果。這樣我們可以對(duì)相關(guān)工作進(jìn)行分類(lèi)。顏色代表模型的效果,顏色越接近黃色或橘黃色,表明模型效果越好。通過(guò)觀(guān)察時(shí)間線(xiàn)可以看到,研究工作從第一象限逐步發(fā)展到第三象限,然后近期又向第二和第四象限發(fā)展,同時(shí)也有回歸第一象限的趨勢(shì)。

因此,我們得出結(jié)論,直接使用大語(yǔ)言模型進(jìn)行推薦任務(wù)并非其最擅長(zhǎng)的領(lǐng)域,我們必須將推薦領(lǐng)域的協(xié)同信號(hào)注入其中。具體注入方式有兩種:一是通過(guò)模型注入,即在推理時(shí)仍需利用傳統(tǒng)推薦模型的能力;二是通過(guò)數(shù)據(jù),即必須讓大語(yǔ)言模型接觸過(guò)推薦領(lǐng)域的數(shù)據(jù),以便獲取協(xié)同信號(hào)。這是我們的兩個(gè)主要結(jié)論。

圖片

接下來(lái),將介紹諾亞實(shí)驗(yàn)室一個(gè)較早的成果,即在 2023 年期間將大語(yǔ)言模型成功應(yīng)用于推薦系統(tǒng)的項(xiàng)目,名為 KAR。該項(xiàng)目首次構(gòu)建了一個(gè)開(kāi)放域的推薦系統(tǒng)。傳統(tǒng)推薦系統(tǒng)是封閉的,因?yàn)樗鼈冊(cè)谔囟I(lǐng)域訓(xùn)練模型,并僅在該領(lǐng)域內(nèi)使用,因此相對(duì)封閉。而大語(yǔ)言模型恰好是一個(gè)開(kāi)放世界的模型,通過(guò)引入大語(yǔ)言模型,我們可以構(gòu)建一個(gè)開(kāi)放域的推薦框架,使其能夠利用外部通用知識(shí)。例如,在進(jìn)行電影推薦時(shí),模型能夠獲取電影的拍攝背景、情節(jié)等信息,并利用其邏輯推理能力推斷出用戶(hù)當(dāng)前的狀態(tài)和情感表達(dá),從而推斷用戶(hù)可能想看的內(nèi)容。這種模型具有兩個(gè)優(yōu)點(diǎn),但也存在局限性,即缺乏領(lǐng)域知識(shí)和模型復(fù)雜度高。我們的目標(biāo)是解決這些局限性,并將語(yǔ)言模型應(yīng)用于推薦系統(tǒng)中。因此,我們提出了一個(gè)方案,該方案發(fā)表在當(dāng)年的 Raxis 上,并獲得了去年 DRP Access 的最佳論文獎(jiǎng)。

圖片

其主要貢獻(xiàn)在于能夠?qū)鹘y(tǒng)推薦系統(tǒng)和語(yǔ)言模型的優(yōu)勢(shì)結(jié)合起來(lái),同時(shí)規(guī)避它們的缺點(diǎn)。方案相對(duì)簡(jiǎn)單,分為三個(gè)步驟,首先是知識(shí)生成,我們提出了一種因式分解提示技術(shù)來(lái)提示 LLM,這項(xiàng)技術(shù)將復(fù)雜的推理任務(wù)分解為簡(jiǎn)單的子任務(wù),并分別進(jìn)行推理。結(jié)果如上所述,紫色文本是對(duì)用戶(hù)興趣偏好的推理,藍(lán)色文本是對(duì)物品事實(shí)性的推理,這些文本由語(yǔ)言模型生成。然而,傳統(tǒng)推薦模型無(wú)法直接使用這些文本,因此我們?cè)O(shè)計(jì)了一個(gè)知識(shí)適配器,將文本空間映射到推薦系統(tǒng)能夠使用的推薦空間,即低維連續(xù)向量。我們采用了多專(zhuān)家適配網(wǎng)絡(luò)來(lái)確保文本信息不丟失,同時(shí)使推薦領(lǐng)域的推薦模型能夠使用這些信息。最后是知識(shí)利用階段,實(shí)際上我們獲得了兩個(gè)由語(yǔ)言模型增強(qiáng)后的表征,過(guò)程相對(duì)簡(jiǎn)單。因此,它還可以與現(xiàn)有的特征結(jié)合,進(jìn)行特征交互,并輸出我們最終想要得到的 y。前兩個(gè)階段可以離線(xiàn)完成,因此線(xiàn)上時(shí)延僅依賴(lài)于最后一個(gè)階段,與傳統(tǒng)推薦系統(tǒng)相比沒(méi)有區(qū)別。因此,我們的方案適配性強(qiáng),并已在華為的多個(gè)產(chǎn)品業(yè)務(wù)線(xiàn)全面上線(xiàn)。

圖片

本研究展示了引入增強(qiáng)型語(yǔ)言模型 KAR 后的效果。我們?cè)?9 個(gè)現(xiàn)有的推薦算法基礎(chǔ)上增加了 KAR,結(jié)果表明 AUC 提升了 1.5%。通常而言,AUC 提升超過(guò) 0.3% 即被認(rèn)為是顯著的,因此 1.5% 的提升證明了增強(qiáng)型語(yǔ)言模型的有效性。此外,我們對(duì)其推理時(shí)延進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn) KAR 的推理時(shí)延與傳統(tǒng)的 DIN 模型幾乎處于同一量級(jí)。例如,調(diào)用 ChatGPT 需要 5 秒的響應(yīng)時(shí)間,而我們的模型僅需 3 秒,這一實(shí)驗(yàn)結(jié)果證明了其可落地性。

同時(shí),我們還進(jìn)行了消融實(shí)驗(yàn),并發(fā)現(xiàn)了一些有趣的結(jié)果。圖中藍(lán)色代表傳統(tǒng)的 DIN 模型,綠色代表物品增強(qiáng)后的結(jié)果,紫色代表用戶(hù)增強(qiáng)后的結(jié)果,黃色代表同時(shí)使用兩者的結(jié)果??梢钥闯?,紫色對(duì)基礎(chǔ)模型的增強(qiáng)效果遠(yuǎn)大于綠色,即對(duì)用戶(hù)的推理知識(shí)對(duì)傳統(tǒng)推薦模型更為有用。我們認(rèn)為這可能是因?yàn)閭鹘y(tǒng)推薦模型難以學(xué)習(xí)到這些推理知識(shí),例如 GP4 等能力,而語(yǔ)言模型則具備這些能力,因此能更好地補(bǔ)充傳統(tǒng)模型。

這是一個(gè)線(xiàn)上 AB 測(cè)試的結(jié)果,縱軸數(shù)據(jù)已進(jìn)行重新縮放??梢钥吹剿兄笜?biāo)均穩(wěn)定提升了 2%,因此該模型已全面部署。

圖片

盡管如此,該模型仍然在列表式推薦框架內(nèi)運(yùn)作,因此未能解決我們之前提到的反饋為隱式的問(wèn)題。

圖片

2. 對(duì)話(huà)式推薦

圖片

在大語(yǔ)言模型時(shí)代,對(duì)話(huà)式推薦系統(tǒng)經(jīng)歷了一些變化和發(fā)展。傳統(tǒng)對(duì)話(huà)式推薦系統(tǒng)可能采用較小的模型,例如 BERT,其參數(shù)規(guī)模最多達(dá)到 1 億級(jí)別。這可能導(dǎo)致助手提出許多冗余問(wèn)題,從而影響用戶(hù)體驗(yàn)。例如,當(dāng)用戶(hù)請(qǐng)求“幫我放一首我工作時(shí)想聽(tīng)的歌曲”時(shí),系統(tǒng)可能會(huì)連續(xù)詢(xún)問(wèn)用戶(hù)喜歡什么類(lèi)型的音樂(lè),如“你喜歡爵士樂(lè)嗎?”或“你喜歡國(guó)風(fēng)嗎?”,這一系列問(wèn)題實(shí)際上對(duì)用戶(hù)體驗(yàn)造成了負(fù)面影響。

然而,大語(yǔ)言模型由于具備較強(qiáng)的語(yǔ)言表達(dá)能力和邏輯推理能力,能夠迅速而準(zhǔn)確地理解用戶(hù)意圖,并提供出色的可解釋性。例如,模型可能直接回應(yīng)用戶(hù)的需求,如“我給你推薦這首協(xié)奏曲,因?yàn)樗p柔、穩(wěn)定、舒緩,能夠幫助你更快地進(jìn)入心流和專(zhuān)注的狀態(tài)”,這精準(zhǔn)地挖掘了用戶(hù)當(dāng)前的需求,即他們想要完成的意圖,并給出了合適的解釋?zhuān)瑑H通過(guò)一輪交互就解決了用戶(hù)的問(wèn)題。這是大語(yǔ)言模型與傳統(tǒng)對(duì)話(huà)式推薦系統(tǒng)的主要區(qū)別。

在大型語(yǔ)言模型時(shí)代,對(duì)話(huà)式推薦系統(tǒng)主要可分為兩類(lèi)。第一類(lèi)是通過(guò)提示(prompt)模式直接實(shí)現(xiàn),即設(shè)計(jì)一個(gè)精巧的提示來(lái)引導(dǎo)語(yǔ)言模型完成特定任務(wù)。第二類(lèi)則是利用數(shù)據(jù)進(jìn)行微調(diào)。以下是一個(gè)具體的例子來(lái)說(shuō)明這兩種方法。

圖片

下文介紹的是復(fù)旦大學(xué)的一項(xiàng)名為 ChatRec 的研究工作,該工作在 ChatGPT 發(fā)布不久后便對(duì)外公布,屬于早期但具有代表性的研究成果之一。該研究采用了 ChatGPT 模型,并為其設(shè)計(jì)了一個(gè)提示構(gòu)造器(prompt constructor),將所有信息組合成自然語(yǔ)言文本形式的指令輸入給 ChatGPT。具體來(lái)說(shuō),輸入內(nèi)容包括當(dāng)前的查詢(xún)、推薦系統(tǒng)任務(wù)、用戶(hù)歷史和用戶(hù)畫(huà)像以及對(duì)話(huà)歷史?;谶@些信息,ChatGPT 需要判斷是否需要利用傳統(tǒng)推薦系統(tǒng)。如果需要,傳統(tǒng)推薦系統(tǒng)將提供 20 個(gè)候選物品;如果不需要,則直接將候選物品返回給 ChatGPT。因此,如果 ChatGPT 判斷無(wú)需傳統(tǒng)推薦系統(tǒng)的介入,它將直接使用已經(jīng)召回的 20 個(gè)物品與用戶(hù)進(jìn)行對(duì)話(huà)并輸出推薦結(jié)果,例如推薦用戶(hù)可能喜歡的 5 個(gè)物品。這是一個(gè)簡(jiǎn)單但完整的流程,僅通過(guò)提示(prompt)來(lái)完成推薦任務(wù),而無(wú)需對(duì) ChatGPT 進(jìn)行微調(diào)。

圖片

倫敦大學(xué)學(xué)院(UCL)的研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)工作,涉及對(duì)模型進(jìn)行微調(diào)。由于推薦任務(wù)的復(fù)雜性,該團(tuán)隊(duì)將整個(gè)推薦任務(wù)細(xì)分為四個(gè)子任務(wù),這些子任務(wù)的論文標(biāo)題已列在下方,并將在后續(xù)的 PPT 中分享。這四個(gè)子任務(wù)包括用戶(hù)意圖識(shí)別、推薦解釋、搜索等,基本涵蓋了對(duì)話(huà)式推薦系統(tǒng)中所需完成的所有任務(wù)。因此,該團(tuán)隊(duì)設(shè)計(jì)了與用戶(hù)交互的整個(gè)流程,分為四個(gè)步驟:

  • 第一步是用戶(hù)提出查詢(xún)(query),系統(tǒng)需匹配當(dāng)前應(yīng)執(zhí)行的子任務(wù)。
  • 第二步是進(jìn)行模型匹配(model matching),為每個(gè)任務(wù)設(shè)計(jì)了相應(yīng)的專(zhuān)家網(wǎng)絡(luò)(expert network),專(zhuān)門(mén)解決對(duì)應(yīng)的子任務(wù)。例如,對(duì)于搜索任務(wù),可能涉及一個(gè)搜索引擎。
  • 系統(tǒng)接收到查詢(xún)后,調(diào)用相應(yīng)的搜索引擎。
  • 執(zhí)行完畢后,利用語(yǔ)言模型整合執(zhí)行結(jié)果,并向用戶(hù)輸出推薦結(jié)果。

在這四步中,每步都構(gòu)建了對(duì)應(yīng)的 SFT(Supervised Fine-Tuning)數(shù)據(jù),即微調(diào)數(shù)據(jù)。研究團(tuán)隊(duì)采用了他們提出的 RLPF(Reinforced Learning with Policy Feedback)訓(xùn)練方法,對(duì) Llama 模型進(jìn)行了微調(diào)。需要注意的是,這里指的是 Llama 2 模型,當(dāng)時(shí)該模型的參數(shù)規(guī)模為 7B,而非 8B,因此他們微調(diào)的是一個(gè)相對(duì)較小量級(jí)的語(yǔ)言模型。

圖片

該方法并未改變對(duì)話(huà)式推薦系統(tǒng)的產(chǎn)品形態(tài),仍然采用簡(jiǎn)單的一問(wèn)一答方式進(jìn)行交互,未能充分利用語(yǔ)言模型(LLM)背后潛在的復(fù)雜規(guī)劃、記憶和工具調(diào)用能力。

圖片

五、AI Agent 時(shí)代

接下來(lái)終于來(lái)到了備受關(guān)注的人工智能代理(AI Agent)時(shí)代。在智能體時(shí)代,推薦系統(tǒng)應(yīng)當(dāng)實(shí)現(xiàn)的功能是什么?可以發(fā)現(xiàn),無(wú)論是進(jìn)行列表式推薦、傳統(tǒng)推薦還是對(duì)話(huà)式推薦,當(dāng)詢(xún)問(wèn)當(dāng)前的工作重點(diǎn)時(shí),最普遍的回答是正在開(kāi)發(fā) AI Agent。因此,可以看出不同路徑最終都匯聚到了同一個(gè)目標(biāo):打造一個(gè)個(gè)性化的智能助手,以幫助用戶(hù)解決復(fù)雜需求。理想情況下,用戶(hù)無(wú)需明確表達(dá),智能助手便能洞悉其潛在意圖,這是我們追求的最佳狀態(tài)。

圖片

因此,要實(shí)現(xiàn)此目標(biāo),需要借助語(yǔ)言模型的五大智能代理能力:

  • 首先是多模態(tài)理解能力,這可能包括文本、圖片、視頻和語(yǔ)音等多種輸入形式,其他講師也可能討論類(lèi)似的內(nèi)容。
  • 其次,是規(guī)劃能力,涵蓋簡(jiǎn)單的推理、任務(wù)分解和反思。
  • 此外,還需要一個(gè)記憶模塊,該模塊應(yīng)具備個(gè)性化特征,存儲(chǔ)用戶(hù)畫(huà)像、用戶(hù)交互歷史(如點(diǎn)擊記錄)以及之前的對(duì)話(huà)歷史。
  • 同時(shí),還需具備工具調(diào)用能力,即傳統(tǒng)的搜索引擎、推薦系統(tǒng)以及其他所有 API 都可以為大型模型提供 API 調(diào)用服務(wù)。這大大擴(kuò)展了語(yǔ)言模型能夠執(zhí)行的任務(wù)范圍,顯著增強(qiáng)了其能力。
  • 接下來(lái)是執(zhí)行能力,智能代理需要決定當(dāng)前是執(zhí)行工具調(diào)用、排序、反饋還是回答問(wèn)題,并為用戶(hù)提供反饋,從而完成整個(gè)循環(huán)。

這些是單個(gè)智能代理必須具備的五大能力。當(dāng)然,智能代理之間也可以相互協(xié)作,形成多智能代理交互系統(tǒng),主要用于用戶(hù)意圖模擬。由于用戶(hù)意圖可能較為復(fù)雜,可能需要將多個(gè)智能代理組合起來(lái),共同模擬用戶(hù)的潛在意圖。

圖片

接下來(lái),將介紹一個(gè)具有代表性的單一智能體方案,這是中國(guó)科學(xué)技術(shù)大學(xué)(中科大)在 ARCHIVE 上發(fā)表的研究工作。選擇介紹這項(xiàng)工作是因?yàn)樗^為完整,涵蓋了前文提到的幾個(gè)關(guān)鍵部分。具體來(lái)說(shuō),當(dāng)用戶(hù)提出一個(gè)查詢(xún)(query)時(shí),系統(tǒng)會(huì)利用個(gè)性化記憶模塊。觀(guān)察該記憶模塊,可以發(fā)現(xiàn)它包含了用戶(hù)的長(zhǎng)期和短期興趣,以及用戶(hù)的喜好信息,即用戶(hù)喜歡或不喜歡的內(nèi)容都被納入其中。

基于當(dāng)前的記憶狀態(tài)和用戶(hù)的查詢(xún),系統(tǒng)需要進(jìn)行動(dòng)態(tài)演示(Dynamic Demo),進(jìn)行簡(jiǎn)單的規(guī)劃,并通過(guò)動(dòng)態(tài)演示進(jìn)行上下文學(xué)習(xí)(in-context learning)。隨后,系統(tǒng)生成一個(gè)規(guī)劃,決定首先調(diào)用哪個(gè)工具,然后是另一個(gè)工具。在工具庫(kù)中,系統(tǒng)可以調(diào)用 SQL 檢索、排序以及搜索等工具。選擇一個(gè)工具執(zhí)行后,系統(tǒng)會(huì)獲取執(zhí)行結(jié)果,并反思是否已經(jīng)滿(mǎn)足了用戶(hù)的需求。如果需求未得到滿(mǎn)足,系統(tǒng)將進(jìn)行新一輪的規(guī)劃,以迭代和自適應(yīng)的方式解決用戶(hù)的問(wèn)題。

這項(xiàng)工作涵蓋了智能體所需的各個(gè)模塊,因此是一個(gè)較為完整的研究。然而,其創(chuàng)新性可能相對(duì)有限。此外,關(guān)于用戶(hù)偏好,推薦系統(tǒng)的核心目標(biāo)是學(xué)習(xí)用戶(hù)行為背后的意圖,包括用戶(hù)的偏好和個(gè)性。

圖片

在某些情況下,單一智能體可能無(wú)法完成任務(wù),因此出現(xiàn)了多智能體交互方案。例如,復(fù)旦大學(xué)提出的 RAH 模型,設(shè)計(jì)了五個(gè)智能體共同完成建模用戶(hù)偏好的任務(wù)。第一個(gè),理解智能體:該智能體接收當(dāng)前物品信息,并補(bǔ)充相應(yīng)的物品信息,利用語(yǔ)言模型內(nèi)部的額外信息進(jìn)行補(bǔ)充。第二個(gè),學(xué)習(xí)智能體:基于當(dāng)前用戶(hù)行為序列,輸出用戶(hù)可能喜歡的類(lèi)別,學(xué)習(xí)用戶(hù)的興趣偏好。第三個(gè),執(zhí)行智能體:根據(jù)當(dāng)前的偏好和歷史行為,預(yù)測(cè)目標(biāo)物品,判斷用戶(hù)可能喜歡或不喜歡,進(jìn)行二元預(yù)測(cè)。第四個(gè),評(píng)判智能體:評(píng)估之前的執(zhí)行結(jié)果,與真實(shí)情況(ground truth)比較,判斷預(yù)測(cè)結(jié)果的正確與否,并分析原因。第五個(gè),反思智能體:根據(jù)分析的原因更新之前學(xué)到的知識(shí),形成整個(gè)學(xué)習(xí)鏈條。

該模型未使用傳統(tǒng)訓(xùn)練方法,而是直接利用多個(gè)智能體進(jìn)行提示(prompt)來(lái)完成任務(wù)。最終使用時(shí),只需提供一個(gè)執(zhí)行智能體,給定目標(biāo)物品和用戶(hù)行為序列,即可挖掘用戶(hù)可能的偏好和個(gè)性,并預(yù)測(cè)用戶(hù)對(duì)當(dāng)前物品的喜好。

此外,該模型還可以作為用戶(hù)模擬器使用。例如,在設(shè)計(jì)新算法時(shí),若不希望立即進(jìn)行上線(xiàn)測(cè)試,因?yàn)槌杀据^高,可以先與模擬器交互,觀(guān)察模擬效果。這是該模型的另一種應(yīng)用方式。

圖片

六、未來(lái)發(fā)展趨勢(shì)

我們總結(jié)了未來(lái)推薦的四大發(fā)展趨勢(shì)。

首先,我們認(rèn)為未來(lái)將從瀏覽向體驗(yàn)轉(zhuǎn)變。過(guò)去我們依賴(lài)于簡(jiǎn)單的列表式或?qū)υ?huà)式接口,而未來(lái)可能會(huì)采用多模態(tài)接口,例如語(yǔ)音、視頻乃至虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)接口。整個(gè)形態(tài)可能會(huì)以個(gè)人助手的形式出現(xiàn),以滿(mǎn)足用戶(hù)需求,這可能不再是傳統(tǒng)的推薦產(chǎn)品形態(tài)。

其次,從利用向責(zé)任轉(zhuǎn)變。我們可能需要構(gòu)建更公平可靠的基礎(chǔ)模型,以消除互聯(lián)網(wǎng)語(yǔ)料中可能存在的偏見(jiàn)或偏差,同時(shí)需要具備較強(qiáng)的可解釋性,這是我們未來(lái)需要實(shí)現(xiàn)的目標(biāo)。

第三,從理解向認(rèn)知轉(zhuǎn)變。之前我們主要預(yù)測(cè)用戶(hù)可能喜歡或不喜歡的行為,而未來(lái)可能會(huì)轉(zhuǎn)向認(rèn)知預(yù)測(cè),即探究當(dāng)前行為背后的邏輯,建模用戶(hù)背后的認(rèn)知模型,這可能是一個(gè)發(fā)展方向,以理解用戶(hù)背后的深層次動(dòng)機(jī)。

最后,從產(chǎn)品向生態(tài)轉(zhuǎn)變。目前每個(gè)產(chǎn)品都有自己的獨(dú)立領(lǐng)域,未來(lái)我們可能認(rèn)為需要構(gòu)建跨平臺(tái)的推薦服務(wù)生態(tài),將所有推薦服務(wù)整合在一起,形成一個(gè)服務(wù)生態(tài)。這自然涉及到人工智能、內(nèi)容管控等相關(guān)事宜。

圖片

以上就是本次介紹的主要內(nèi)容,謝謝大家。

七、Q&A

Q1:您好,關(guān)于推薦系統(tǒng)模型與大型語(yǔ)言模型的結(jié)合,我注意到您之前有所涉及。請(qǐng)問(wèn)這種結(jié)合最終的模型是用于 CTR(點(diǎn)擊通過(guò)率)模型還是生成式模型?與您剛才提到的 KAR 相比,它與現(xiàn)有的 CTR 推薦模型是如何聯(lián)合使用的?因?yàn)橥扑]模型的稀疏表和密集表之間的差距可能達(dá)到 4 個(gè)數(shù)量級(jí),甚至更多?您是如何將大型語(yǔ)言模型與推薦模型相結(jié)合的?這種結(jié)合的效果似乎還不錯(cuò),是嗎?

A1:目前這兩種方法都有應(yīng)用。剛才介紹的 KAR 仍然是在傳統(tǒng)推薦框架下進(jìn)行 CTR 預(yù)估的,大型語(yǔ)言模型實(shí)際上作為一個(gè)特征增強(qiáng)器。它可以作為一個(gè)額外的特征,例如簡(jiǎn)單地給用戶(hù)打標(biāo)或提取一些物品的額外文本特征,然后我們獲得嵌入向量。正如您提到的,它可能的量級(jí)較大,因此我們會(huì)涉及一個(gè)適配器(Adapter),將高維映射到低維,最終可能與推薦系統(tǒng)中其他特征具有相同維度的表征向量。這相當(dāng)于為模型增加了一些額外的特征,然后直接輸入給傳統(tǒng)推薦模型,這是一個(gè)非常簡(jiǎn)單的思路。

我們也在探索大型推薦模型的 scaling law。目前還在探索中,沒(méi)有得出明確的結(jié)論,至少?zèng)]有獲得非常大的正向收益。我個(gè)人分析可能與數(shù)據(jù)強(qiáng)相關(guān)。Meta 的數(shù)據(jù)可能主要是自然語(yǔ)言,且體量較大,但我們的場(chǎng)景可能較為稀疏,因此可能難以擴(kuò)展。我們也在探索是否可以將所有推薦領(lǐng)域的語(yǔ)料以某種形式統(tǒng)一起來(lái),使整個(gè)數(shù)據(jù)量擴(kuò)展。這可能需要一種較好的組織形式,我們正在探索。我個(gè)人持積極態(tài)度,因?yàn)橛?xùn)練大型模型的兩個(gè)關(guān)鍵點(diǎn)是模型架構(gòu)和數(shù)據(jù),這兩個(gè)條件滿(mǎn)足后,我們應(yīng)該能夠擴(kuò)展。推薦系統(tǒng)中可能并非 Transformer 是最優(yōu)架構(gòu),我們可能還有一些探索空間。另外,數(shù)據(jù)方面,我們可能真的需要跨平臺(tái)、跨模態(tài)地整合這些數(shù)據(jù),當(dāng)數(shù)據(jù)量真正上去后,我認(rèn)為還是有可能學(xué)到一些潛在的底層邏輯或模式,所以我持積極態(tài)度。謝謝您的問(wèn)題。

Q2:請(qǐng)問(wèn),之前在 PPT 中提到在音樂(lè)推薦系統(tǒng)中,通過(guò)使用大型語(yǔ)言模型(LM)提升了兩個(gè)點(diǎn)的準(zhǔn)確率,具體是指生態(tài)項(xiàng)的收益還是消費(fèi)項(xiàng)的收益?生態(tài)項(xiàng)可能涉及長(zhǎng)尾或新穎歌曲的推廣,而消費(fèi)項(xiàng)可能涉及規(guī)模項(xiàng)。我理解將 LM 特征融入推薦系統(tǒng)相當(dāng)于為用戶(hù)序列或項(xiàng)目序列增加了一個(gè)輔助信息特征,那么為什么將 LM 特征作為輔助信息之一能夠帶來(lái)如此顯著的提升?是直接進(jìn)行了拼接操作,還是進(jìn)行了其他一些融合操作,例如 SE 網(wǎng)絡(luò)?最終這個(gè)文本狀態(tài)是如何作為嵌入向量進(jìn)入推薦系統(tǒng)的?

A2:應(yīng)該是消費(fèi)項(xiàng)的收益,因?yàn)槲覀儧](méi)有專(zhuān)門(mén)針對(duì)長(zhǎng)尾歌曲進(jìn)行優(yōu)化,整體指標(biāo)提升了兩個(gè)點(diǎn),涉及所有用戶(hù)和項(xiàng)目增強(qiáng)。對(duì)于冷啟動(dòng)用戶(hù)來(lái)說(shuō),效果更為顯著。我們的分析發(fā)現(xiàn),最大的提升實(shí)際上來(lái)自用戶(hù)側(cè)。我們提供了用戶(hù)的歷史行為數(shù)據(jù),實(shí)際上是讓模型去推理用戶(hù)可能喜歡的類(lèi)別。簡(jiǎn)單來(lái)說(shuō),就是喜歡的類(lèi)別。我們稱(chēng)之為邏輯推理能力或歸納能力,這可能是傳統(tǒng)推薦模型難以學(xué)習(xí)的,但語(yǔ)言模型可以根據(jù)其語(yǔ)義信息進(jìn)行推理,因此這部分收益較大。紫色線(xiàn)相比藍(lán)色線(xiàn)的提升表明,它可能對(duì)用戶(hù)較長(zhǎng)的行為序列中的關(guān)聯(lián)關(guān)系,直接從語(yǔ)義角度提取出可能的背后的邏輯和用戶(hù)可能喜歡的類(lèi)別,這可能是有用的。它是一個(gè)文本狀態(tài),即語(yǔ)言模型的輸出實(shí)際上是兩段文本。

Q3:請(qǐng)問(wèn)您能否解答關(guān)于大模型時(shí)代下推薦系統(tǒng)衡量維度的問(wèn)題?在這個(gè)維度下,您會(huì)如何分配權(quán)重?也就是說(shuō),您如何評(píng)價(jià)一個(gè)推薦系統(tǒng)是否先進(jìn)或優(yōu)秀?我們是否會(huì)有一個(gè)矩陣或分布圖來(lái)展示這些權(quán)重?

A3:您所指的維度是指評(píng)價(jià)指標(biāo)嗎?是的,我們目前的評(píng)價(jià)指標(biāo)實(shí)際上仍然是推薦系統(tǒng)中常見(jiàn)的幾個(gè),即線(xiàn)上的點(diǎn)擊率或 eCPM(每千次展示的收入),這些是傳統(tǒng)的評(píng)價(jià)指標(biāo)。我們沒(méi)有使用復(fù)雜的方法,而是直接上線(xiàn)觀(guān)察與傳統(tǒng)方法相比是否有所提升,主要還是看收入這一指標(biāo)。

您是否提到了類(lèi)似于多任務(wù)或多優(yōu)化目標(biāo)的推薦系統(tǒng)?對(duì)于這類(lèi)系統(tǒng),我們會(huì)根據(jù)不同的業(yè)務(wù)場(chǎng)景分配不同的權(quán)重,因此是一個(gè)加權(quán)的框架。以我們的音樂(lè)推薦為例,我們主要關(guān)注的是用戶(hù)的聽(tīng)歌時(shí)長(zhǎng),這并不是一個(gè)多任務(wù)的問(wèn)題。

Q4:是否可以進(jìn)一步詢(xún)問(wèn)一個(gè)問(wèn)題?我想問(wèn)的是推薦系統(tǒng)與大語(yǔ)言模型之間的關(guān)系。目前是將大語(yǔ)言模型作為核心還是作為一種補(bǔ)充?即是以大模型為核心的推薦系統(tǒng),還是將大模型作為功能嵌入到推薦系統(tǒng)中?

A4:這是一個(gè)非常好的問(wèn)題。我們目前也在做出決策,目前能夠上線(xiàn)的有用的系統(tǒng)都是將大模型作為一種工具,仍然以傳統(tǒng)推薦流程為主。同時(shí),我們也在探索下一代推薦系統(tǒng)應(yīng)該是什么樣子。領(lǐng)導(dǎo)一直在詢(xún)問(wèn)下一代推薦系統(tǒng)應(yīng)該是什么樣子,我們也在探索大型模型是否可以直接承擔(dān)推薦任務(wù),從而打破現(xiàn)有的推薦產(chǎn)品形態(tài)。但目前我們還沒(méi)有得到一個(gè)積極的答案,因此目前仍然在傳統(tǒng)推薦系統(tǒng)框架內(nèi)進(jìn)行探索。是的,仍然是嵌入的方式。謝謝,感謝大家,感謝各位,時(shí)間。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2023-10-11 07:20:17

2023-04-26 07:56:45

大模型機(jī)器學(xué)習(xí)

2024-06-26 19:18:53

2022-06-17 11:54:17

數(shù)據(jù)模型系統(tǒng)

2024-10-08 16:53:45

2024-11-25 08:20:22

2024-07-22 09:10:04

大語(yǔ)言模型推薦系統(tǒng)人工智能

2023-10-07 07:24:58

2023-09-28 21:46:10

2024-02-28 08:20:25

推薦系統(tǒng)大模型ChatGPT

2013-05-06 14:04:29

PON通信技術(shù)無(wú)源光網(wǎng)絡(luò)

2025-03-20 14:30:02

2022-08-08 07:03:08

推薦系統(tǒng)架構(gòu)

2017-10-25 13:23:36

互聯(lián)網(wǎng)產(chǎn)品推薦系統(tǒng)技術(shù)演進(jìn)

2017-03-14 10:06:11

DevOps演進(jìn)案例

2024-02-21 19:00:12

2023-01-11 18:34:22

推薦精排模型

2021-07-07 10:00:03

深度學(xué)習(xí)系統(tǒng)機(jī)構(gòu)

2024-07-09 11:01:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)