自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agent4Rec來了!大模型智能體構(gòu)成推薦系統(tǒng)模擬器,模擬真實用戶交互行為

人工智能 新聞
來自新加坡國立大學(xué) NExT++ 實驗室團隊構(gòu)建了 Agent4Rec,一個由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。

一直以來,推薦系統(tǒng)領(lǐng)域面臨模型線上線下效果差距大的痛點問題,昂貴的線上 A/B 測試成本使得廣大研究人員望而卻步,也造成學(xué)術(shù)界的推薦系統(tǒng)研究與工業(yè)界的實際應(yīng)用間的巨大割裂。隨著大語言模型展現(xiàn)出類人的邏輯推理和理解能力,基于大語言模型的智能體(Agent)能否模擬真實用戶的交互行為,從而構(gòu)建一個可靠的虛擬推薦 A/B 測試場景,以幫助推薦研究的應(yīng)用落地,是一個急迫、重要且極具經(jīng)濟價值的問題。

為了回答這個問題,來自新加坡國立大學(xué) NExT++ 實驗室團隊構(gòu)建了 Agent4Rec,一個由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。這些 agent 由真實用戶初始化,由 ChatGPT-3.5 驅(qū)動,根據(jù)用戶喜好與特質(zhì),對封裝的不同推薦算法和其推薦的電影做出個性化反應(yīng)。這些個性化反應(yīng)模擬真實用戶在推薦系統(tǒng)中的行為,包括觀看或拒看電影,給電影評分,翻到下一頁電影推薦列表,疲倦度估計,因不滿意或疲憊退出推薦系統(tǒng),給推薦算法進行評價等。廣泛的實驗評估表明,Agent4Rec 里的 agent 能大概率反映真實世界的用戶行為。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.10108
  • 代碼鏈接:https://github.com/LehengTHU/Agent4Rec

1.Agent4Rec 平臺構(gòu)建

圖片

Agent4Rec 中的每一個用戶,也即 agent,由 profile module、memory module、action module 構(gòu)成。作者使用 MovieLens-1m 中的真實用戶數(shù)據(jù)初始化 agent 檔案。根據(jù)用戶的歷史交互生成 agent 的電影偏好,根據(jù)用戶的歷史活躍度、從眾性和觀影多樣性生成 agent 的交互特征。

推薦系統(tǒng)將采取逐頁推薦的方式,根據(jù)特定的推薦算法向用戶推薦電影列表。仿照真實的手機 APP 推薦場景,每頁將展示 4 部電影。每部電影的信息包括電影名、歷史評分、電影簡介等。每個 agent 將根據(jù)自身的電影喜好、疲憊程度以及個人記憶對推薦的電影做出反應(yīng),如觀看或評價電影。同時,歷史推薦內(nèi)容和 agent 行為將被存儲在記憶中,agent 通過 reflection 的方式總結(jié)對推薦系統(tǒng)的滿意度和自身的疲憊程度。Agent 在每一頁推薦結(jié)束后,都根據(jù)自身滿意度和疲倦度,選擇翻到下一頁或者退出推薦系統(tǒng)。在用戶退出系統(tǒng)之后,采訪用戶退出推薦系統(tǒng)的原因和對推薦電影的評價。

2.Agent 行為模擬真實性檢驗

用大語言模型智能體模擬人類行為最關(guān)鍵的問題,在于評估 agent 能夠多大程度的模擬用戶的真實喜好。Agent4Rec 在推薦場景下首次給出了一個實驗級別的回答。

為了衡量用戶的電影喜好能否被 agent 正確捕捉,作者首先讓 agent 對用戶交互過的測試集中的電影和隨機采樣的負樣本電影進行喜愛與否判斷。結(jié)果表明,agent 能夠捕捉約 70% 的用戶喜好。

圖片

在驗證了 agent 的電影喜好合理性的基礎(chǔ)上,1000 個 agent 被投放到逐頁推薦場景下,agent 可以選擇提前退出推薦系統(tǒng),或在達到 5 頁之后強制退出,同時 Agent 對選擇觀看的電影進行 1 到 5 分的評分。下圖實驗結(jié)果表明 agent 的評分與真實數(shù)據(jù)中的用戶評分呈現(xiàn)分布一致性。

圖片

為了驗證 Agent4Rec 作為 A/B 測試平臺的可能性,作者將 5 個常見的推薦策略部署到 Agent4Rec 平臺,收集 agent 反饋(平均觀影比例、平均喜愛數(shù)、平均喜愛比例、平均退出頁數(shù)、用戶平均滿意度)。下表結(jié)果表明,基于算法的推薦系統(tǒng)(MF、MultVAE、LightGCN)表現(xiàn)大幅優(yōu)于基于策略的推薦系統(tǒng)(Random、Pop)。且總體而言,LightGCN 的表現(xiàn)優(yōu)于其他算法。這一結(jié)果證明,agent 能對不同的推薦系統(tǒng)的推薦結(jié)果進行分辨。在未來,一個精心設(shè)計的基于大語言模型的推薦系統(tǒng)模擬器或許能夠充當(dāng)理想的離線 A/B 測試平臺,并給出符合企業(yè)需求的用戶評價指標(biāo)。

圖片

仿照現(xiàn)實生活中推薦系統(tǒng)會根據(jù)用戶反饋進行更新的場景,作者在完成一輪推薦之后,將 agent 選擇的高分電影或未觀看的電影以正樣本加入訓(xùn)練集,重新訓(xùn)練推薦系統(tǒng),并將重新訓(xùn)練的推薦算法再次部署到 Agent4Rec 平臺。結(jié)果表明,將 agent 選擇的高分電影對推薦系統(tǒng)進行再訓(xùn)練,在離線指標(biāo)與模擬的 “在線” 指標(biāo)上均得到了提升。而將 agent 不喜歡的電影作為數(shù)據(jù)增強則在大多數(shù)情況下起到了負向的效果。這從側(cè)面說明 agent 的行為與真實用戶行為對齊。

圖片

同時,推薦系統(tǒng)中的真實用戶往往具有不同的特質(zhì),如活躍性、從眾性和觀影多樣性等。作者根據(jù)數(shù)據(jù)集中用戶的不同統(tǒng)計信息,將 agent 在每個特質(zhì)上分為 3 組并給出不同的用戶畫像。在模擬完成后,收集 agent 的交互次數(shù)、agent 評分與用戶歷史評分的均方誤差、agent 交互電影種類數(shù)這三個指標(biāo),作為 agent 活躍性、從眾性、觀影多樣性特質(zhì)衡量。實驗結(jié)果表明,在三個組間 agent 的平均表現(xiàn)符合預(yù)期,存在顯著差異。

圖片

在個體層面,agent 的表現(xiàn)也與真實用戶呈現(xiàn)一致性。以下圖中的用戶觀影多樣性為例,每個用戶的真實觀影種類數(shù)與 Agent4Rec 中的 agent 所觀看的電影種類數(shù)呈現(xiàn)一致趨勢。

圖片

作者還通過消融實驗研究了不同特質(zhì)初始化對 agent 行為起到的作用。下述實驗結(jié)果表明,沒有個性化的特質(zhì)初始化,agent 的行為呈現(xiàn)趨同,與現(xiàn)實生活中的真實用戶行為長尾分布有別。

3. 探索推薦系統(tǒng)中尚未解決的問題

獲得一個真實的推薦系統(tǒng)模擬器,將極大地幫助推薦研究工作的推進。鑒于 Agent4Rec 對用戶較大程度的真實行為模擬,作者探索了兩個有意思的待解決問題。

首先,作者利用 Agent4Rec 平臺收集多維度推薦數(shù)據(jù),探究推薦系統(tǒng)中潛在的因果關(guān)系。作者選取 5 個推薦系統(tǒng)中常見的變量:電影質(zhì)量、電影流行度、電影曝光率、電影瀏覽量、電影評分,通過 DirectLiNGAM 建模一個帶權(quán)有向無環(huán)因果圖,分析這 5 個變量間的因果關(guān)系。下述因果圖的左半部分說明,電影評分只受電影質(zhì)量與電影流行度的正向影響。因果圖的右半部分說明電影的質(zhì)量和流行度將共同影響電影的曝光率,進而影響電影被點擊次數(shù)。這反映了推薦系統(tǒng)中的的流行度偏差效應(yīng):更流行的物品被更多曝光,進一步導(dǎo)致物品流行度環(huán)路放大效應(yīng)。

圖片

作者還進一步探究了推薦系統(tǒng)中信息繭房問題。作者不斷將 agent 選擇的物品作為正樣本加入訓(xùn)練集,訓(xùn)練新的推薦算法并收集 agent 反饋。隨著模擬與重新訓(xùn)練的輪數(shù)增多,推薦系統(tǒng)對個體用戶推薦的第一大類電影的比例逐漸上升,且推薦系統(tǒng)對個體用戶推薦的平均電影種類數(shù)下降。這一現(xiàn)象表明,用戶接受的信息種類將在推薦算法的干預(yù)下越來越單一。

圖片

4. 總結(jié)與展望

本篇工作探索了基于大語言模型的智能體(Agent)模擬真實推薦場景下用戶行為的可能性。盡管大語言模型仍存在諸如幻覺在內(nèi)的種種問題,但 Agent4Rec 上的多智能體仍在多個方面展現(xiàn)出了和真實用戶群體一致的行為。期待在未來,一個精心設(shè)計的基于大語言模型的 agent 平臺,能夠足夠真實地模擬推薦場景的各個維度,為學(xué)術(shù)界和工業(yè)界的研究提供更多便利。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-12-30 14:21:54

2024-11-14 14:50:00

AI智能體

2009-09-14 09:59:19

CCNA模擬器介紹CCNA

2024-07-17 16:59:51

AI訓(xùn)練

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2024-05-29 12:13:50

2019-02-20 11:24:27

Linux 開源操作系統(tǒng)

2021-02-15 10:32:06

C#Selenium網(wǎng)頁

2023-10-12 16:37:36

模型學(xué)習(xí)

2009-09-04 16:05:08

2013-07-25 14:35:27

2013-01-25 15:29:14

s40Series 40

2009-05-04 08:51:00

PalmWebOS移動OS

2011-07-26 09:32:08

iPhone 模擬器

2009-09-17 09:11:59

CCNA實驗?zāi)M器CCNA

2010-01-27 13:37:15

2012-03-07 15:03:57

模擬器智能手機游戲

2011-02-25 17:30:52

2024-12-12 08:42:25

點贊
收藏

51CTO技術(shù)棧公眾號