自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么?推薦系統(tǒng)未必?cái)?shù)據(jù)越多,效果越好! 原創(chuàng)

發(fā)布于 2025-1-17 08:14
瀏覽
0收藏

推薦系統(tǒng)自 1992 年基于用戶的協(xié)同過濾算法誕生以來,經(jīng)歷了一波又一波的革新大潮,發(fā)展至今,已經(jīng)形成了一套體系完善,理論嚴(yán)密的技術(shù)領(lǐng)域。隨著越來越多的基于深度學(xué)習(xí)的推薦系統(tǒng)模型誕生,該領(lǐng)域關(guān)于準(zhǔn)確率的追求似乎已經(jīng)不再吸引人們的眼球。相反,越來越多的人開始關(guān)注其他熱點(diǎn)技術(shù),比如大模型算法。

2023 年,來自澳大利亞 RMIT 大學(xué)的 Yueqing Xuan 等研究人員在 arXiv 上公布了一篇題為 More Is Less: When Do Recommenders Underperform for Data-rich Users? 的論文,指出推薦系統(tǒng)未必?cái)?shù)據(jù)越多效果越好。這和最近熱潮的大模型 Scaling Law 之類的理論形成了鮮明對比。下面,我們帶領(lǐng)讀者對該篇論文的理論和實(shí)驗(yàn)一探究竟。

因?yàn)檫@篇論文主要通過實(shí)驗(yàn)來檢驗(yàn)數(shù)據(jù)量和對應(yīng)算法的效果的對比情況。我們先來了解一下實(shí)驗(yàn)中用到的數(shù)據(jù)和算法。在實(shí)驗(yàn)中,我們用到了如下數(shù)據(jù)集合:

什么?推薦系統(tǒng)未必?cái)?shù)據(jù)越多,效果越好!-AI.x社區(qū)

在這個(gè)表格中,|U| 代表用戶數(shù),|I| 代表物品數(shù),|K| 代表評分?jǐn)?shù)量。作者在實(shí)驗(yàn)中用到的都是推薦系統(tǒng)領(lǐng)域經(jīng)常用到的開源數(shù)據(jù)集合。

作者在實(shí)驗(yàn)中主要檢測了如下算法:ItemKNN , Bayesian Personalised Ranking (BPR)  , Multi-Variational Auto-encoder (Mult-VAE) , Neural Matrix Factorization (NeuMF) , Light Graph Convolution Network (LightGCN) 和 ADMMSLIM 。 作者使用了開源推薦系統(tǒng)算法庫 RecBole 進(jìn)行對比實(shí)驗(yàn)。

作者按照用戶交互數(shù)據(jù)的豐富程度,把輸入數(shù)據(jù)分成了十份,然后按照八二比率把數(shù)據(jù)切分成了訓(xùn)練集和測試集。例如,MovieLens 1 M的數(shù)據(jù)集合的劃分如下圖所示:

什么?推薦系統(tǒng)未必?cái)?shù)據(jù)越多,效果越好!-AI.x社區(qū)

作者在 Pinterest 數(shù)據(jù)集合上進(jìn)行了對比測試:

什么?推薦系統(tǒng)未必?cái)?shù)據(jù)越多,效果越好!-AI.x社區(qū)

作者隨后也在 MovieLens 1M 數(shù)據(jù)集合上進(jìn)行了評測,得到了下圖:

什么?推薦系統(tǒng)未必?cái)?shù)據(jù)越多,效果越好!-AI.x社區(qū)

通過進(jìn)行大量的類比實(shí)驗(yàn)和結(jié)果可視化,作者得出了以下結(jié)論:在所有數(shù)據(jù)集上,交互豐富的數(shù)據(jù)類型的精確度(Precision)比其他組要高;Mean Average Precision 指標(biāo)在各個(gè)群組卻沒有太大的區(qū)分度;而對于召回率(Recall)來說,數(shù)據(jù)越豐富,算法表現(xiàn)卻越差。

這篇論文的作者沒有用到任何高深的數(shù)學(xué)知識或者工具,只是利用最普通的數(shù)學(xué)分析的方法對算法的結(jié)果進(jìn)行統(tǒng)計(jì)并用最簡單的圖形圖像工具進(jìn)行可視化,從而得到了推薦系統(tǒng)不是數(shù)據(jù)越多越好的重要結(jié)論,值得推薦系統(tǒng)從業(yè)者認(rèn)真學(xué)習(xí)。

我們在互聯(lián)網(wǎng)行業(yè)從事算法相關(guān)的工作的時(shí)候,除了完成公司制定的 KPI / OKR 指標(biāo)之外,還應(yīng)該靜下心來思考算法的理論基礎(chǔ)和復(fù)雜模型背后的原理。這樣才能從各個(gè)方面深入的理解算法,從而有助于我們設(shè)計(jì)出更加優(yōu)秀的技術(shù)作品,既滿足了工作的需要,也能在學(xué)術(shù)上給相關(guān)領(lǐng)域帶來推動(dòng)作用。

作者簡介

汪昊,前達(dá)評奇智董事長兼創(chuàng)始人。前 FunPlus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。在 ThoughtWorks, 百度,聯(lián)想,網(wǎng)易和 FunPlus 等科技公司有超過 13 年的技術(shù)和技術(shù)管理經(jīng)驗(yàn)。精通推薦系統(tǒng)、金融風(fēng)控、爬蟲和聊天機(jī)器人等領(lǐng)域。在國際學(xué)術(shù)會議和期刊發(fā)表論文 44 篇。5 次獲得國際學(xué)術(shù)會議最佳論文獎(jiǎng)和最佳論文報(bào)告獎(jiǎng)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。2004 年全國大學(xué)生英語能力競賽口語總決賽銅牌。本科(2008年)和碩士(2010年)畢業(yè)于美國猶他大學(xué)。對外經(jīng)貿(mào)大學(xué)(2016 年)在職 MBA 學(xué)位。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦