自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推薦系統(tǒng)中的 Scaling Law : 看特征維度如何影響推薦系統(tǒng)準(zhǔn)確性

譯文
開(kāi)發(fā) 前端
推薦系統(tǒng)在互聯(lián)網(wǎng)行業(yè)應(yīng)用廣泛。根據(jù)亞馬遜和Netflix 等公司的經(jīng)驗(yàn),推薦系統(tǒng)可以給公司帶來(lái)大幅度的流量提升,從而起到開(kāi)源節(jié)流的作用。

譯者 | 汪昊

審校 | 重樓

推薦系統(tǒng)在互聯(lián)網(wǎng)行業(yè)應(yīng)用廣泛。根據(jù)亞馬遜和Netflix 等公司的經(jīng)驗(yàn),推薦系統(tǒng)可以給公司帶來(lái)大幅度的流量提升,從而起到開(kāi)源節(jié)流的作用。試想如果不借助于推薦系統(tǒng),而是借助于搜索引擎關(guān)鍵詞進(jìn)行引流,那么營(yíng)銷的花費(fèi)將增加數(shù)倍乃至數(shù)百倍都有可能。因此,大型互聯(lián)網(wǎng)公司對(duì)于推薦系統(tǒng)不管怎么重視都不為過(guò)。

業(yè)界對(duì)于推薦系統(tǒng)的研究,主要集中在如何提升推薦系統(tǒng)的準(zhǔn)確率方面。隨著近年來(lái)大模型的火熱,在信息檢索頂會(huì)上,曾經(jīng)出現(xiàn)研究大模型 Scaling Law 的文章獲得最佳論文獎(jiǎng)的情況。而推薦系統(tǒng)領(lǐng)域在 2023 年也出現(xiàn)了一篇類似的文章,講的是推薦系統(tǒng)矩陣分解模型中特征向量的維度的大小對(duì)于準(zhǔn)確率的影響。這篇論文題目是 Curse of Low Dimensionality in Recommender System,發(fā)表在信息檢索領(lǐng)域頂會(huì)SIGIR 2023 上。下面我們來(lái)一探這篇論文的究竟。

作者首先給出了推薦系統(tǒng)點(diǎn)乘模型的一般公式:

其中

是用戶側(cè)的嵌入式向量,而

是物品側(cè)的嵌入式向量。推薦系統(tǒng)點(diǎn)乘模型的一個(gè)典型例子是 Alternating Least Squares (ALS)。這個(gè)算法被集成在了 Apache Spark 的 MLLib 算法庫(kù)里。作者在本文中將在 MovieLens 20M,Million Song Dataset 和 Epinions 數(shù)據(jù)集上測(cè)試 ALS 算法,以考察嵌入式向量的維度對(duì)于推薦系統(tǒng)準(zhǔn)確率的影響。

作者通過(guò)對(duì)比實(shí)驗(yàn)檢驗(yàn)流行度偏差,得到了下圖:

隨后,作者檢驗(yàn)了算法的召回率,得到了下圖:

作者通過(guò)實(shí)驗(yàn)觀察得到結(jié)論,高維度的嵌入式表達(dá)可以得到更高的準(zhǔn)確度和更低的流行度偏差。

作者隨后對(duì)于嵌入式表達(dá)進(jìn)行了理論建模,得到了以下定理:

定理 4.1 以下結(jié)論成立:

  1. 上界:對(duì)于每一組在空間的 n 個(gè)物品向量來(lái)說(shuō),能利用這些向量表示的長(zhǎng)度為 K 的排序列表數(shù)量至多數(shù) 。
  2. 存在一組在空間的物品向量,這組向量的數(shù)量是 n,能利用這組向量來(lái)表示的長(zhǎng)度為 d 的排序列表數(shù) 。

以上定理表明增加嵌入式向量維度,會(huì)指數(shù)級(jí)別的增強(qiáng)點(diǎn)乘模型的表達(dá)能力。

為了研究流行度偏差背后的機(jī)理,作者隨后又提出了如下定理:

定理 4.2 假定存在兩個(gè)物品集合 P 和 L,查詢向量 q 在點(diǎn)乘模型中總是將 P 集合中的物品排名優(yōu)于所有的L 集合中的物品。那么,如果一個(gè)向量 s 被包括在一個(gè)凸錐中,而這個(gè)凸錐又包含了 P 的凸包,那么 s 比 L 中的每一個(gè)物品排名都高。另外,這個(gè)凸錐會(huì)隨著更多物品的加入而變得更大

這個(gè)定理告訴我們因?yàn)榇嬖谝恍〈榱餍魏烷L(zhǎng)尾的物品,它們使得比較流形的物品排名優(yōu)于長(zhǎng)尾物品,降低了可表達(dá)的排序列表的數(shù)量,因此我們無(wú)法完全避免流行度偏差。

在本文中,作者根據(jù)實(shí)驗(yàn)和后續(xù)的理論分析指出低維嵌入式向量會(huì)導(dǎo)致關(guān)于流行度偏差的過(guò)擬合,并會(huì)進(jìn)一步加深流行度偏差的問(wèn)題。這一現(xiàn)象,被稱為低維度詛咒。作者的研究工作條理分明,除了大量的實(shí)驗(yàn)對(duì)比工作,還進(jìn)行了嚴(yán)謹(jǐn)?shù)睦碚摲治?,因此值得推薦系統(tǒng)行業(yè)的從業(yè)者認(rèn)真學(xué)習(xí)。

譯者簡(jiǎn)介

汪昊,前達(dá)評(píng)奇智董事長(zhǎng)兼創(chuàng)始人。前 FunPlus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。在 ThoughtWorks, 百度,聯(lián)想,網(wǎng)易和 FunPlus 等科技公司有超過(guò) 13 年的技術(shù)和技術(shù)管理經(jīng)驗(yàn)。精通推薦系統(tǒng)、金融風(fēng)控、爬蟲(chóng)和聊天機(jī)器人等領(lǐng)域。在國(guó)際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 44 篇。5 次獲得國(guó)際學(xué)術(shù)會(huì)議最佳論文獎(jiǎng)和最佳論文報(bào)告獎(jiǎng)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。2004 年全國(guó)大學(xué)生英語(yǔ)能力競(jìng)賽口語(yǔ)總決賽銅牌。本科(2008年)和碩士(2010年)畢業(yè)于美國(guó)猶他大學(xué)。對(duì)外經(jīng)貿(mào)大學(xué)(2016 年)在職 MBA 學(xué)位。

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2016-09-30 15:03:13

推薦系統(tǒng)算法

2019-12-12 19:07:55

物聯(lián)網(wǎng)技術(shù)軟件

2022-04-08 12:36:02

模型系統(tǒng)

2025-04-01 09:20:00

模型預(yù)測(cè)AI

2020-04-02 16:12:56

推薦系統(tǒng)CTR分流

2017-10-24 05:20:13

推薦系統(tǒng)數(shù)據(jù)算法

2024-06-26 19:18:53

2024-09-11 16:36:39

2022-08-19 10:27:39

系統(tǒng)模型

2022-06-22 10:33:06

麻省理工大學(xué)PaShUnix shell

2017-05-16 15:00:24

深度學(xué)習(xí)

2023-04-24 07:37:28

推薦算法項(xiàng)目

2018-08-08 13:30:59

推薦系統(tǒng)DeepFM算法

2019-04-23 09:00:00

機(jī)器學(xué)習(xí)排序?qū)W習(xí)人工智能

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2022-04-14 10:19:40

系統(tǒng)應(yīng)用技術(shù)

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2022-10-21 16:07:10

編碼器自然語(yǔ)言模型

2009-02-19 15:06:00

UbuntuOffice實(shí)用

2023-02-28 16:26:46

推薦系統(tǒng)模塊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)