自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手把手教你解決推薦系統(tǒng)中的位置偏差問題

原創(chuàng) 精選
開發(fā)
推薦系統(tǒng)最早的算法是 1992 年發(fā)明的協(xié)同過濾。自協(xié)同過濾算法誕生之日起,人們便與推薦系統(tǒng)中的各種不公平現(xiàn)象作斗爭。

作者 | 汪昊

審校 | 重樓

推薦系統(tǒng)最早的算法是1992 年發(fā)明的協(xié)同過濾。自協(xié)同過濾算法誕生之日起,人們便與推薦系統(tǒng)中的各種不公平現(xiàn)象作斗爭。雖然推薦系統(tǒng)中的不公平現(xiàn)象廣泛存在,并且嚴(yán)重影響了推薦系統(tǒng)的生態(tài)健康發(fā)展,這些現(xiàn)象真正引起人們關(guān)注卻要等到2017年之后。2017 在人類的人工智能發(fā)展歷程中有個里程碑事件,就是國際學(xué)術(shù)會議 FacCT 的創(chuàng)建。這個會議專門針對人工智能倫理,可以說把人工智能中的道德問題,包括推薦系統(tǒng)中的不公平性問題,暴露給了全世界的研究者。

那么問題來了,什么是推薦系統(tǒng)的不公平性?推薦系統(tǒng)作為一種算法,主要為用戶推薦它可能感興趣的物品。該算法會出現(xiàn)過度推銷熱門產(chǎn)品、在推薦列表頂部推薦的物品過熱等等一系列不公平問題。其中在推薦列表頂部推薦的物品過熱的問題,被稱為位置偏差問題(Position Bias Problem),引起了學(xué)者的廣泛關(guān)注。

我們利用正則化的方式來處理位置偏差問題。首先我們把矩陣分解算法作為原生算法。矩陣分解算法的損失函數(shù)定義如下:

矩陣分解的本質(zhì)就是利用降維手段修復(fù)原始矩陣中的缺失值。在損失函數(shù)的定義里,R 就是原始矩陣中已知的評分?jǐn)?shù)據(jù),U 是用戶特征向量,而 V 是物品特征向量。在實(shí)際的使用過程中,損失函數(shù)需要進(jìn)行處理才能使用。處理之后的損失函數(shù)如下:

經(jīng)過處理之后,算法可以避免數(shù)據(jù)出現(xiàn)異常值。我們可以從另外一個角度去看這個問題,我們可以認(rèn)為其實(shí)矩陣分解是保角降維運(yùn)算(Angle-preserving Dimensionality Reduction)。而 U 和 V 就是從高維空間降維處理過之后的向量空間。

我們假設(shè)在推薦系統(tǒng)中,系統(tǒng)給每個用戶都推薦了一個物品列表。這個物品列表中所有的物品都被排列上了。因此,最差的曝光情況就是一個物品被排在了列表最低端。所以,我們可以利用這一點(diǎn),設(shè)計出一個正則化項,用來懲罰損失函數(shù) L

其中position 是物品在推薦列表中的位置,而 m 是所有物品的數(shù)量。因?yàn)橥扑]列表中存在冪律效應(yīng),也就是越熱門的物品越容易出現(xiàn)在列表的上方,而這類物品用戶評分往往很高。因此我們把損失函數(shù) L 修正成如下的形式:

下面我們用隨機(jī)梯度下降方法來對損失函數(shù) L 進(jìn)行求解,得到了如下公式:

以及:

以上就是整個算法的流程。該算法由Ratidar Technologies LLC (北京達(dá)評奇智網(wǎng)絡(luò)科技有限責(zé)任公司) 發(fā)表于國際學(xué)術(shù)會議CECNet 2023。論文標(biāo)題為Mitigating Position Bias with

Regularization for Recommender Systems。論文可以在arXiv.org 上進(jìn)行下載:https://arxiv.org/ftp/arxiv/papers/2401/2401.16427.pdf 。

下面我們討論一下該算法在不同的數(shù)據(jù)集合上的表現(xiàn)作者采用了兩個不同的數(shù)據(jù)集合進(jìn)行算法測評:MovieLens 1 Million Dataset (6040 名用戶,3706 部電影) LDOS-CoMoDa Dataset (121 名用戶,1232 部電影)。算法測試結(jié)果如下面6張圖所示:

1 至圖 3 分別是該算法和另外幾種算法在MovieLens 數(shù)據(jù)集上的測評效果,可以看到,不管是在準(zhǔn)確率(測評指標(biāo)為 Mean Absolute Error),熱度偏差指標(biāo)還是位置偏差指標(biāo)的測評上,該算法均表現(xiàn)優(yōu)異。

4 到圖6 展示的是算法在 LDOS-CoMoDal 數(shù)據(jù)集合上的表現(xiàn)。與上一組數(shù)據(jù)相似,該算法的性能表現(xiàn)出眾,能夠很好的解決位置偏差問題。

推薦系統(tǒng)中的不公平現(xiàn)象由來已久,隨著近些年來人們對于推薦系統(tǒng)的關(guān)注度不斷地提升。推薦系統(tǒng)公平性問題也引起了越來越多人的關(guān)注。推薦系統(tǒng)中關(guān)注最多的不公平性問題其實(shí)是流行度偏差(Popularity Bias)。早在2017 年,Alex Beutel 等人就提出了 Focused Learning, 用于解決該問題。

后期大多數(shù)跟進(jìn)工作主要采用正則化項的方式進(jìn)行。2020 年,國際學(xué)術(shù)會議 ICBDT 2020 的最佳論文報告獎MatRec 另辟蹊徑,利用了類似SVDFeature 的方式將用戶和物品排名作為變量,嵌入到矩陣分解算法中,取得了不俗的成績。本文所介紹的算法,沿用了傳統(tǒng)的正則化項的思路,利用了推薦系統(tǒng)中的冪律現(xiàn)象,成功對推薦系統(tǒng)中的位置偏差進(jìn)行建模,較為令人滿意的解決了該問題。

隨著商品化大潮愈演愈烈,以及最近幾年的全球經(jīng)濟(jì)不景氣。越來越多的企業(yè)主開始關(guān)注自己的短期利益,而忽略所謂人工智能倫理等短期收益似乎不如傳統(tǒng)方法,但是長期收益卻能使公司建立起完善的生態(tài)體系和卓越的品牌效應(yīng)的技術(shù)方向。如果我們不解決推薦系統(tǒng)的馬太效應(yīng),我們會發(fā)現(xiàn)推薦系統(tǒng)的生態(tài)會變差:比如在游戲中,我們給用戶推薦玩家聯(lián)盟。最有效的方式其實(shí)可能是推薦人數(shù)最多的前3 個聯(lián)盟,但如果我們?yōu)榱俗非簏c(diǎn)擊率就這么做,毫無疑問會把剩下的聯(lián)盟全部搞死,整個產(chǎn)品的生態(tài)也就完了。所以有的時候,我們就算是犧牲了由點(diǎn)擊率提升帶來的經(jīng)濟(jì)效益,也應(yīng)該把產(chǎn)品的口碑和生態(tài)搞好。而本文介紹的算法,就提供了這樣一種思路。

作者簡介

汪昊,前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)。曾在 ThoughtWorks、豆瓣、百度、新浪等公司擔(dān)任技術(shù)和技術(shù)高管職務(wù)。擔(dān)任過創(chuàng)業(yè)公司CTO 和技術(shù)VP。在互聯(lián)網(wǎng)公司和金融科技、游戲等公司任職 13 年,對于人工智能、計算機(jī)圖形學(xué)和區(qū)塊鏈等領(lǐng)域有著深刻的見解和豐富的經(jīng)驗(yàn)。在國際學(xué)術(shù)會議和期刊發(fā)表論文 42 篇,獲得IEEE SMI 2008 最佳論文獎、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024最佳論文報告獎。

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2019-10-22 14:30:11

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2021-12-28 08:38:26

Linux 中斷喚醒系統(tǒng)Linux 系統(tǒng)

2022-01-08 20:04:20

攔截系統(tǒng)調(diào)用

2020-04-14 10:20:12

MySQL數(shù)據(jù)庫死鎖

2024-10-16 11:40:47

2018-03-23 20:45:23

機(jī)器學(xué)習(xí)NLP文本數(shù)據(jù)

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機(jī)

2017-12-01 05:01:35

WiFi干擾無線網(wǎng)絡(luò)

2021-07-14 09:00:00

JavaFX開發(fā)應(yīng)用

2021-12-15 08:49:21

gpio 子系統(tǒng)pinctrl 子系統(tǒng)API

2011-04-28 09:23:36

REST

2009-12-24 13:52:57

網(wǎng)絡(luò)接入控制解決方案

2021-07-13 10:17:25

GitHubLinux代碼

2021-02-26 11:54:38

MyBatis 插件接口

2011-02-22 13:46:27

微軟SQL.NET

2021-09-26 16:08:23

CC++clang_forma

2022-07-27 08:16:22

搜索引擎Lucene

2022-03-14 14:47:21

HarmonyOS操作系統(tǒng)鴻蒙

2023-04-26 12:46:43

DockerSpringKubernetes
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號